Je veux rien dire, mais c'est le début du scénario du film "le jour d'après" 🙃
09.12.2025 08:47 — 👍 1 🔁 0 💬 0 📌 0@tdelc.bsky.social
Méthodologue statisticien à Statbel, enseignant vacataire à l'Université de Lille, créateur de jeu à l'occasion, et blogueur ici : https://blogs.mediapart.fr/thomas-delclite/blog
Je veux rien dire, mais c'est le début du scénario du film "le jour d'après" 🙃
09.12.2025 08:47 — 👍 1 🔁 0 💬 0 📌 0Soutien aux #salesconnes
08.12.2025 22:42 — 👍 0 🔁 0 💬 0 📌 0c'est vrai que ça aurait été chouette de s'y retrouver ! ça sera pour une prochaine fois 🙂
08.12.2025 11:22 — 👍 1 🔁 0 💬 0 📌 0Il y a sans doute encore des erreurs et imprécisions. Notamment, il manque encore une section complète dédiée aux bonnes pratiques pour des extractions régulières : horodateur, sauvegarde dans des fichiers séparés, etc. ça sera pour l'an prochain 🙂
07.12.2025 20:08 — 👍 1 🔁 0 💬 0 📌 0Page de recherche de billets de train de SNCF Connect
Je présente enfin la méthode que j'ai utilisé pour extraire les prix des billets de trains sur le site SNCF Connect. Étant donné le nombre de protections sur ce site web, la technique ici est de contrôler intégralement votre PC avec une console java puis de simuler votre souris et clavier.
07.12.2025 20:08 — 👍 2 🔁 0 💬 1 📌 0"Ce simple passage par l’émulateur permet donc d’obtenir un code source différent, et de profiter du contenu dynamique du site. Bluesky permet, en scrollant, de faire apparaître davantage de messages. Il est possible d’émuler ce scrolling avec la commande scroll_by, en indiquant le nombre de pixels. Avec un scrolling de 50000 pixels, on atteint facilement la fin de la page, et on active le chargement de la suite du site web. Avec une simple boucle, on peut atteindre 10 fois le bas de la page, et ainsi faire apparaître autant de nouveaux messages. La fonction length ci-dessous permet d’afficher le nombre de messages obtenus après 10 itérations :"
Sur les extractions sur des sites web dynamiques, j'explique tout d'abord comment extraire les posts sur Bluesky ! Et plus généralement comment passer les paywall (si vous avez l'abonnement bien sûr) et sauver vos cookies.
07.12.2025 20:08 — 👍 1 🔁 0 💬 1 📌 0Exemple de Code R pour extraire des encadrés (la fonction est détaillée dans le syllabus)
Sur les extractions sur des sites web statiques, je détaille comment transformer votre code en fonction, et ainsi n'avoir besoin que de deux lignes pour extraire toute une partie de Wikipédia par exemple
07.12.2025 20:08 — 👍 0 🔁 0 💬 1 📌 0texte du syllabus : "J’essaie ici de faire le point sur le cadre juridique français et européen, sans être juriste moi-même. La réglementation a beaucoup évolué ces dernières années et, en 2025, voici les éléments essentiels à garder en tête. Avant toute chose, rappelons que les propriétaires de site web dispose de plusieurs moyens légaux et techniques pour restreindre ou refuser l’accès à ses données :"
"Par ailleurs, la législation européenne a introduit deux exceptions obligatoires concernant la Fouille de Textes et de Données (TDM). Ces exceptions ont été pensé concernant les entraînements de modèles d’intelligence artificielle et de machine learning, mais s’appliquent pour tout projet de recherche nécessitant de l’extraction de données. L’exception qui nous concerne ici est précisé à l’article 3, à propos de la fouille de textes et de données à des fins de recherche scientifique."
Sur la législation, j'ai détaillé les exceptions du droit européen permettant à la recherche académique de pratiquer l'extraction de données (merci @bdecourson.bsky.social pour les remarques et conseils de lecture)
07.12.2025 20:08 — 👍 2 🔁 1 💬 1 📌 0Mon cours de webscraping recommence bientôt, c'est donc l'occasion de le mettre à jour !
Le syllabus est disponible librement ici rpubs.com/tdelc/1265028 (attention, Rpubs ne s'ouvre pas avec Chrome)
Ou alors directement en pdf ici : drive.google.com/file/d/18po8...
Les ajouts ⬇️
Jeu concours de mediapart pour gagner des chaussettes.
Se faire complément avoir par la société de consommation 🙂. @mediapart.fr , vous devriez avoir honte de nous tenter ainsi.
07.12.2025 10:17 — 👍 0 🔁 0 💬 0 📌 0"Aux yeux d’Edlira Nano, membre de La Quadrature du Net, une association de défense et de promotion des droits et des libertés sur Internet, cela ne dit rien de « la sécurité réelle de l’enquête ». Elle observe le glissement sémantique entre anonymat et pseudonymat à plusieurs reprises dans les informations légales. Or, pointe-t-elle, « lever un pseudonyme est possible, mais pas l’anonymat »."
Très bon article de mediapart sur le nième sondage politique et polémique. Notamment sur la formulation des questions, ou les questions de sécurité des données.
www.mediapart.fr/journal/fran...
Bref, cela avance, et j'espère sortir un billet de blog en début d'année prochaine qui analysera toutes les vidéos de l'année 2025 🤞
06.12.2025 23:44 — 👍 1 🔁 0 💬 0 📌 0De mes premières analyses, Les Faits divers sont moins présents pour France Info. Après, une émission comme "le pour et le contre" n'est pas dans les replay Youtube... Ce sera là un angle mort très fort de ma méthodo, je n'analyse que ce que je récupère.
06.12.2025 23:44 — 👍 0 🔁 0 💬 1 📌 0Les partis pris de Pujadas semblent aussi surtout être des moments de faits divers. A l'inverse, l'interview du 8:30 de France Info, ou le face-à-face sur BFMTV sont plus généralement des vidéos classées en Economie.
06.12.2025 23:44 — 👍 0 🔁 0 💬 1 📌 0Classification des vidéos. Les faits divers représentes 65% des vidéos de CNEWS, contre 22% pour France Infos. L'économie représente au contraire 31% des vidéos de France Info
Classification des vidéos, par playlist obtenu. on remarque que les vidéos de Pascal Praud sont encore plus autour des faits divers, comme les partis pris de Pujadas.
Si on regarde la classe principale de chaque vidéo du corpus, sans surprise, CNEWS est surtout classé en faits divers. C'est particulièrement le cas pour les émissions animées par Pascal Praud, mais c'est aussi plus de 50% des "grands rendez vous" ou des "grandes interview".
06.12.2025 23:44 — 👍 0 🔁 0 💬 1 📌 0Mots les plus fréquents par classe : 1 : milliard, impôt, entreprise, euro 2 : national, assemblée, pen , marine, socialiste 3 : trump, donald, israël, poutine, gaza 4 : prison, nicolas, peine, justince, juge 5 : jeune, violence, enfant, femme, police
L'analyse lexico sur les chaînes d'info continue ! Je vise une analyse de toutes les vidéos d'actu / politique / débat 2025 pour les 4 chaînes, ce qui me fait pour l'instant 2213 vidéos.
La lemmatisation et classification d'Iramuteq m'a donné des belles classes bien identifiables :-)
Signé, en défense de la langue française, de ses expressions et des syndicats
05.12.2025 10:01 — 👍 0 🔁 0 💬 0 📌 0Nouvelle publication : avec Emma Nemesien (dont c'est le premier article), @hugotouzet.bsky.social et Yanne Le Lanne, nous avons examiné les relations entre conditions de travail et d'emploi et vote aux européennes de 2024 en Allemagne, en Espagne et en France : shs.cairn.info/revue-europe...
03.12.2025 23:16 — 👍 15 🔁 6 💬 1 📌 1Très chouette interview de @hugotouzet.bsky.social sur @politis.fr ! Cela fait plaisir d'écouter un decryptage calme et documenté sur les sondages, et les différences avec la statistique publique.
youtu.be/DI6oxzjlZ2s?...
Bientôt les IA victimes d’harcelement?...
03.12.2025 10:15 — 👍 0 🔁 0 💬 0 📌 0Mais aucun risque, les données sont "sur un serveur ultra sécurisé"
01.12.2025 16:23 — 👍 0 🔁 0 💬 1 📌 0Par ailleurs, je n'arrive pas à comprendre si le sondage s'est fait par téléphone sur un access panel, ou sur un tirage aléatoire de n° de téléphone.
01.12.2025 12:17 — 👍 0 🔁 0 💬 0 📌 0Mais c'est sur l'usage du sous échantillon des musulmans que devrait porter la critique et les justifications à donner. La représentativité de ce sous échantillon n'a rien d'automatique, et n'est pas garanti par les 15.000 personnes de base.
01.12.2025 12:17 — 👍 0 🔁 0 💬 1 📌 0Ce qui m'intrigue, c'est que tout le propos de justification porte à mon sens sur le pourcentage de musulmans. Or, je pense que sur cet aspect là, le sondage par téléphone fait sur 15000 personnes donne un pourcentage sans doute très fiable !
01.12.2025 12:17 — 👍 0 🔁 0 💬 1 📌 0Autre audition au parlement, des représentant·es de l'IFOP. tout aussi intéressante, surtout les 20 premières minutes sur le cadrage et les différences entre les enquêtes !
youtu.be/miTS-1VT0F0?...
J'imagine bien ! Mais ça ne s'est pas du tout senti. Au contraire même.
30.11.2025 17:28 — 👍 1 🔁 0 💬 0 📌 0Bon, hormis le "la LFI", ça c'est impardonnable 😉
30.11.2025 17:07 — 👍 1 🔁 0 💬 0 📌 0@vtiberj.bsky.social magistral durant son audition au parlement. C'est clair, précis, sourcé, un plaisir à écouter!
youtu.be/z4TEUjFlvlQ?...
Je vois que tout le monde y va de sa propre recette. Alors soyons clair, si on ajoute pas 25cl de bière, la pâte n'a aucun goût !
29.11.2025 20:05 — 👍 3 🔁 0 💬 0 📌 0Ami·es journalistes, le 10 décembre sort le livre express de N. Sarkozy sur son expérience de prisonnier. Une belle occasion pour parler plus généralement des prisons à partir de travaux sérieux.
Une petite sélection d'universitaires à inviter / interviewer sur le sujet (filtre : 100% de femmes). 👇