Un logiciel développé par l'University College London et l'UC Berkeley permet d'identifier les sites de fake news avec une précision de 90 %,
ces derniers seront détectés lors de leur enregistrement

Des universitaires américains et britanniques ont créé un outil d'apprentissage automatique pour prévoir quand des domaines internet nouvellement enregistrés seront utilisés pour diffuser de fausses informations, dans l'espoir que ces sites puissent être bloqués ou fermés avant qu'ils ne polluent les canaux de communication en ligne.

Dans un document de travail récemment publié, "Real-Time Prediction of Online False Information Purveyors and their Characteristics", Anil R Doshi (École de gestion de l'UCL), Sharat Raghavan (Université de Californie, Berkeley) et William Schmidt (Université Cornell) détaillent comment les domaines de fausses informations peuvent être identifiés rapidement. Ils y décrivent comment ils ont utilisé les données d'enregistrement de domaines, en combinaison avec les données de navigation Web de Mozilla, pour construire un classificateur d'apprentissage automatique qui peut anticiper quels sites Web sont susceptibles de diffuser des contenus trompeurs.

« En utilisant les données d'enregistrement des domaines, nous pouvons fournir un système d'alerte précoce en utilisant des données qui sont sans doute difficiles à manipuler par les acteurs. Les acteurs qui produisent de fausses informations ont tendance à préférer rester cachés et nous utilisons cela dans notre modèle, a déclaré Doshi dans un communiqué de presse déclaration.


« Fake news » est une expression utilisée pour décrire la désinformation, la déformation des faits et les nouvelles inventées. C’est un contenu factice, conçu pour ressembler à un reportage authentique, qui est produit pour servir un but précis plutôt que l'intérêt public. Ce type de contenu est devenu un sujet de préoccupation majeure après les élections américaines de 2016. Ce que le bureau américain du directeur du renseignement national a décrit comme une campagne d'influence russe qui combinait des cyberopérations secrètes « avec des efforts manifestes des agences gouvernementales russes, des médias financés par l'État, des intermédiaires tiers et des utilisateurs de médias sociaux payants ou trolls ».

Depuis lors, les fausses informations ont suscité une inquiétude croissante et un examen minutieux de la part des universitaires, des décideurs politiques, des défenseurs de la technologie, des internautes et des entreprises. Certains bénéficiaires de la diffusion de fausses informations qui favorisent l'engagement, comme Google, Facebook et Twitter, ont toutefois été lents à mettre en œuvre des contre-mesures visant à réduire les revenus.

Doshi, Raghavan et Schmidt ont choisi de se concentrer sur le rôle que jouent les sites web en facilitant la diffusion de fausses informations. Les sites web, observent-ils dans leur document de travail, sont rapides à mettre en place et ne coûtent rien à abandonner. Et une fois que les sites qui propagent des mensonges ensemencent le système, les auteurs de la désinformation peuvent compter sur la nature virale de la communication en réseau pour faire passer leur message sur les réseaux de médias sociaux.

Les chercheurs espèrent repérer les sites web conçus pour la malveillance dès le début, avant que le mal ne soit fait. La méthode de détection anticipée qu’ils utilisent est une combinaison des données d'enregistrement de domaines disponibles lors de la création d'un site web et du comportement du navigateur pour déterminer si un site est susceptible de produire de fausses informations. Des caractéristiques telles que le fait que la partie qui s'enregistre reste privée et qu'un site ait été créé à peu près au moment d'un événement digne d'intérêt sont également prises en considération.

« Notre système d'identification anticipée peut aider les décideurs politiques à déployer leurs ressources limitées plus rapidement et plus efficacement en hiérarchisant les domaines susceptibles de faire l'objet de sanctions ou d'une surveillance accrue », explique le document.

Pour construire leur classificateur, les chercheurs se sont appuyés sur divers points de données disponibles dans les enregistrements du domaine public, notamment la présence d'un nom individuel ou institutionnel dans le champ du contact de facturation, l'extension du domaine, le bureau d'enregistrement, l'état d'enregistrement et le pays, et l'inclusion de termes politiques dans le nom de domaine. Ce type d'analyse peut être effectué par quelqu’un de compétent, toutefois l'apprentissage machine apporte l'automatisation, qui est essentielle pour détecter et bloquer rapidement les mauvais sites avant qu'ils ne deviennent viraux.

Les données des chercheurs indiquent que leur classificateur à apprentissage automatique fonctionne raisonnablement bien. Celui-ci a correctement identifié 92 % des domaines de fausses informations et 96,2 % des domaines d'informations légitimes mis en place pour les élections américaines de 2016.

Depuis lors, les fausses informations ont suscité une inquiétude croissante et un examen minutieux de la part des universitaires, des décideurs politiques, des défenseurs de la technologie, des internautes et des entreprises. Certains bénéficiaires de la diffusion de fausses informations qui favorisent l'engagement, comme Google, Facebook et Twitter, ont toutefois été lents à mettre en œuvre des contre-mesures visant à réduire les revenus.

Doshi, Raghavan et Schmidt ont choisi de se concentrer sur le rôle que jouent les sites web en facilitant la diffusion de fausses informations. Les sites web, observent-ils dans leur document de travail, sont rapides à mettre en place et ne coûtent rien à abandonner. Et une fois que les sites qui propagent des mensonges ensemencent le système, les auteurs de la désinformation peuvent compter sur la nature virale de la communication en réseau pour faire passer leur message sur les réseaux de médias sociaux.

Sean Gallagher, un chercheur sur les menaces au sein des SophosLabs, a déclaré que la technique des chercheurs est similaire à celle utilisée par les professionnels de la sécurité informatique et a averti que la détection de la désinformation est fondamentalement peu fiable parce que ceux qui la pratiquent s'adaptent aux défenses.

« La technique d'apprentissage automatique décrite dans ce document ressemble beaucoup au travail effectué pour détecter les domaines de phishing potentiels et les sites web frauduleux. Les tactiques de désinformation, comme celles des autres menaces du web, sont fluides et la variation des tactiques pourrait rendre difficile un système de détection 100 % précis, surtout étant donné qu'il existe d'autres canaux de désinformation », a-t-il déclaré.

Les universitaires concernés semblent le comprendre. Ils s'attendent à ce que leur classificateur d'apprentissage machine soit utilisé en conjonction avec d'autres outils comme les classificateurs basés sur le texte, dans l'espoir que « les décideurs politiques puissent atténuer la possibilité de prendre des mesures basées sur d'éventuelles classifications faussement positives, qui sont inhérentes à tout système d'apprentissage machine ».

Les recherches se poursuivent en reconnaissance du fait que l'environnement est en constante évolution et que si l'outil fonctionne bien maintenant, les mauvais acteurs y réagiront. Cela souligne la nécessité d'une innovation et d'une recherche constantes et continues dans ce domaine.

Sources : Document de travail, Communiqué de presse

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

Loi anti-fake news: le CSA détaille ses recommandations pour les plateformes en ligne. Et ouvre une consultation publique

Fake news : les sites d'au moins 5 millions de visiteurs uniques/mois doivent révéler l'identité des annonceurs, pour les campagnes d'au moins 100*€

Loi contre les fake news : des députés de gauche saisissent le Conseil constitutionnel, et dénoncent une "proposition de loi, téléguidée par l'Elysée"