Google, ProPublica et d'autres entités collaborent à la création d'un outil répertoriant les crimes haineux,
qui s'appuie sur l'apprentissage par machine

En partenariat avec ProPublica, Google News Lab a lancé un nouvel outil pour pister les crimes haineux en Amérique. S’appuyant sur l'apprentissage par machine, le Documenting Hate News Index va faire le suivi des crimes haineux signalés dans tous les 50 États, recueillant des données à partir de février 2017.

Le studio de visualisation de données Pitch Interactive a contribué à l'élaboration de l'index, qui collecte les résultats Google News et les filtre à travers l'analyse de langage naturel de Google pour extraire des informations géographiques et contextuelles. Parce qu'ils ne sont catalogués dans aucune base de données officielle nationale aux États-Unis, Google estime que ce projet est un « point de départ » pour la documentation et l'étude des crimes haineux. Bien que le FBI soit légalement tenu de documenter les crimes haineux au niveau fédéral, les autorités locales et au niveau de l’État ne parviennent souvent pas à signaler leurs propres incidents, ce qui peut rendre au mieux ces données incomplètes.

À propos de son API Google Cloud Natural Language, Google précise qu'il « révèle la structure et la signification des textes grâce à des modèles de machine learning puissants, dans une API REST conviviale. Utilisez-la par exemple pour extraire des informations sur des personnes, des lieux et des événements qui apparaissent dans des documents texte, des articles de presse ou des articles de blog. Notre API permet également d'apprécier le sentiment général relatif à un produit sur les médias sociaux, ou d'analyser l'intention qui se dégage des conversations avec les clients, que ce soit dans un centre d'appels ou une application de messagerie. Vous pouvez analyser le texte importé dans votre requête ou intégrer la technologie à votre espace de stockage de documents sur Google Cloud Storage. »

Aussi, Simon Rogers, éditeur de Google News Lab Data, explique que cette initiative constitue « L'une des premières visualisations à utiliser l'apprentissage par machine pour générer son contenu en utilisant l'API Google Natural Language. » Il a ajouté que « Dans ce cas, cela aide les journalistes en creusant des emplacements, des noms et d'autres données utiles dans plus de 3000 rapports – le flux est mis à jour quotidiennement et remonte à février 2017. »

De son côté, ProPublica tente d’expliquer la nécessité d’un projet de cette envergure. « Les élections de 2016 ont effrayé beaucoup d'Américains – notamment par l'intolérance et de la violence qu'elles ont pu inspirer. Le besoin de données fiables sur les détails et la fréquence des crimes haineux et d'autres incidents nés de préjugés n'a jamais été aussi urgent.
« À ce stade, il n'existe tout simplement pas de données nationales fiables sur les crimes motivés par la haine. Et aucune agence gouvernementale ne traite des incidents de harcèlement et d'intimidation de niveau inférieur, comme l'intimidation en ligne ou dans la vie réelle. La documentation et la compréhension de tous ces incidents – des meurtres motivés par la haine aux graffitis antisémites en passant par les trolls racistes en ligne – nécessitent des approches nouvelles et plus créatives.
« C'est pourquoi nous avons organisé une coalition nationale d'éditeurs de journaux, de groupes de défense des droits civiques et de sociétés de technologie qui ont l'intention de créer une base de données sur les crimes de haine signalés et les incidents de partialité.
« ProPublica est un organisme de presse indépendante et sans but lucratif qui produit un journalisme d'investigation dans l'intérêt public. En plus de nous, la liste croissante des partenaires du projet comprend The Google News Lab, Univision News, New York Times Opinion Section, WNYC, BuzzFeed News, First Draft, Meedan, New America Media, The Root, Latino USA, The Advocate, et Ushahidi. Nous travaillons également avec des groupes de droits civiques tels que le Southern Poverty Law Centre et des écoles comme l'École de communication de l'Université de Miami.
« Pour la première fois, nous pourrons examiner de manière rigoureuse les crimes haineux en Amérique – combinant l'analyse de données, le rassemblement d’articles des médias sociaux et d'ambitieuses enquêtes d’investigations. »

L'initiative est une nouvelle branche de données du projet Documenting Hate qui recueille et vérifie les incidents haineux signalés par les contributeurs individuels et par les organismes de presse. Le Hate News Index surveillera les faux positifs (utilisations occasionnelles du mot « haine » par exemple), afin d’établir un équilibre responsable entre l'apprentissage par machine et l’intervention humaine sur un sujet très sensible.

Les événements pendant lesquels se sont produits des crimes haineux seront mappés sur un calendrier dans l'interface utilisateur, mais les utilisateurs peuvent également utiliser une recherche par mot clé ou parcourir les suggestions algorithmiques. Pour quiconque souhaite diriger les données vers une nouvelle direction, Google va rendre open source son ensemble de données Google Trends Datastore via GitHub.

Source : ProPublica, Google Trends Datastore (GitHub), Hate News Index, blog Google, API Google Cloud Natural Langage

Et vous ?

Que pensez-vous de cette initiative ?