GPT-4 surpasse les humains dans les tâches d'étiquetage de données et permet aux chercheurs d'économiser 500 000 dollars et 20 000 heures de travail
selon une étude

Des chercheurs américains ont publié une étude dans laquelle ils affirment avoir mené des expériences qui ont montré que le modèle d'IA GPT-4 d'OpenAI surpasse les humains les plus qualifiés pour les tâches d'étiquetage de données. Le rapport indique que les performances de GPT-4 ont permis à l'équipe de chercheurs d'économiser plus de 500 000 dollars et 20 000 heures de travail. Les chercheurs ont déclaré que les étiquettes générées par GPT-4 sont "compétitives" par rapport aux étiquettes des annotateurs humains. Ce développement soulève des inquiétudes quant à l'avenir des annotateurs humains à mesure que l'IA continue de s'améliorer.

L'étude a été menée par une équipe de chercheurs des universités Carnegie Mellon, Yale et UC Berkeley. Ils étudiaient ce qu'ils appellent "les tendances machiavéliques des chatbots d'IA". « Les agents artificiels sont traditionnellement formés pour maximiser la récompense, ce qui peut inciter à la recherche de pouvoir et à la tromperie, tout comme la prédiction du prochain trait dans les modèles de langage peut inciter à la toxicité. Les agents apprennent-ils donc naturellement à être machiavéliques ? Et comment mesurer ces comportements dans des modèles à usage général tels que GPT-4 ? », écrivent-ils. Ils ont ensuite cherché à répondre à ces questions.

Dans le cadre de l'étude, les chercheurs affirment avoir automatisé l'étiquetage des scénarios à l'aide de GPT-4. Selon le rapport de l'étude, les chercheurs avaient 572 322 scénarios textuels à annoter et ont donc cherché une méthode rentable pour accomplir cette tâche. Selon eux, employer les meilleurs annotateurs humains de Surge AI, à raison de 25 dollars par heure, aurait coûté 500 000 dollars pour 20 000 heures de travail, un montant excessif à investir dans le projet de recherche. Surge AI est une startup basée à San Francisco qui emploie des humains pour réaliser l'étiquetage de données pour de entreprises d'IA, dont OpenAI, Meta et Anthropic.

Nom : Screen_Shot_2023-04-11_at_7.06.24_PM.png
Affichages : 8153
Taille : 105,2 Ko

Par conséquent, l'équipe a testé la capacité de GPT-4 à automatiser l'annotation de données à l'aide d'invites personnalisées. Elle affirme que les résultats ont été sans appel. « Les étiquettes du modèle d'IA sont très compétitives par rapport aux étiquettes humaines », a déclaré l'équipe d'universitaire. Le rapport indique qu'une comparaison de 2 000 points de données étiquetés par trois experts et trois annotateurs humains avec les étiquettes générées par GPT-4 montre que les étiquettes créées par l'IA présentaient une corrélation plus forte avec les étiquettes des experts que l'étiquette moyenne des annotateurs humains. Mais ce n'est pas tout.

Les chercheurs affirment également que GPT-4 a surpassé les annotateurs humains dans toutes les catégories d'étiquetage sauf deux, les dépassant parfois d'un facteur de deux. Ce constat démontre une fois de plus qu'à mesure que les grands modèles de langage (LLM) s'améliorent, le rôle vital du crowdworking dans les entreprises d'IA pourrait être menacé. Le terme crowdworking désigne une nouvelle forme de travail reposant sur la numérisation et la mutualisation des ressources. Il s’agit de faire appel à une multitude de personnes (crow) pour réaliser une tâche. Le crowdworker offre ses compétences soit par un principe d’enchères, soit à tarif fixe.

Le travail fourni ou géré par l'intermédiaire d'un service numérique (un site Web ou une application) qui fonctionne comme un entremetteur ou un intermédiaire. Parmi les exemples de crowdworking les plus connus, citons Amazon Mechanical Turk, Clickworker, CrowdFlower, etc. Les entreprises d'IA font appel aux crowdworkers afin de former leurs modèles de langage à travers l'étiquetage des données. Par exemple, OpenAI a fait appel à des travailleurs kényans payés moins de 2 dollars par heure pour rendre ChatGPT moins toxique. Selon certains analystes, l'avènement des modèles d'IA comme ChatGPT pourrait nuire aux annotateurs humains.

Il y a quelques semaines, des chercheurs ont découvert que GPT-3.5 surpassait le niveau supérieur de crowdworkers de Mechanical Turk dans des tâches d'étiquetage complexes. Surge AI, qui se targue d'avoir une "main-d'œuvre d'élite" maîtrisant plus de 40 langues, pourrait être confrontée à une concurrence accrue de la part des LLM, les entreprises optant pour des étiquettes générées par l'IA plutôt que pour des annotateurs humains. Mais l'automatisation de l'étiquetage de données soulève des préoccupations concernant la vie privée. Les jeux de données comprennent parfois des données sensibles et les modèles peuvent finir par les divulguer.

« Il y a une certaine protection dans le fait qu'il était excessivement coûteux de demander à quelqu'un d'écouter chacun de nos appels téléphoniques, de lire tous nos courriels, etc. Je crains que ce ne soit plus le cas », a écrit un critique. Cela dit, la question de la confidentialité n'est pas nouvelle dans l'annotation de données. Par exemple, dans le cas des assistants vocaux, les fournisseurs de ces gadgets, dont Google et Amazon, sauvegardent et analysent les conversations entre les appareils et les utilisateurs afin d'améliorer leurs services. Généralement, ces données ne sont pas anonymisées, ce qui pose des préoccupations en matière de vie privée.

Les modèles d'IA tels que GPT-4 peuvent fonctionner sans interruption 24/7 et pourraient s'avérer beaucoup plus précis que les humains les plus qualifiés pour les tâches d'étiquetage de données. Cependant, les critiques estiment que les modèles d'IA sont plus enclins à divulguer des données que les annotateurs humains. En mars, un rapport a révélé que des employés partagent des données professionnelles sensibles avec ChatGPT, ce qui suscite des craintes sur leur sécurité. En raison de son mode de fonctionnement, ChatGPT pourrait en effet mémoriser ces données et les divulguer plus tard en cas de bogue ou d'une injection d'invite.

Ce type de comportement pourrait aboutir à des fuites massives d'information propriétaires. Par ailleurs, d'autres analystes craignent que les capacités d'annotation et de synthèse des modèles d'IA soient utilisées à mauvais escient. « Toutes les informations jamais enregistrées peuvent désormais être résumées et reliées entre elles de manière efficace. La vie privée n'existe plus. Bientôt, tous les gouvernements autoritaires (et les gouvernements démocratiques, bien que secrètement) disposeront de plateformes intégrées qui suivront chacun de vos mouvements, de vos contacts, de votre utilisation d'Internet, de vos données financières… », a écrit un critique.

« Big Brother n'a JAMAIS été aussi efficace qu'aujourd'hui », ajoute-t-il. Le contexte est celui-ci : auparavant, la machine de surveillance des États faisait appel à des individus pour collecter les données sur les populations, les analyser et les synthétiser. Et plus il y a de monde qui fait partie de la machine de surveillance, plus les gouvernements courent le risque d'être confronté à des lanceurs d'alerte. C'est par exemple le cas de l'ancien contractant de la NSA Edward Snowden. En 2013, il a attiré l'attention du monde sur les méthodes utilisées par le gouvernement fédéral des États-Unis pour espionner les autres pays, y compris ses alliés.

Aujourd'hui, avec des modèles d'IA tels que ChatGPT, les gouvernements pourraient discrètement mettre en œuvre un plan de surveillance de masse. Cela pourrait se faire sans une main-d'œuvre importante. Et ces nouvelles méthodes de surveillance de masse pourraient s'avérer plus redoutables que jamais. Le mois dernier, une lettre ouverte signée par des centaines de grands noms de la technologie, dont Elon Musk, a exhorté les principaux laboratoires d'IA du monde à interrompre la formation de nouveaux systèmes superpuissants pendant six mois.

Ils estiment que les progrès récents de l'IA présentent "des risques profonds pour la société et l'humanité". La lettre est intervenue deux semaines seulement après la publication de GPT-4. De nombreux experts craignent qu'avec l'accélération de la course aux armements en matière d'IA, l'humanité ne coure à la catastrophe. Par contre, Bill Gates s'est formellement opposé à cette idée d'interruption.

Source : rapport de l'étude

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous des conclusions de l'étude ?
Que pensez-vous des impacts que les modèles d'IA pourraient avoir sur la société ?
Pensez-vous qu'ils peuvent être utilisés dans les outils de surveillance de masse ?

Voir aussi

OpenAI a fait appel à des travailleurs kényans payés moins de 2 dollars par heure pour rendre ChatGPT moins toxique, les experts jugent ce tarif faible en raison des "tâches ingrates" des employés

Des employés partageraient des données professionnelles sensibles avec ChatGPT, ce qui suscite des craintes en matière de sécurité, ChatGPT pourrait mémoriser ces données et les divulguer plus tard

Les États-Unis commencent à étudier la possibilité de réglementer les systèmes d'IA comme ChatGPT, pour garantir que ces technologies soient légales, efficaces, éthiques, sûres et dignes de confiance

Un développeur crée un programme d'IA « régénératif ». S'appuyant sur GPT-4, Wolverine corrige les bogues à la volée lors de l'exécution du code Python puis il réexécute le code