OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion,
la concurrence ne se porte pas forcément mieux
Les modèles d'intelligence artificielle d'OpenAI représentent une avancée notable dans le traitement du langage naturel. Utilisés pour générer du texte, répondre à des questions, traduire et même assister à des tâches de créativité, ces modèles montrent des capacités impressionnantes. Cependant, des recherches récentes, s'appuyant sur un benchmark d'OpenAI, indiquent que même ses modèles les plus sophistiqués produisent encore un nombre surprenant d'erreurs, mettant en lumière les limitations persistantes de cette technologie. Une évolution qui devrait nous rappeler qu'il faut traiter les résultats de n'importe quel LLM avec beaucoup de scepticisme et avec la volonté de passer le texte généré au peigne fin.
OpenAI a publié un nouveau benchmark, baptisé « SimpleQA », conçu pour mesurer la précision des résultats de ses propres modèles d'intelligence artificielle et de ceux de la concurrence.
Ce faisant, l'entreprise d'intelligence artificielle a révélé à quel point ses derniers modèles sont incapables de fournir des réponses correctes. Lors de ses propres tests, son modèle de pointe o1-preview, qui a été lancé le mois dernier, a obtenu un taux de réussite catastrophique de 42,7 % sur le nouveau test de référence.
En d'autres termes, même la crème de la crème des grands modèles de langage (LLM) récemment annoncés est bien plus susceptible de fournir une réponse tout à fait incorrecte qu'une réponse correcte.
La concurrence ne se porte pas forcément mieux
Les modèles concurrents, comme celui d'Anthropic, ont obtenu des résultats encore plus faibles au test de référence SimpleQA d'OpenAI, le modèle Claude-3.5-sonnet récemment publié n'ayant répondu correctement qu'à 28,9 % des questions. Toutefois, le modèle était beaucoup plus enclin à révéler sa propre incertitude et à refuser de répondre - ce qui, compte tenu des résultats accablants, est probablement mieux ainsi.
Pire encore, OpenAI a constaté que ses propres modèles d'IA ont tendance à surestimer considérablement leurs propres capacités, une caractéristique qui peut les amener à être très confiants dans les faussetés qu'ils concoctent.
Les LLM souffrent depuis longtemps « d'hallucinations », un terme élégant que les entreprises d'IA ont inventé pour désigner la tendance bien documentée de leurs modèles à produire des réponses qui ne sont rien d'autre que de la foutaise.
Malgré le risque très élevé d'aboutir à des inventions totales, le monde a adopté la technologie à bras ouverts, des étudiants générant des devoirs aux développeurs employés par les géants de la technologie générant d'énormes quantités de code.
Lors de l'annonce des résultats financiers du troisième trimestre 2024, Sundar Pichai, PDG de Google, a dévoilé une information marquante : plus de 25 % du nouveau code produit par Google est désormais généré par l'intelligence artificielle (IA). Pichai a déclaré que l'utilisation de l'IA pour le codage permettait de « stimuler la productivité et l'efficacité » au sein de Google. Une fois le code généré, il est ensuite vérifié et revu par les employés, a-t-il ajouté.
« Cela permet à nos ingénieurs d'en faire plus et d'aller plus vite », a déclaré Pichai. « Je suis enthousiasmé par nos progrès et les opportunités qui s'offrent à nous, et nous continuons à nous concentrer sur la création de produits de qualité. »
L'armée s'est également joint à la danse
L'United States Africa Command (AFRICOM) a reçu l'approbation pour acheter des services de cloud computing directement auprès de Microsoft, via le contrat Joint Warfighting Cloud Capability d'une valeur de 9 milliards de dollars. Ce contrat inclut des outils fournis par OpenAI, tels que le modèle de langage GPT-4 et DALL-E, l'outil de génération d'images.
L'AFRICOM déclare que « la capacité à prendre en charge des charges de travail avancées en matière d'IA/ML est cruciale. Cela inclut des services de recherche, de traitement du langage naturel, [d'apprentissage automatique] et d'analyse unifiée pour le traitement des données ».
« Il est extrêmement alarmant de constater qu'ils sont explicites dans l'utilisation des outils OpenAI pour "l'analyse unifiée du traitement des données" afin de s'aligner sur les objectifs de la mission de l'USAFRICOM », a déclaré Heidy Khlaaf, scientifique en chef de l'IA à l'AI Now Institute, qui a déjà mené des évaluations de sécurité pour OpenAI. « En particulier en affirmant qu'ils pensent que ces outils améliorent l'efficacité, la précision et l'évolutivité, alors qu'il a été démontré que ces outils sont très imprécis et qu'ils fabriquent constamment des résultats. Ces affirmations témoignent d'une méconnaissance préoccupante, de la part de ceux qui achètent ces technologies, des risques élevés que ces outils posent dans les environnements critiques. »
Anthropic a annoncé jeudi qu' elle s'associait à la société d'analyse de données Palantir et à Amazon Web Services (AWS) pour permettre aux agences de renseignement et de défense américaines d'accéder à la famille de modèles d'IA Claude d'Anthropic.
Cette nouvelle intervient alors qu'un nombre croissant de fournisseurs d'IA cherchent à conclure des accords avec des clients de la défense américaine pour des raisons stratégiques et fiscales. Meta a récemment révélé qu'elle mettait ses modèles Llama à la disposition de ses partenaires de la défense, tandis qu'OpenAI cherche à établir une relation plus étroite avec le ministère américain de la défense.
Kate Earle Jensen, responsable des ventes chez Anthropic, a déclaré que la collaboration de l'entreprise avec Palantir et AWS permettra d'« opérationnaliser l'utilisation de Claude » au sein de la plateforme de Palantir en tirant parti de l'hébergement AWS. Claude est devenu disponible sur la plateforme de Palantir au début du mois et peut maintenant être utilisé dans l'environnement accrédité de Palantir pour la défense, Palantir Impact Level 6 (IL6).
Des fissures commencent à apparaître
Imaginez ce scénario: dans un hôpital moderne, un outil d'IA, conçu pour améliorer le diagnostic et le traitement des patients, commence à inventer des informations que ni les médecins ni les patients n'ont jamais fournies. Ce n'est pas de la science-fiction, mais une inquiétante réalité mise en lumière par des chercheurs récents.
OpenAI a vanté son outil de transcription Whisper, basé sur l'intelligence artificielle, comme ayant une robustesse et une précision proches du « niveau humain ».
Mais Whisper présente un défaut majeur : il a tendance à inventer des morceaux de texte, voire des phrases entières, selon des entretiens menés avec plus d'une douzaine d'ingénieurs logiciels, de développeurs et de chercheurs universitaires. Ces experts ont déclaré que certains des textes inventés (connus dans l'industrie sous le nom d'hallucinations) peuvent inclure des commentaires raciaux, une rhétorique violente et même des traitements médicaux imaginaires.
Selon les experts, ces fabrications posent problème car Whisper est utilisé dans une multitude d'industries à travers le monde pour traduire et transcrire des interviews, générer du texte dans des technologies grand public populaires et créer des sous-titres pour des vidéos.
Ce qui est encore plus inquiétant, selon eux, c'est que les centres médicaux se précipitent pour utiliser des outils basés sur Whisper afin de transcrire les consultations des patients avec les médecins, malgré les avertissements d'OpenAI selon lesquels l'outil ne devrait pas être utilisé dans des « domaines à haut risque ».
Les policiers américains commencent eux aussi à adopter l'IA, une évolution terrifiante qui pourrait conduire les forces de l'ordre à accuser à tort des innocents ou à favoriser des préjugés troublants.
Les erreurs fréquentes de ces modèles soulèvent plusieurs critiques importantes
Premièrement, l'IA semble avoir des difficultés à traiter les nuances complexes ou à raisonner au-delà de ce qui est explicite dans les données sur lesquelles elle a été entraînée. En conséquence, elle peut échouer dans des situations nécessitant de l'analyse contextuelle ou une compréhension fine des implications des informations.
D'autre part, OpenAI est conscient de ces lacunes et met en place des méthodes pour évaluer et réduire ces erreurs. La société mène des recherches actives pour améliorer la précision et la fiabilité des modèles, notamment en utilisant des techniques de "red team" (test de robustesse par des équipes dédiées à trouver les failles du modèle) et des systèmes de rétroaction humaine pour affiner les réponses de l'IA. Ces efforts visent à minimiser les "hallucinations" et à accroître la précision des réponses, mais les résultats montrent que le problème reste difficile à éliminer complètement.
Les dernières découvertes sur OpenAI sont un nouveau signe inquiétant de l'incapacité des LLM actuels à dire la vérité de manière fiable.
Les progrès réalisés par OpenAI témoignent d'un potentiel immense, mais la fréquence des erreurs pose des questions quant aux usages de ces technologies. Des améliorations substantielles devront être apportées pour que l'IA devienne véritablement fiable dans des contextes critiques. Dans l'état actuel des choses, une vigilance accrue et un encadrement réglementaire sont nécessaires pour encadrer l'utilisation de ces outils, surtout dans des domaines où une erreur pourrait avoir des répercussions majeures.
En fin de compte, bien que les modèles d'OpenAI ouvrent des perspectives fascinantes, leur imperfection invite à la prudence. Tant que la technologie ne pourra pas garantir une précision impeccable, il sera essentiel de limiter les attentes et de renforcer la supervision humaine pour éviter les dérives et assurer une utilisation sûre et éthique de l'intelligence artificielle.
La question de savoir s'il s'agit d'un problème qui peut être résolu avec des ensembles d'entraînement encore plus grands - ce que les leaders de l'IA s'empressent d'assurer aux investisseurs - reste ouverte.
Sources : résultats de l'étude d'OpenAI, SimpleQA
Et vous ?
Si une IA donne une mauvaise réponse ayant des conséquences graves, qui devrait être tenu pour responsable ? Les entreprises devraient-elles offrir des garanties ou des assurances sur la fiabilité de leurs modèles d’IA ?
Devrait-on responsabiliser davantage les utilisateurs pour qu’ils vérifient les informations obtenues auprès d'une IA ? Quels outils ou méthodes pourraient aider les utilisateurs à identifier plus facilement les erreurs d’une IA ?
Les utilisateurs risquent-ils de devenir trop confiants face aux réponses de l’IA ? Comment l’IA pourrait-elle influencer la perception de l'exactitude ou de la fiabilité des informations ?
Partager