Un outil d'IA utilisé dans les hôpitaux invente des choses que personne n'a jamais dites, selon des chercheurs

**Stéphane le calme** · 29/10/2024, 10h32

L'outil de transcription Whisper d'OpenAI, censé avoir une précision proche du « niveau humain », est celui qui invente le plus d'informations, selon des chercheurs.
Mais les hôpitaux continuent de l'utiliser

Imaginez ce scénario: dans un hôpital moderne, un outil d'IA, conçu pour améliorer le diagnostic et le traitement des patients, commence à inventer des informations que ni les médecins ni les patients n'ont jamais fournies. Ce n'est pas de la science-fiction, mais une inquiétante réalité mise en lumière par des chercheurs récents.

Le but premier des outils d'IA dans les hôpitaux est d'analyser les données des patients pour aider les professionnels de santé à prendre des décisions éclairées. Cependant, une nouvelle étude révèle que certains de ces systèmes peuvent générer des informations erronées, voire totalement inventées. Cette situation pourrait avoir des conséquences graves pour la sécurité des patients et l'efficacité des traitements.

La découverte inquiétante

L'intégration de l'intelligence artificielle (IA) dans le domaine de la santé a toujours été envisagée comme une avancée révolutionnaire. Ces systèmes sont censés analyser d'énormes quantités de données médicales pour aider les professionnels de santé à prendre des décisions éclairées. De l'optimisation des traitements à la prévision des épidémies, les applications potentielles de l'IA semblent infinies.

Cependant, une récente étude menée par une équipe de chercheurs en informatique et en santé a révélé une vérité troublante: certains outils d'IA utilisés dans des hôpitaux ont commencé à générer des informations erronées, voire complètement fictives. Par exemple, certaines IA ont attribué de faux symptômes à des patients ou suggéré des diagnostics basés sur des données inexistantes.

Ces erreurs ne sont pas seulement des bogues techniques mais sont souvent liées à la manière dont les algorithmes sont formés et interprètent les données. Les chercheurs ont identifié plusieurs cas où des systèmes d'IA ont proposé des traitements inappropriés ou mal interprété des données cliniques, mettant potentiellement en danger la vie des patients.

Le cas de Whisper d'OpenAI

OpenAI a vanté son outil de transcription Whisper, basé sur l'intelligence artificielle, comme ayant une robustesse et une précision proches du « niveau humain ».

Mais Whisper présente un défaut majeur : il a tendance à inventer des morceaux de texte, voire des phrases entières, selon des entretiens menés avec plus d'une douzaine d'ingénieurs logiciels, de développeurs et de chercheurs universitaires. Ces experts ont déclaré que certains des textes inventés (connus dans l'industrie sous le nom d'hallucinations) peuvent inclure des commentaires raciaux, une rhétorique violente et même des traitements médicaux imaginaires.

Selon les experts, ces fabrications posent problème car Whisper est utilisé dans une multitude d'industries à travers le monde pour traduire et transcrire des interviews, générer du texte dans des technologies grand public populaires et créer des sous-titres pour des vidéos.

Ce qui est encore plus inquiétant, selon eux, c'est que les centres médicaux se précipitent pour utiliser des outils basés sur Whisper afin de transcrire les consultations des patients avec les médecins, malgré les avertissements d'OpenAI selon lesquels l'outil ne devrait pas être utilisé dans des « domaines à haut risque ».

L'ampleur du problème est difficile à cerner

L'ampleur du problème est difficile à cerner, mais des chercheurs et des ingénieurs ont déclaré qu'ils avaient souvent été confrontés aux hallucinations de Whisper dans le cadre de leur travail. Un chercheur de l'université du Michigan qui menait une étude sur les réunions publiques, par exemple, a déclaré avoir trouvé des hallucinations dans huit transcriptions audio sur dix qu'il a inspectées, avant de commencer à essayer d'améliorer le modèle.

Un ingénieur en apprentissage automatique a déclaré avoir initialement découvert des hallucinations dans environ la moitié des plus de 100 heures de transcriptions de Whisper qu'il a analysées. Un troisième développeur a déclaré avoir trouvé des hallucinations dans presque chacune des 26 000 transcriptions qu'il a créées avec Whisper.

Les problèmes persistent même dans des échantillons audio courts et bien enregistrés. Une étude récente menée par des informaticiens a révélé 187 hallucinations dans plus de 13 000 extraits audio clairs qu'ils ont examinés.

Selon les chercheurs, cette tendance conduirait à des dizaines de milliers de transcriptions erronées sur des millions d'enregistrements.

De telles erreurs pourraient avoir des « conséquences très graves », en particulier dans les hôpitaux, a déclaré Alondra Nelson, qui a dirigé le Bureau de la politique scientifique et technologique de la Maison Blanche pour l'administration Biden jusqu'à l'année dernière. « Personne ne veut d'un mauvais diagnostic », a déclaré Nelson, professeur à l'Institute for Advanced Study de Princeton, dans le New Jersey. « La barre devrait être plus haute ».

Whisper est également utilisé pour créer des sous-titres pour les sourds et les malentendants, une population particulièrement exposée aux erreurs de transcription. En effet, les sourds et les malentendants n'ont aucun moyen d'identifier les fabrications « cachées parmi tous les autres textes », explique Christian Vogler, sourd, qui dirige le programme d'accès à la technologie de l'université Gallaudet.

Nom : alondra.png
Affichages : 13900
Taille : 427,9 Ko

OpenAI invitée à se pencher sur le problème

La prévalence de ces hallucinations a conduit des experts, des défenseurs et d'anciens employés de l'OpenAI à demander au gouvernement fédéral d'envisager une réglementation de l'IA. Selon eux, OpenAI doit au moins remédier à ce problème.

« Il semble possible de résoudre ce problème si l'entreprise est prête à en faire une priorité », a déclaré William Saunders, un ingénieur de recherche basé à San Francisco qui a quitté OpenAI en février en raison de ses inquiétudes quant à la direction de l'entreprise. « C'est problématique si vous mettez cela sur le marché et que les gens sont trop confiants sur ce qu'il peut faire et l'intègrent dans tous ces autres systèmes ».

Un porte-parole d'OpenAI a déclaré que l'entreprise étudiait en permanence les moyens de réduire les hallucinations et qu'elle appréciait les conclusions des chercheurs, ajoutant qu'OpenAI intégrait le retour d'information dans les mises à jour de ses modèles.

Alors que la plupart des développeurs supposent que les outils de transcription font des fautes d'orthographe ou d'autres erreurs, les ingénieurs et les chercheurs ont déclaré qu'ils n'avaient jamais vu un autre outil de transcription doté d'IA avoir autant d'hallucinations que Whisper.

Nom : christian.png
Affichages : 1687
Taille : 195,7 Ko

Whisper et hallucinations

L'outil est intégré dans certaines versions du chatbot phare d'OpenAI, ChatGPT, et fait partie intégrante des plateformes cloud computing d'Oracle et de Microsoft, qui desservent des milliers d'entreprises dans le monde. Il est également utilisé pour transcrire et traduire des textes en plusieurs langues.

Rien que le mois dernier, une version récente de Whisper a été téléchargée plus de 4,2 millions de fois à partir de la plateforme d'IA à code source ouvert HuggingFace. Sanchit Gandhi, ingénieur spécialisé dans l'apprentissage automatique, a déclaré que Whisper est le modèle de reconnaissance vocale open-source le plus populaire et qu'il est intégré dans tous les domaines, des centres d'appel aux assistants vocaux.

Les professeurs Allison Koenecke, de l'université Cornell, et Mona Sloane, de l'université de Virginie, ont examiné des milliers de courtes séquences obtenues à partir de TalkBank, un référentiel de recherche hébergé par l'université Carnegie Mellon. Elles ont déterminé que près de 40 % des hallucinations étaient nuisibles ou préoccupantes parce que le locuteur pouvait être mal interprété ou mal représenté.

Dans un exemple qu'ils ont découvert, un locuteur a dit : « Lui, le garçon, allait, je ne sais où exactement, prendre le parapluie ». Mais le logiciel de transcription a ajouté : « Il a pris un gros morceau de croix, un tout petit morceau... Je suis sûr qu'il n'avait pas de couteau de terreur et qu'il a tué un certain nombre de personnes ».

Dans un autre enregistrement, un intervenant a décrit « deux autres filles et une dame ». Whisper a inventé un commentaire supplémentaire sur la race, en ajoutant « deux autres filles et une dame, euh, qui étaient noires ».

Dans une troisième transcription, Whisper a inventé un médicament inexistant appelé « antibiotiques hyperactivés ».

Les chercheurs ne savent pas exactement pourquoi Whisper et les outils similaires ont des hallucinations, mais les développeurs de logiciels ont déclaré que les fabrications ont tendance à se produire pendant les pauses, les bruits de fond ou la musique.

Dans ses avertissements en ligne, OpenAI recommande de ne pas utiliser Whisper dans « les contextes de prise de décision, où les défauts de précision peuvent conduire à des défauts prononcés dans les résultats ».

Transcription des rendez-vous médicaux

Cet avertissement n'a pas empêché les hôpitaux ou les centres médicaux d'utiliser des modèles de synthèse vocale, dont Whisper, pour transcrire ce qui est dit lors des visites chez le médecin, afin de permettre au personnel médical de consacrer moins de temps à la prise de notes ou à la rédaction de rapports. Plus de 30 000 cliniciens et 40 systèmes de santé, dont la Mankato Clinic dans le Minnesota et le Children's Hospital Los Angeles, ont commencé à utiliser un outil basé sur Whisper construit par Nabla, qui a des bureaux en France et aux États-Unis.

Cet outil a été affiné sur la base du langage médical pour transcrire et résumer les interactions des patients, a déclaré Martin Raison, directeur de la technologie chez Nabla.

Les responsables de l'entreprise ont déclaré qu'ils étaient conscients que Whisper pouvait provoquer des hallucinations et qu'ils s'efforçaient de résoudre ce problème. Il est impossible de comparer la transcription générée par l'IA de Nabla à l'enregistrement original, car l'outil de Nabla efface l'audio original pour des « raisons de sécurité des données », a expliqué Raison.

Selon Nabla, l'outil a été utilisé pour transcrire environ 7 millions de visites médicales.

Saunders, l'ancien ingénieur d'OpenAI, a déclaré que l'effacement de l'audio original pourrait être inquiétant si les transcriptions ne sont pas vérifiées deux fois ou si les cliniciens ne peuvent pas accéder à l'enregistrement pour vérifier qu'il est correct. « Vous ne pouvez pas détecter les erreurs si vous supprimez la vérité de terrain », a-t-il déclaré.

Nabla précise qu'aucun modèle n'est parfait et que le sien exige actuellement des prestataires médicaux qu'ils modifient et approuvent rapidement les notes transcrites, mais que cela pourrait changer.

Une confiance excessive?

Cette situation pose une question cruciale: accordons-nous trop de confiance à l'intelligence artificielle en milieu médical ? L'idée que des machines puissent prendre des décisions médicales repose sur l'hypothèse que ces systèmes sont infaillibles et toujours rationnels. Cependant, comme toute technologie, l'IA est sujette à des erreurs, notamment lorsqu'elle est mal formée ou mal supervisée.

Les chercheurs soulignent qu'il est essentiel de ne pas se reposer aveuglément sur ces systèmes. Les outils d'IA doivent être rigoureusement validés et constamment supervisés pour s'assurer qu'ils fournissent des informations fiables et précises. La transparence dans la manière dont ces algorithmes sont développés et utilisés est également cruciale pour éviter des erreurs graves.

Pour aller de l'avant, les chercheurs et les développeurs d'IA doivent collaborer étroitement pour renforcer la sécurité et la fiabilité de ces systèmes. Il est nécessaire de mettre en place des protocoles stricts de validation et de contrôle pour éviter que des erreurs similaires ne se reproduisent.

En fin de compte, si l'intelligence artificielle a le potentiel de transformer le secteur de la santé, cette transformation doit se faire de manière responsable et éthique. Les professionnels de la santé doivent continuer à jouer un rôle central dans les décisions médicales, en utilisant l'IA comme un outil complémentaire et non comme un substitut.

Conclusion

La révélation selon laquelle certains outils d'IA dans les hôpitaux peuvent inventer des informations met en lumière l'importance d'une surveillance et d'une validation rigoureuses. Si nous voulons véritablement tirer parti de la puissance de l'intelligence artificielle en médecine, nous devons nous assurer que ces systèmes sont fiables, transparents et sous le contrôle vigilant des professionnels de santé.

Source : rapport des chercheurs

Et vous ?

Comment devrions-nous équilibrer la confiance envers les technologies d'IA et la vigilance nécessaire pour éviter des erreurs?

Selon vous, quels sont les avantages et les inconvénients de l'utilisation de l'IA en milieu hospitalier?

Pensez-vous que les professionnels de la santé devraient toujours avoir le dernier mot sur les décisions médicales, même en présence d'outils d'IA avancés?

Quelle importance accordez-vous à la transparence dans le développement et l'utilisation des algorithmes d'IA en médecine?

Quelles mesures concrètes suggéreriez-vous pour améliorer la fiabilité et la sécurité des systèmes d'IA dans les hôpitaux?

Avez-vous des expériences ou des préoccupations personnelles concernant l'utilisation de l'IA dans les soins de santé?

Un outil d'IA utilisé dans les hôpitaux invente des choses que personne n'a jamais dites, selon des chercheurs

Mode arborescent

Discussions similaires

Partager

Partager