Des centaines d'outils d'IA ont été construits pour combattre la Covid-19 et aucun d'entre eux n'a aidé,
mais la pandémie pourrait aider à améliorer l'IA médicale
Lorsque la covid-19 a frappé l'Europe en mars 2020, les hôpitaux ont été plongés dans une crise sanitaire encore mal comprise. Mais il y avait des données en provenance de Chine, qui avait quatre mois d'avance dans la course pour vaincre la pandémie. Si des algorithmes d'apprentissage automatique pouvaient être formés sur ces données pour aider les médecins à comprendre ce qu'ils voient et à prendre des décisions, cela pourrait sauver des vies. Cela ne s'est jamais produit, mais ce n'est pas faute d'efforts. Des équipes de recherche du monde entier se sont mobilisées pour aider. Au final, plusieurs centaines d'outils prédictifs ont été développés et aucun d'entre eux n'a fait une réelle différence et certains étaient potentiellement dangereux. C'est la conclusion accablante de multiples études publiées au cours des derniers mois. Cela fait écho aux résultats de deux grandes études qui ont évalué des centaines d'outils prédictifs développés l'année dernière : celle de Laure Wynants, épidémiologiste à l'université de Maastricht, aux Pays-Bas, qui étudie les outils de détection et celle de Derek Driggs, chercheur en apprentissage automatique à l'université de Cambridge.
La communauté de l'IA, en particulier, s'est empressée de mettre au point des logiciels dont beaucoup pensaient qu'ils permettraient aux hôpitaux de diagnostiquer ou de trier les patients plus rapidement, apportant ainsi le soutien dont ils avaient tant besoin en première ligne, en théorie. Au final, plusieurs centaines d'outils prédictifs ont été développés et aucun d'entre eux n'a fait une réelle différence et certains étaient potentiellement dangereux. En juin, le Turing Institute, le centre national britannique pour la science des données et l'IA, a publié un rapport résumant les discussions d'une série d'ateliers qu'il a organisés fin 2020. Le consensus clair était que les outils d'IA n'avaient eu que peu d'impact, voire aucun, dans la lutte contre la covid-19.
Des outils inadaptés à un usage clinique
Laure Wynants, épidémiologiste à l'université de Maastricht, aux Pays-Bas, qui étudie les outils de détection est l'auteur principale d’une étude qui a évalué des centaines d'outils prédictifs développés l'année dernière. Une analyse publiée dans le British Medical Journal, qui est toujours mise à jour au fur et à mesure que de nouveaux outils sont publiés et que les outils existants sont testés. Elle et ses collègues ont examiné 232 algorithmes permettant de diagnostiquer les patients ou de prédire l'évolution de la maladie chez les personnes atteintes. Ils ont constaté qu'aucun d'entre eux n'était adapté à un usage clinique. Deux seulement ont été jugés suffisamment prometteurs pour être testés ultérieurement. « Les médecins n'avaient vraiment aucune idée de la manière de gérer ces patients. Je me suis dit que s'il y avait un moment où l'IA pouvait prouver son utilité, c'était maintenant. J'avais bon espoir », explique Laure Wynants.
L'étude de Wynants est corroborée par un autre examen de grande ampleur réalisé par Derek Driggs, chercheur en apprentissage automatique à l'université de Cambridge et ses collègues, et publié dans Nature Machine Intelligence. Cette équipe s'est intéressée aux modèles d'apprentissage profond permettant de diagnostiquer la covid-19 et de prédire le risque pour les patients à partir d'images médicales, telles que les radiographies et les tomographies thoraciques. Ils ont examiné 415 outils publiés et Wynants et ses collègues ont conclu qu'aucun n'était adapté à un usage clinique. « Cette pandémie a été un grand test pour l'IA et la médecine. Cela aurait grandement contribué à rallier le public à notre cause. Mais je ne pense pas que nous ayons réussi ce test », dit Driggs, qui travaille lui-même sur un outil d'apprentissage automatique pour aider les médecins pendant la pandémie.
Les deux équipes ont constaté que les chercheurs répétaient les mêmes erreurs de base dans la façon dont ils formaient ou testaient leurs outils. Des hypothèses incorrectes concernant les données signifiaient souvent que les modèles formés ne fonctionnaient pas comme prévu. Wynants et Driggs continuent de croire que l'IA peut être utile. Mais ils craignent qu'elle puisse être nuisible si elle est construite de la mauvaise manière, car ils pourraient manquer des diagnostics ou sous-estimer le risque pour les patients vulnérables. « Il y a beaucoup de battage médiatique autour des modèles d'apprentissage automatique et de ce qu'ils peuvent faire aujourd'hui », déclare Driggs.
Des attentes irréalistes encouragent l'utilisation de ces outils avant qu'ils ne soient prêts. Wynants et Driggs affirment tous deux que quelques-uns des algorithmes qu'ils ont examinés ont déjà été utilisés dans des hôpitaux, et que certains sont commercialisés par des développeurs privés. Alors qu'est-ce qui a mal tourné ? Et comment combler ce fossé ? S'il y a un point positif, c'est que la pandémie a fait comprendre à de nombreux chercheurs que la façon dont les outils d'IA sont construits doit changer. « La pandémie a mis en lumière des problèmes que nous traînions depuis un certain temps », explique Wynants.
Ce qui n'allait pas
Nombre des problèmes mis au jour sont liés à la mauvaise qualité des données que les chercheurs ont utilisées pour développer leurs outils. Les informations relatives aux patients de Covid, y compris les scanners médicaux, ont été collectées et partagées en plein milieu d'une pandémie mondiale, souvent par les médecins qui se battaient pour traiter ces patients. Les chercheurs voulaient aider rapidement et ces ensembles de données publiques étaient les seuls disponibles. Mais cela signifie que de nombreux outils ont été construits en utilisant des données mal étiquetées ou provenant de sources inconnues.
Driggs souligne le problème de ce qu'il appelle les ensembles de données Frankenstein, qui sont assemblés à partir de sources multiples et peuvent contenir des doublons. Cela signifie que certains outils finissent par être testés sur les mêmes données que celles sur lesquelles ils ont été formés, ce qui les fait paraître plus précis qu'ils ne le sont.
De même, cela brouille l'origine de certains ensembles de données. Ainsi, les chercheurs peuvent passer à côté de caractéristiques importantes qui faussent l'apprentissage de leurs modèles. Beaucoup ont utilisé sans le vouloir un ensemble de données contenant des scanners thoraciques d'enfants qui n'avaient pas de Covid comme exemples de ce à quoi ressemblaient les cas de non-Covid. Mais en conséquence, les IA ont appris à identifier les enfants, et non la Covid. Le groupe de Driggs a entraîné son propre modèle à l'aide d'un ensemble de données contenant un mélange de scanners pris lorsque les patients étaient couchés et debout.Comme les patients scannés en position couchée étaient plus susceptibles d'être gravement malades, l'IA a appris à tort à prédire un risque grave de Covid à partir de la position d'une personne. Dans d'autres cas encore, il a été constaté que certaines IA détectaient la police d'écriture utilisée par certains hôpitaux pour étiqueter les scanners. En conséquence, les fontes de caractère des hôpitaux ayant un nombre de cas plus sérieux devenaient des prédicteurs du risque de Covid.
Les erreurs de ce type semblent évidentes a posteriori. Elles peuvent également être corrigées en ajustant les modèles, si les chercheurs en sont conscients. Il est possible de reconnaître les lacunes et de publier un modèle moins précis, mais moins trompeur. Mais de nombreux outils ont été mis au point soit par des chercheurs en IA qui n'avaient pas les compétences médicales nécessaires pour repérer les failles dans les données, soit par des chercheurs en médecine qui n'avaient pas les compétences mathématiques nécessaires pour compenser ces failles.
Un problème plus subtil que Driggs met en évidence est le biais d'incorporation, ou biais introduit au moment où un ensemble de données est étiqueté. Par exemple, de nombreux scanners médicaux ont été étiquetés selon que les radiologues qui les ont créés ont déclaré qu'ils montraient ou non la présence de Covid. Mais cette façon de faire intègre, ou incorpore, tous les préjugés de ce médecin particulier dans la vérité de base d'un ensemble de données. Selon Driggs, il serait nettement préférable d'étiqueter une analyse médicale en fonction du résultat d'un test PCR plutôt que de l'opinion d'un seul médecin. Mais les hôpitaux très occupés n'ont pas toujours le temps de s'occuper des subtilités statistiques.
Cela n'a pas empêché certains de ces outils d'être intégrés à la hâte dans la pratique clinique. Selon Wynants, il est difficile de savoir lesquels sont utilisés et comment. Les hôpitaux déclarent parfois qu'ils n'utilisent un outil qu'à des fins de recherche, ce qui rend difficile d'évaluer dans quelle mesure les médecins s'en servent. « Il y a beaucoup de secrets », dit-elle. Wynants a demandé à une entreprise qui commercialisait des algorithmes d'apprentissage profond de partager des informations sur son approche, mais elle n'a pas eu de réponse. Elle a ensuite trouvé plusieurs modèles publiés par des chercheurs liés à cette entreprise, tous présentant un risque élevé de biais. « Nous ne savons pas réellement ce que l'entreprise a mis en œuvre », dit-elle. Selon Wynants, certains hôpitaux signent même des accords de non-divulgation avec des fournisseurs d'IA médicale. Lorsqu'elle a demandé aux médecins quels algorithmes ou logiciels ils utilisaient, ils lui ont parfois répondu qu'ils n'avaient pas le droit de le dire.
Quelle est la solution ?
De meilleures données seraient utiles, mais en temps de crise, c'est beaucoup demander. Il est plus important de tirer le meilleur parti des ensembles de données dont nous disposons. Selon Driggs, le plus simple serait que les équipes d'IA collaborent davantage avec les cliniciens. Les chercheurs doivent également partager leurs modèles et divulguer la manière dont ils ont été formés, afin que d'autres puissent les tester et s'en inspirer. « Ce sont deux choses que nous pourrions faire aujourd'hui. Et elles permettraient de résoudre peut-être 50 % des problèmes que nous avons identifiés », dit-il.
Il serait également plus facile de mettre la main sur les données si les formats étaient normalisés, affirme Bilal Mateen, un médecin qui dirige l'équipe de technologie clinique du Wellcome Trust, une organisation caritative de recherche sur la santé mondiale basée à Londres.
Un autre problème identifié par Wynants, Driggs et Mateen est que la plupart des chercheurs se sont précipités pour développer leurs propres modèles, plutôt que de travailler ensemble ou d'améliorer les modèles existants. Le résultat est que l'effort collectif des chercheurs du monde entier a produit des centaines d'outils médiocres, plutôt qu'une poignée d'outils correctement formés et testés. « Les modèles sont tellement similaires, ils utilisent presque tous les mêmes techniques avec des modifications mineures, les mêmes données d'entrée, et ils font tous les mêmes erreurs. Si tous ces gens qui créent de nouveaux modèles testaient plutôt des modèles déjà disponibles, nous aurions peut-être déjà quelque chose qui pourrait vraiment aider en clinique », explique Wynants.
En un sens, il s'agit d'un vieux problème de la recherche. Les chercheurs universitaires ont peu d'incitations professionnelles à partager leurs travaux ou à valider les résultats existants. Il n'y a pas de récompense pour avoir franchi le dernier kilomètre qui mène la technologie du « laboratoire au chevet du malade », explique Mateen. Pour remédier à ce problème, l'Organisation mondiale de la santé envisage un contrat de partage des données d'urgence qui entrerait en vigueur lors des crises sanitaires internationales. Selon Mateen, ce contrat permettrait aux chercheurs de transférer plus facilement des données au-delà des frontières. Avant le sommet du G7 qui s'est tenu au Royaume-Uni en juin, les principaux groupes scientifiques des nations participantes ont également appelé à une "préparation aux données" en prévision de futures urgences sanitaires.
De telles initiatives semblent un peu vagues et les appels au changement ont toujours un parfum de vœu pieux. Mais Mateen a ce qu'il appelle une vision « naïvement optimiste ». Avant la pandémie, l'élan pour de telles initiatives s'était arrêté. « On avait l'impression que c'était une montagne trop haute à gravir et que la vue n'en valait pas la peine. La Covid a remis beaucoup de ces questions à l'ordre du jour… Tant que nous n'adhérons pas à l'idée qu'il faut régler les problèmes peu excitants avant les problèmes plus excitants, nous sommes condamnés à répéter les mêmes erreurs. Il est inacceptable que cela ne se produise pas. Oublier les leçons de cette pandémie est un manque de respect pour ceux qui sont décédés », dit-il.
Sources : Turing Institute, British Medical Journal, Nature Machine Intelligence
Et vous ?
Que pensez-vous des conclusions de ces recherches ? Les trouvez-vous pertinents ?
Voir aussi :
Un outil d'IA permet de prédire avec une précision de 90 % les cas de patients qui succomberont au COVID-19, il prédirait aussi les besoins de respirateurs avec une précision de 80 %
La pandémie a encouragé les entreprises à adopter l'intelligence artificielle et l'apprentissage automatique, certaines d'entre elles se sont rendu compte de leur importance au début de la crise
Partager