L'IA peut prédire les résultats d'une étude mieux que les experts humains
Une nouvelle étude menée par des chercheurs de l'UCL révèle que les grands modèles de langage, un type d'intelligence artificielle qui analyse le texte, peuvent prédire les résultats des études neuroscientifiques proposées avec plus de précision que les experts humains.
Les résultats, publiés dans
Nature Human Behaviour, démontrent que les grands modèles de langage (LLM) formés sur de vastes ensembles de données textuelles peuvent extraire des modèles de la littérature scientifique, ce qui leur permet de prévoir les résultats scientifiques avec une précision surhumaine.
Les chercheurs affirment que cela met en évidence leur potentiel en tant qu'outils puissants d'accélération de la recherche, allant bien au-delà de la simple recherche de connaissances.
L'auteur principal, le Dr Ken Luo (UCL Psychology & Language Sciences), a déclaré : "Depuis l'avènement de l'IA générative comme ChatGPT, de nombreuses recherches se sont concentrées sur les capacités de réponse aux questions des LLM, mettant en évidence leur remarquable aptitude à résumer des connaissances à partir de nombreuses données de formation. Cependant, plutôt que de mettre l'accent sur leur capacité rétrospective à récupérer des informations passées, nous avons cherché à savoir si les LLM pouvaient synthétiser des connaissances pour prédire des résultats futurs."
"Le progrès scientifique repose souvent sur des essais et des erreurs, mais chaque expérience méticuleuse exige du temps et des ressources. Même les chercheurs les plus compétents peuvent négliger des aspects essentiels de la littérature. Notre travail vise à déterminer si les MFR peuvent identifier des modèles dans de vastes textes scientifiques et prévoir les résultats d'expériences."
L'équipe de recherche internationale a commencé son étude en développant BrainBench, un outil permettant d'évaluer la capacité des grands modèles de langage (LLM) à prédire les résultats des neurosciences.
BrainBench consiste en de nombreuses paires de résumés d'études neuroscientifiques. Dans chaque paire, une version est un véritable résumé d'étude qui décrit brièvement le contexte de la recherche, les méthodes utilisées et les résultats de l'étude. Dans l'autre version, le contexte et les méthodes sont les mêmes, mais les résultats ont été modifiés par des experts du domaine neuroscientifique concerné pour obtenir un résultat plausible mais incorrect.
Les chercheurs ont testé 15 LLM différents et 171 experts humains en neurosciences (qui avaient tous passé un test de sélection pour confirmer leur expertise) pour voir si l'IA ou la personne pouvait déterminer correctement lequel des deux résumés appariés était le vrai, avec les résultats réels de l'étude.
Tous les LLM ont surpassé les neuroscientifiques, avec une précision moyenne de 81 % pour les LLM et de 63 % pour les humains. Même lorsque l'équipe chargée de l'étude a limité les réponses humaines aux personnes ayant le plus haut degré d'expertise dans un domaine donné des neurosciences (sur la base de l'expertise déclarée), la précision des neuroscientifiques est restée inférieure à celle des LLM, soit 66 %. En outre, les chercheurs ont constaté que lorsque les LLM étaient plus confiants dans leurs décisions, ils avaient plus de chances d'être corrects. Les chercheurs affirment que cette découverte ouvre la voie à un avenir où les experts humains pourraient collaborer avec des modèles bien calibrés.
Les chercheurs ont ensuite adapté un LLM existant (une version de Mistral, un LLM à code source ouvert) en le formant spécifiquement à la littérature neuroscientifique. Le nouveau LLM spécialisé dans les neurosciences, qu'ils ont baptisé BrainGPT, s'est avéré encore plus performant pour prédire les résultats des études, atteignant une précision de 86 % (une amélioration par rapport à la version polyvalente de Mistral, dont la précision était de 83 %).
L'auteur principal, le professeur Bradley Love (UCL Psychology & Language Sciences), a déclaré : "À la lumière de nos résultats, nous pensons que les scientifiques ne tarderont pas à utiliser des outils d'IA pour concevoir l'expérience la plus efficace pour leur question. Bien que notre étude se soit concentrée sur les neurosciences, notre approche est universelle et devrait s'appliquer avec succès à l'ensemble des sciences."
"Ce qui est remarquable, c'est la capacité des LLM à prédire la littérature neuroscientifique. Ce succès suggère qu'une grande partie de la science n'est pas vraiment nouvelle, mais se conforme à des modèles de résultats existants dans la littérature. Nous nous demandons si les scientifiques sont suffisamment novateurs et explorateurs."
le Dr Ken Luo a ajouté : "Sur la base de nos résultats, nous développons des outils d'IA pour aider les chercheurs. Nous envisageons un avenir où les chercheurs pourront saisir les plans d'expérience qu'ils proposent et les résultats qu'ils anticipent, l'IA leur fournissant des prédictions sur la probabilité des différents résultats. Cela permettrait une itération plus rapide et une prise de décision plus éclairée dans la conception de l'expérience."
L'étude a été soutenue par l'Economic and Social Research Council (ESRC), Microsoft et une bourse Wolfson de la Royal Society. Des chercheurs de l'UCL, de l'université de Cambridge, de l'université d'Oxford, du Max Planck Institute for Neurobiology of Behavior (Allemagne), de l'université Bilkent (Turquie) et d'autres institutions du Royaume-Uni, des États-Unis, de Suisse, de Russie, d'Allemagne, de Belgique, du Danemark, du Canada, d'Espagne et d'Australie ont participé à cette étude.
Partager