L’IA aurait surpassé l’homme dans la recherche d’images problématiques dans les documents de recherche

**Bruno** · 08/10/2023, 04h48

L’IA aurait surpassé l’homme dans la recherche d’images problématiques dans les documents de recherche,
selon Sholto David, spécialiste de l'image scientifique

Les outils d’intelligence artificielle peuvent souvent repérer plus d’images dupliquées dans les documents qu’un spécialiste humain. Sholto David, un biologiste indépendant de Pontypridd, au Royaume-Uni, a passé plusieurs mois à examiner des centaines d’articles d’une revue, à la recherche d’images dupliquées. Il a ensuite passé les mêmes articles au crible d’un outil d’intelligence artificielle (IA). Travaillant à une vitesse deux à trois fois supérieure à celle de David, le logiciel a trouvé la quasi-totalité des 63 articles suspects qu’il avait identifiés - et 41 qu’il avait manqués.

Les résultats de cette étude interviennent alors que les éditeurs universitaires sont confrontés au problème de la manipulation d’images dans les articles scientifiques. Dans une étude réalisée en 2016, Elisabeth Bik et ses collègues ont indiqué que près de 4 % des articles qu’elle avait scannés visuellement dans 40 revues de sciences biomédicales contenaient des images dupliquées de manière inappropriée. Avec plus de 2,5 millions de manuscrits scientifiques publiés chaque année, plus de 35 000 articles (de 2009 à 2016) risquent d'être rétractés après publication en raison de la duplication, de la manipulation ou du plagiat d'images.

Nom : flip.jpg
Affichages : 929
Taille : 64,9 Ko

En fait, le pourcentage de manuscrits signalés pour des problèmes liés à l'image varie de 20 à 35 %. Cela signifie qu'il y a des centaines de milliers d'articles publiés avec des problèmes d'image chaque année ! Chaque erreur peut avoir des conséquences néfastes pour toutes les parties concernées, même si elle peut être corrigée après publication.

Les dommages causés par une rétractation après publication - y compris les enquêtes et les frais juridiques - sont estimés à plus d'un million de dollars par article. Sholto David, spécialiste de l'image scientifique, tient un blog sur la manipulation d'images dans les documents de recherche, un passe-temps qui lui a permis de découvrir de nombreux cas de fraude scientifique. Mais les autres scientifiques « sont encore un peu dans l'ignorance de l'ampleur du problème », déclare Sholto David. Il a donc décidé qu'il avait besoin de données.

Toutes les manipulations d'images ne sont pas effectuées dans un but malveillant. Les auteurs peuvent modifier des images par accident, pour des raisons esthétiques ou pour rendre une figure plus compréhensible. Mais les revues et d'autres organismes aimeraient repérer les images dont les modifications dépassent les limites, quelle que soit la motivation des auteurs. Ils se tournent désormais vers l'IA pour obtenir de l'aide.

Les avantages des logiciels d'intégrité des images

L'automatisation du processus d'examen des images permet aux utilisateurs de vérifier les images avant l'examen par les pairs et la publication. Cela garantit la crédibilité de toutes les recherches et protège la réputation de toutes les parties concernées. La vérification proactive de l'intégrité des images réduit également le risque d'enquêtes coûteuses et de rétractations après la publication. Investir dans Proofig permet à la communauté scientifique d'économiser des millions qu'elle peut ensuite investir dans d'autres recherches.

Quelque 200 universités, éditeurs et sociétés scientifiques utilisent déjà Imagetwin, l'outil que David a utilisé pour son étude. Le logiciel compare les images d'un article avec plus de 25 millions d'images provenant d'autres publications - la plus grande base de données de ce type dans le monde de l'intégrité de l'image, selon les développeurs d'Imagetwin.

Imagetwin est un logiciel basé sur l'IA qui permet de détecter les problèmes d'intégrité dans les figures d'articles scientifiques. Il détecte les manipulations inappropriées et les duplications dans de nombreux types de figures, y compris les blots (western blots), les images de microscopie et les photographies lumineuses. Détection du plagiat : les utilisateurs peuvent découvrir si une figure a été réutilisée dans plusieurs articles en consultant leur base de données contenant plus de 21 millions d'images. Les utilisateurs peuvent détecter les doublons et la manipulation de données dans les articles.

Après s'être connecté à l’interface web d'Imagetwin, l'analyse d'un article est simple.
sélectionnez un PDF ou plusieurs fichiers d'images tels que JPG, PNG, GIF et bien d'autres ;
d'une simple pression sur un bouton, le contenu sélectionné est numérisé par un algorithme basé sur l'intelligence artificielle ;
les résultats sont présentés dans l'interface web.

Imagetwin est un complément puissant au processus d'évaluation par les pairs. Tous les types de problèmes d'intégrité sont automatiquement détectés et peuvent être rapidement vérifiés par un évaluateur.

Imagetwin et Proofig : deux outils d’IA innovants pour analyser les images dans les documents de recherche

Bik utilise régulièrement Imagetwin pour compléter ses propres compétences et le qualifie d' « outil standard », même si elle souligne que l'IA a des points faibles et des points forts - par exemple, elle peut rater des doublons dans des images peu contrastées. Elle et David bénéficient tous deux d'un accès gratuit au logiciel d'ImageTwin AI, la société viennoise qui a développé Imagetwin, et font part de leurs commentaires aux développeurs.

Selon les spécialistes, l'intérêt d'Imagetwin réside en partie dans le fait qu'il recherche les duplications de deux manières. Le logiciel crée « une sorte d'empreinte digitale » pour chaque image d'un article, explique Patrick Starke, l'un de ses développeurs. Il scanne ensuite l'ensemble du papier à la recherche de répétitions de cette empreinte. Il analyse également sa vaste base de données pour voir si cette empreinte apparaît dans des documents antérieurs - un processus qui ne prend que cinq à dix secondes.

La vérification automatisée des images pour les publications scientifiques, alimentée par l'IA, est approuvée par les plus grands chercheurs, éditeurs et instituts de recherche du monde. Certains éditeurs se sont tournés vers d'autres outils d'IA. Les revues publiées par l'American Association for Cancer Research à Philadelphie, en Pennsylvanie, filtrent les articles à l'aide de l'outil d'IA Proofig. Frontiers à Lausanne, en Suisse, a développé son propre logiciel pour vérifier les articles de sa famille de revues.

Proofig AI peut détecter automatiquement de multiples sources d'images : bandes de Western blot, microscopies (confocale, lumière et électronique), FACS, plaques, souris, images in-vitro et in-vivo. Proofig serait le seul outil qui détecte les problèmes liés aux images FACS. La communauté scientifique peut utiliser cette technologie pour vérifier de manière proactive les images à n'importe quel stade du processus de rédaction ou de publication.

« Des dommages importants sont causés par la duplication d'images, même lorsqu'il s'agit d'erreurs innocentes. C'est pourquoi je suis heureux d'offrir à mon département la tranquillité d'esprit que procure le fait de savoir que les images de nos manuscrits ont été correctement vérifiées avant publication à l'aide de Proofig, et que seuls les manuscrits ne comportant aucune erreur seront publiés », Professeur Ofer Mandelboim, Chef du département d'immunologie et de recherche sur le cancer, Faculté de médecine de l'Université hébraïque, Israël.

Pour son étude, David a passé au crible plus de 700 articles contenant des images pertinentes et publiés entre 2014 et 2023 dans Toxicology Reports, une revue qu'il a choisie en partie parce qu'elle contient beaucoup d'images et en partie parce qu'en 2021, l'éditeur de la revue, Elsevier à Amsterdam, a ajouté une expression d'inquiétude à un numéro spécial entier de la revue.

Après avoir vérifié visuellement les articles, David a testé l'IA et a constaté qu'elle fonctionnait « beaucoup plus rapidement que si je regardais attentivement les images pendant longtemps », bien qu'elle ait omis quatre articles qu'il avait signalés. Au total, environ 16 % des articles analysés comportant des images pertinentes présentaient des doublons.

C'est beaucoup plus que les 4 % calculés par Bik, mais elle estime que le chiffre de David n'est pas surprenant. Dans son analyse, les revues individuelles présentaient des doublons dans une proportion allant de 0,3 % à 12 % de leurs articles, les revues à fort impact ayant tendance à avoir moins de doublons.

Il est « tout à fait plausible » que 16 % des images d'une revue contiennent des doublons, reconnaît Jana Christopher, analyste de l'intégrité des images chez FEBS Press à Heidelberg, en Allemagne, qui dispose d'un accès gratuit à Imagetwin et l'utilise avec d'autres logiciels. Dans le cadre de son travail d'examen des articles avant leur publication, Jana Christopher signale environ un tiers d'entre eux en vue d'un examen plus approfondi.

Bik estime qu'Imagetwin est particulièrement utile pour les « figures complexes comportant de nombreux panneaux ». Il permet de numériser presque instantanément des images qu'elle aurait mis plus d'une demi-heure à disséquer elle-même. « C'est vraiment bien d'avoir un logiciel comme deuxième paire d'yeux », reconnaît Christopher. Mais comme Bik, elle estime qu'Imagetwin a ses faiblesses. « Je trouve souvent d'autres [problèmes] qui ne sont pas des duplications et même des duplications que le logiciel n'a pas signalées », explique Mme Christopher.

Selon Christopher, l'objectif final est d'intégrer des outils d'IA tels dans le processus d'évaluation des articles, de la même manière que de nombreux éditeurs utilisent régulièrement des logiciels pour analyser les textes à la recherche de plagiat. Mais l'IA ne suffit pas en soi. « Vous devez utiliser votre propre expertise et remettre ces choses en question. Aucun des signaux que vous recevez d’outils d'IA n'est une certitude de fraude », dit-elle.

L’IA, une solution efficace mais pas sans risque pour identifier les images dupliquées dans les documents

Si outils d’intelligence artificielle sont de plus en plus utilisés pour analyser et traiter des données visuelles, et peuvent offrir des avantages considérables par rapport aux méthodes traditionnelles basées sur l’intervention humaine, comme la rapidité, la précision, la fiabilité et la réduction des coûts, ils présentent aussi des limites et des défis, notamment en termes d’éthique, de sécurité, de transparence et de responsabilité.

Un des domaines d’application des outils d’IA est la détection des images dupliquées dans les documents. Il s’agit d’identifier les images qui sont identiques ou très similaires entre elles, et qui peuvent être utilisées de manière frauduleuse, trompeuse ou abusive. Par exemple, des images dupliquées peuvent être présentes dans des articles scientifiques, des rapports financiers, des documents juridiques, des publicités ou des réseaux sociaux.

Les outils d’IA peuvent souvent repérer plus d’images dupliquées dans les documents qu’un spécialiste humain, car ils disposent de techniques avancées de traitement d’images, de reconnaissance de formes, de comparaison de caractéristiques et de calcul de similarité. Ils peuvent aussi traiter un grand volume d’images en peu de temps, ce qui est difficile pour un humain. De plus, ils peuvent éviter les biais ou les erreurs humaines liés à la fatigue, à l’inattention ou à la subjectivité.

Toutefois, les outils d’IA ne sont pas infaillibles ni universels. Ils peuvent rencontrer des difficultés à détecter des images dupliquées qui sont modifiées, déformées, recadrées, compressées ou altérées de manière subtile. Ils peuvent aussi produire des faux positifs ou des faux négatifs, c’est-à-dire classer comme dupliquées des images qui ne le sont pas, ou inversement. Enfin, ils peuvent poser des problèmes éthiques ou juridiques, comme le respect de la vie privée, du droit d’auteur ou du consentement des personnes représentées sur les images.

Sources : Scientific-image sleuth Sholto David, Proofig AI, Imagetwin

Et vous ?

Partagez-vous l'avis de qui estime que l'IA surpasse l'homme dans la recherche d'images problématiques dans les documents de recherche ?

Que pensez-vous de la duplication, de la manipulation ou du plagiat d'images, dans les publications scientifiques ?

Voir aussi :

Pourquoi les universités devraient revenir aux examens oraux à l'ère de l'IA et de ChatGPT, un doyen d'université affirme que cela élimine systématiquement les risques de plagiat et de tricherie

Le CEO d'OpenAI répond aux préoccupations des écoles en matière de plagiat : « Nous nous sommes adaptés aux calculatrices et avons changé ce sur quoi nous évaluons en cours de mathématiques »

Pour lutter contre le plagiat assisté par IA occasionné par ChatGPT d'OpenAI, un étudiant propose une application d'analyse de texte, qui détecte s'il a été rédigé par une IA