IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Actualités Discussion :

Les articles scientifiques frauduleux sont en forte augmentation

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre émérite
    Profil pro
    Développeur Web
    Inscrit en
    Février 2008
    Messages
    2 896
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Février 2008
    Messages : 2 896
    Par défaut
    Effectivement, et au bout de quelques décennies que nos décideurs semblent fournir de la décision produite par intelligence artificielle, allons-nous être obligés de tout lire ?

    Quelles sanctions pour une décision illisible ?

  2. #2
    Membre éprouvé
    Avatar de calvaire
    Homme Profil pro
    .
    Inscrit en
    Octobre 2019
    Messages
    2 061
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : Singapour

    Informations professionnelles :
    Activité : .
    Secteur : Conseil

    Informations forums :
    Inscription : Octobre 2019
    Messages : 2 061
    Par défaut
    Citation Envoyé par Gluups Voir le message
    Quelles sanctions pour une décision illisible ?
    ils seront virés pour ce genre de faute.... pour etre recaser à un poste plus prestigieux encore
    (Agnès Buzyn, Amélie de Montchalin, Jean Castex, Brigitte Bourguignon, Emmanuelle Wargon la femme qui dit que la maison individuel c'était plus possible (pour vous le peuple, pas pour elle qui a une grosse villa à la campagne))
    le meilleur d'entre tous: Thierry Breton bien sur. Orange, Atos et maintenant l'Europe ! J'avais parié après la dissolution ministre de l'économie en France mais je me suis planté.

    Meme chose coté PDG évidement. Tavares après avoir coulé stellantis je vous rassure passe des jours heureux dans ces vignes du Portugal bon lui a pris sa retraite bien mérités.
    La France est un pays qui redistribue tout sauf de l'espoir.

  3. #3
    Membre averti
    Homme Profil pro
    Consultant informatique en retraite
    Inscrit en
    Décembre 2010
    Messages
    30
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Consultant informatique en retraite
    Secteur : Conseil

    Informations forums :
    Inscription : Décembre 2010
    Messages : 30
    Par défaut Accès gratuit à tous les moteurs d'IA
    Certains demandent un droit d'accès gratuit aux données pour "entrainer" leurs IA,
    en contrepartie, je demande un accès gratuit et illimité à tous les systèmes d'IA pour
    "équilibrer" les choses.
    Si une peine ne mérite pas salaire, aucune peine ne le doit !

  4. #4
    Membre confirmé
    Homme Profil pro
    Consultant informatique
    Inscrit en
    Février 2014
    Messages
    95
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Consultant informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2014
    Messages : 95
    Par défaut
    J'espère bien que l'on va «tuer » l'industrie de l'IA. Bientôt plus personne n'aura besoin de personne.

  5. #5
    Membre émérite
    Profil pro
    Développeur Web
    Inscrit en
    Février 2008
    Messages
    2 896
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Février 2008
    Messages : 2 896
    Par défaut
    Citation Envoyé par tontonCD Voir le message
    J'espère bien que l'on va «tuer » l'industrie de l'IA. Bientôt plus personne n'aura besoin de personne.
    Le but étant quand même qu'on ait un peu besoin de nous de temps en temps, non ?

    Et j'espère surtout que nous allons réussir à prendre un peu de hauteur.

    La Révolution Industrielle a eu lieu au XIXème siècle. Comme la présente Wikipedia, "La révolution industrielle est le processus historique du XIXe siècle qui fait basculer une société à dominante agraire et artisanale vers une société commerciale et industrielle. "

    Le but n'est pas de dire que nous devrions retourner au boulier et aux charrettes à bras. Le but est de se mettre d'accord sur quelles sont les personnes à qui doit bénéficier ce progrès.

    Pour le moment, il bénéficie exclusivement au patronat, et seulement en cas d'échec de sa part à nous éliminer du circuit, il consent à créer quelques postes.

    Nous voyons arriver une phase suivante, où des tâches plus intellectuelles sont sur le point d'être automatisées, les salaires correspondants étant supprimés, et c'est à cet instant précis que "nos" députés nous ont déclaré que les retraites doivent être payées par les salaires. Il était cette fois difficile d'être plus synchrone. Si ça, ce n'était pas une provocation pure et simple, alors expliquez-moi ce qu'est une provocation.

    Tant que nous les laissons faire, détruire l'IA, non non, ça ne mènera à rien, d'abord parce que ça ne va pas se faire. Enfin on ne sait jamais, quelquefois la raison pourrait prendre le dessus. Mais il n'est que moyennement raisonnable de ne compter que là-dessus.

    L'idée que nous devons réussir à réintroduire, est que l'humain a le droit d'exister même si il n'est plus réduit à des tâches répétitives.

    Et je veux bien qu'on m'explique comment on arrivera à ça si la taxe Tobin doit rester un truc pour faire joli, qu'on range sur une étagère.
    Même Bill Gates défend le principe, c'est dire !

    *

    Quelqu'un dans le forum nous a diffusé une vidéo sur une réflexion d'un mathématicien en 72. Ça mérite de s'y attarder. J'ai pris un peu de retard là-dessus, j'espère ne pas laisser ça dériver vers l'oubli.

  6. #6
    Membre éclairé
    Homme Profil pro
    autre
    Inscrit en
    Septembre 2015
    Messages
    454
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : autre

    Informations forums :
    Inscription : Septembre 2015
    Messages : 454
    Par défaut
    « Tant que nous les laissons faire, détruire l'IA, non non, ça ne mènera à rien, d'abord parce que ça ne va pas se faire. Enfin on ne sait jamais, quelquefois la raison pourrait prendre le dessus. Mais il n'est que moyennement raisonnable de ne compter que là-dessus. »

    Nous les laisserons faire…… le problème avec la mondialisation, c’est que si on l’empêche chez nous, d’autres le feront à notre place. Comment « nous » pourrions l’empêcher.

    Cette réflexion est très fortement comparable à la révolte des Canut… suite aux métiers à tisser automatisés. À qui a profité cette évolution ? Au patronat tout d’abord (les premiers à avoir automatisé ont pu dégager des marges plus importantes), aux clients ensuite avec des produits moins cher… et maintenant ? La concurrence rogne les marges, il ne reste que le profit des clients qui ont gagné en pouvoir d’achat.

    Le problème de cette automatisation est de rendre le milieu du travail plus exigeant en formation… il y a de moins en moins de place dans les emplois les les moins qualifiés. Il est loin le temps où la majorité de la population était dans les champs. Et les opératrices des commutateurs des téléphone, les sténos-dactilos, les bureaux d’études (dizaines d’ingénieurs armés de règles à calculs pour réaliser l’équivalent de 1s de calcul aujourd’hui)…

    L’IA ne change pas vraiment le principe, mais la nouveauté est d’attaquer des secteurs d’activité employant une population sensiblement mieux formé, ainsi que d’autres pensant être épargnés (véhicules autonomes), et la question devient que restera-t-il…

    Mais il est sûr que l’IA renforcera les monopoles ou oligopole car induit une structure plus capitaliste (le coût d’investissement devient prépondérant comparé aux coût salariaux). Et cela sur des pans plus étendus de l’économie.

  7. #7
    Membre émérite
    Profil pro
    Développeur Web
    Inscrit en
    Février 2008
    Messages
    2 896
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Février 2008
    Messages : 2 896
    Par défaut
    Citation Envoyé par floyer Voir le message
    Nous les laisserons faire…… le problème avec la mondialisation, c’est que si on l’empêche chez nous, d’autres le feront à notre place. Comment « nous » pourrions l’empêcher.
    Si on en est à parler d'empêcher, c'est que le message n'est pas passé.
    Et que l'enjeu ne sera pas de laisser faire, mais de se laisser emporter.

  8. #8
    Chroniqueur Actualités
    Avatar de Patrick Ruiz
    Homme Profil pro
    Redacteur web
    Inscrit en
    Février 2017
    Messages
    2 235
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Redacteur web
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Février 2017
    Messages : 2 235
    Par défaut Un avocat écope de sanctions pour utilisation de ChatGPT qui a produit de fausses citations sur un dossier
    Un avocat écope de sanctions pour utilisation de ChatGPT qui a produit de fausses citations sur un dossier judiciaire
    Le tableau questionne sur la pertinence de l'usage de tels outils pour le génie logiciel

    Le mois dernier, un jeune diplômé d’une école de droit a perdu son emploi après avoir utilisé ChatGPT pour l'aider à rédiger un dossier judiciaire qui s'est avéré truffé d'erreurs : de nombreuses citations erronées ainsi qu’au moins une affaire inexistante dans les bases de données juridiques. C’est une situation qui vient étendre une longue liste de cas similaires et qui soulève la question de la pertinence de la mise à contribution de tels outils dans d’autres domaines, notamment, celui du génie logiciel. En effet, de récentes études font état de ce que la production d’informations erronées par les modèles d’intelligence artificielle ira croissant avec leur degré de sophistication.

    Air Canada s’est ainsi vu obligé de respecter une politique de remboursement inventée par un chatbot intégré à son site web

    Le jour où la grand-mère de Jake Moffatt est décédée, ce dernier s'est à l’immédiat rendu sur le site Web d'Air Canada pour réserver un vol de Vancouver à Toronto. Ne sachant pas comment fonctionnent les tarifs d'Air Canada pour les personnes en deuil, Moffatt a demandé au chatbot d'Air Canada de lui expliquer. Ce dernier a fourni des informations inexactes, encourageant Jake Moffatt à réserver un vol à l’immédiat, puis à demander un remboursement dans les 90 jours. Une recommandation en contradiction avec la politique de la compagnie aérienne qui stipule qu’elle ne procède pas à des remboursements une fois que la réservation est effectuée.

    Jake Moffatt a donc porté plainte en joignant une capture d’écran de sa conversation avec le chatbot : « Si vous devez voyager à l’immédiat ou si vous avez déjà voyagé et que vous souhaitez soumettre votre billet pour bénéficier d'un tarif réduit pour les personnes en deuil, veuillez le faire dans les 90 jours suivant la date d'émission de votre billet en remplissant notre formulaire de demande de remboursement de billet. »

    Le tribunal a au final tranché que M. Moffatt a droit à un remboursement partiel de 650,88 dollars canadiens (environ 482 USD) sur le prix initial du billet qui était de 1 640,36 CAD (environ 1 216 USD), ainsi qu'à des dommages-intérêts supplémentaires pour couvrir les intérêts sur le billet d'avion et les frais de justice de M. Moffatt.

    Air Canada a décidé de se conformer à la décision et de considérer l'affaire comme close après avoir refusé d’endosser la responsabilité de l’erreur commise par le chatbot intégré à son site web. La compagnie aérienne a ensuite procédé à la désactivation de ce dernier.


    Malgré les avancées de l'intelligence artificielle, la vigilance humaine reste indispensable

    L’erreur de ChatGPT qui a coûté 10 000 dollars à une startup est un rappel que, malgré les avancées de l’IA, la vigilance humaine reste indispensable. Les outils d’IA sont puissants, mais ils ne remplacent pas le jugement critique et l’expertise des développeurs. En fin de compte, c’est la responsabilité des équipes humaines de s’assurer que la technologie qu’elles utilisent est sûre et fiable.

    D'ailleurs, l'erreur ne saurait être imputable entièrement à ChatGPT : les développeurs auraient du prendre la peine d'analyser le code au lieu de se limiter à quelques tests avant la copie. Ils semblent le reconnaitre lorsqu'ils déclarent :

    « Je voudrais commencer par dire que les pratiques en question sont très mauvaises et embarrassantes (et nous avons depuis ajouté des tests unitaires et d'intégration robustes ainsi que des alertes et des enregistrements), qu'elles auraient pu et dû être évitées, qu'il s'agissait d'erreurs humaines au-delà de tout, et qu'elles sont très évidentes avec le recul.

    « Cela s'est passé à une autre époque, avec d'importantes contraintes de temps, aux tout premiers stades (premières semaines) de la création d'une entreprise. Je partage surtout cette histoire comme une anecdote amusante avec des circonstances uniques entourant la reproductibilité des bogues en prod (encore une fois à cause de notre propre stupidité) ».

    Quoi qu'il en soit, tout est bien qui finit bien : « Rétrospectivement, aussi pénibles qu'aient été ces cinq jours, c'est l'un de ces moments de la vie d'une startup que nous n'oublierons jamais. Comme toutes les startups, nous avons fait une tonne d'erreurs tout au long de notre parcours, celle-ci étant peut-être la pire. J'évoquerai peut-être les autres plus tard. Nous sommes simplement heureux de pouvoir regarder ces jours-là en arrière et d'en rire. Oui, nous aurions dû faire plus de tests. Oui, nous n'aurions pas dû copier-coller du code. Oui, nous n'aurions pas dû passer directement à l'application principale. Quoi qu'il en soit, je ne regrette pas cette expérience ».

    Source : Utah

    Et vous ?

    En tant que développeur ou utilisateur d’IA, comment assurez-vous la qualité et la précision du code généré par l’IA ?
    Avez-vous des expériences personnelles où l’IA a joué un rôle crucial, positivement ou négativement, dans votre travail ?
    Selon vous, quelles mesures de sécurité devraient être mises en place lors de l’intégration de solutions d’IA dans les systèmes d’entreprise ?
    Pensez-vous que les erreurs mentionnées sont des cas isolés ou révélateurs d’un problème plus large dans l’industrie de l’IA ?
    Comment pensez-vous que les entreprises peuvent équilibrer l’innovation technologique avec les risques potentiels associés à l’automatisation ?
    Quelles stratégies votre entreprise a-t-elle adoptées pour prévenir les erreurs coûteuses liées à l’IA ?
    Quel rôle les tests et la validation jouent-ils dans votre utilisation de l’IA, et comment ces processus pourraient-ils être améliorés ?

    Voir aussi :

    La conduite autonome serait-elle à ce jour qu'une vision futuriste chez Tesla Motors ? L'entreprise vient de changer les objectifs de son Autopilot
    La SEC demande à Musk de renoncer à son poste de président de Tesla et exige une amende de 40 millions $ US pour un règlement à l'amiable
    Tesla annonce que le nouvel ordinateur pour une conduite entièrement autonome de ses véhicules est en production et fera ses preuves ce mois-ci
    Les actions Tesla chutent après que son système d'autopilote soit impliqué dans un accident et l'annonce des batteries de ses véhicules prenant feu
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  9. #9
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 538
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 538
    Par défaut Former des modèles d’IA puissants sans enfreindre la loi, c’est possible : l’expérience inédite de chercheurs
    Les entreprises spécialisées dans l'IA affirment qu'elles ne peuvent pas respecter les droits d'auteur mais ces chercheurs ont essayé,
    leur expérience inédite démontre que former des modèles d’IA puissants sans enfreindre la loi, c’est possible

    Au cœur d’un débat brûlant entre innovation technologique et respect des droits de propriété intellectuelle, nombre d’entreprises d’intelligence artificielle (IA) avancent que « le respect du droit d’auteur est impossible » dans leurs processus de formation. Pourtant, une équipe de chercheurs a relevé le défi... et semble avoir prouvé le contraire.

    Contexte

    Un collectif de plus de vingt chercheurs, piloté par l’association à but non lucratif EleutherAI (MIT, CMU, University of Toronto), a constitué un jeu de données de 8 To exclusivement issu de contenus sous licence ouverte ou appartenant au domaine public. À partir de ce corpus, ils ont entraîné Comma v0.1, un modèle de 7 milliards de paramètres, dont les performances sont comparables à celles de LLaMA 2‑7B de Meta, un modèle formé sur des données potentiellement protégées.

    Contrairement aux gigantesques jeux de données non filtrés utilisés par les grandes entreprises d’IA, cette initiative a misé sur un protocole stringent :
    • Collecte uniquement sous licences libres ou domaine public ;
    • Annotation manuelle de chaque donnée pour valider les licences, indispensable face aux défis d’automatisation.

    Le résultat ? Un modèle performant, mais dont la constitution reste coûteuse – tant en temps qu’en ressources.

    Ce projet intervient dans un contexte législatif agité :
    • Aux États-Unis et au Royaume-Uni, des recours judiciaires et des propositions de lois (comme le Generative AI Copyright Disclosure Act) visent à encadrer l’usage des œuvres protégées.
    • En Europe, la réglementation exige désormais la transparence des jeux de données : les entreprises doivent publier un résumé détaillé des contenus utilisés, les titulaires pouvant s’y opposer (opt‑out).

    OpenAI déclare la course à l'IA « terminée » s'il n'est pas possible d'entraîner les LLM sur des œuvres protégées

    Ces dernières années, les capacités des chatbots d'IA, comme ChatGPT d'OpenAI, se sont considérablement améliorées ; ils s'appuient sur de grands modèles de langage (LLM) pour produire du contenu pour les utilisateurs. Mais le processus de formation est largement controversé, certains éditeurs accusant OpenAI d'utiliser des œuvres protégées par le droit d'auteur sans autorisation, et un certain nombre d'affaires juridiques sont en cours.

    Défendant ses pratiques commerciales dans un procès, OpenAI a déclaré : « les modèles apprennent, comme nous le faisons tous, de ce qui a été fait auparavant. La défense de l'usage équitable existe précisément pour cette raison : encourager et permettre le développement de nouvelles idées qui s'appuient sur des idées antérieures ». Cette défense d'OpenAI est conforme aux précédentes déclarations de l'entreprise sur la formation de ses modèles.

    En janvier 2024, OpenAI affirmait : « étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine, il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur ». OpenAI reconnaît donc ouvertement qu'il utilise des contenus protégés par le droit d'auteur pour créer ses modèles d'IA. L'entreprise n'a toutefois pas encore été condamnée.

    Même son de cloche pour Nick Clegg, un homme politique britannique. Il a été vice-premier ministre du Royaume-Uni entre 2010 et 2015, puis responsable des affaires internationales et de la communication de Meta (anciennement Facebook) d'octobre 2018 à janvier 2025. Fervent défenseur des efforts de Meta en matière d'IA, il est revenu sur le débat sur la protection des droits d'auteur lors du festival de Charleston, dans l'East Sussex, un comté du sud-est de l'Angleterre.

    Nick Clegg estime que le fait d'obliger les entreprises d'IA à demander l'autorisation avant d'utiliser des contenus protégés par des droits d'auteur pour former des modèles d'IA détruirait le secteur. Nick Clegg a déclaré que la communauté créative devrait avoir le droit de refuser que son travail soit utilisé pour former des modèles d'IA. Mais il a affirmé qu'il n'était pas possible de demander le consentement des créateurs avant d'ingérer leur travail.

    Citation Envoyé par Nick Clegg
    Je pense que la communauté créative veut aller plus loin. De nombreuses voix s'élèvent pour dire que l'on ne peut s'entraîner sur mon contenu que si l'on demande d'abord l'autorisation. Et je dois dire que cela me semble quelque peu invraisemblable, car ces systèmes s'entraînent sur de grandes quantités de données.

    Je ne vois pas comment on peut demander à tout le monde d'abord. Je ne vois pas comment cela pourrait fonctionner. Et d'ailleurs, si vous le faisiez en Grande-Bretagne et que personne d'autre ne le faisait, vous tueriez du jour au lendemain l'industrie de l'intelligence artificielle dans ce pays.

    Un projet inédit

    Un groupe de chercheurs en intelligence artificielle a découvert qu'il était possible de créer un énorme ensemble de données de huit téraoctets en utilisant uniquement des textes sous licence libre ou appartenant au domaine public. Ils ont testé la qualité de l'ensemble de données en l'utilisant pour former un modèle de langage de 7 milliards de paramètres, qui a obtenu d'aussi bons résultats que des efforts comparables de l'industrie, tels que Llama 2-7B, que Meta a publié en 2023.

    L'article détaillant leurs efforts révèle également que le processus a été laborieux, ardu et impossible à automatiser complètement.

    Citation Envoyé par Résumé de la recherche
    Les grands modèles de langage (LLM) sont généralement formés sur d'énormes quantités de textes sans licence, une pratique qui a fait l'objet d'un examen minutieux en raison d'une éventuelle violation de la propriété intellectuelle et de préoccupations d'ordre éthique. L'entraînement des LLM sur des textes sous licence libre constitue un premier pas vers la résolution de ces problèmes, mais les efforts antérieurs de collecte de données ont abouti à des ensembles de données trop petits ou de qualité insuffisante pour produire des LLM performants.

    Pour combler cette lacune, nous collectons, conservons et publions le Common Pile v0.1, une collection de huit téraoctets de textes sous licence libre conçue pour la formation préalable des LLM. Le Common Pile comprend du contenu provenant de 30 sources couvrant divers domaines, notamment des documents de recherche, des codes, des livres, des encyclopédies, du matériel éducatif, des transcriptions audio, etc.

    Nous validons nos efforts en entraînant deux LLM de 7 milliards de paramètres sur du texte provenant de la pile commune : Comma v0.1-1T et Comma v0.1-2T, entraînés respectivement sur 1 et 2 trillions de tokens. Les deux modèles atteignent des performances compétitives par rapport aux LLM formés sur des textes sans licence avec des budgets de calcul similaires, tels que Llama 1 et 2 7B. En plus de publier le Common Pile v0.1 lui-même, nous publions également le code utilisé dans sa création ainsi que
    le mélange d'entraînement et les points de contrôle pour les modèles Comma v0.1.
    Le groupe a construit un modèle d'IA qui est nettement plus petit que les derniers modèles proposés par ChatGPT d'OpenAI ou Gemini de Google, mais ses résultats semblent représenter l'effort le plus important, le plus transparent et le plus rigoureux à ce jour pour démontrer une méthode différente de construction d'outils d'IA populaires.

    Nom : author.png
Affichages : 6770
Taille : 162,5 Ko

    Cela pourrait avoir des conséquences sur le débat politique qui entoure l'IA et le droit d'auteur

    Le document lui-même ne prend pas position sur la question de savoir si l'utilisation de textes pour entraîner l'intelligence artificielle constitue un usage loyal.

    Ce débat a été ravivé ces dernières semaines par une action en justice très médiatisée et par des changements spectaculaires dans la législation sur le droit d'auteur et son application, tant aux États-Unis qu'au Royaume-Uni.

    Mercredi, Reddit a annoncé qu'elle poursuivait Anthropic, alléguant que cette dernière avait accédé à des données du forum de discussion des médias sociaux sans accord de licence, selon le Wall Street Journal. Le même jour, la Chambre des communes du Royaume-Uni a fait des concessions sur un projet de loi controversé qui permettrait aux entreprises d'IA de s'entraîner sur du matériel protégé par des droits d'auteur.

    Ces mesures font suite au licenciement par le président Donald Trump, le mois dernier, de la directrice du Bureau américain du droit d'auteur, Shira Perlmutter. Son éviction a attiré l'attention sur le récent rapport de l'office sur l'IA, qui mettait en doute l'application du fair use aux œuvres protégées par le droit d'auteur dans le cadre de l'IA générative.

    Les entreprises d'IA et leurs investisseurs, quant à eux, affirment depuis longtemps qu'il n'est pas possible de trouver une meilleure solution

    En avril 2023, Sy Damle, un avocat représentant la société de capital-risque Andreessen Horowitz, a déclaré au Bureau américain du droit d'auteur : « La seule façon pratique pour ces outils d'exister est qu'ils puissent être formés sur des quantités massives de données sans avoir à concéder de licence pour ces données ». Plus tard dans l'année, dans des commentaires adressés au gouvernement britannique, OpenAI a déclaré : « qu'il serait impossible d'entraîner les principaux modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur. »

    Et en janvier 2024, le témoin expert d'Anthropic dans un procès sur le droit d'auteur a affirmé que « l'hypothétique marché concurrentiel des licences couvrant les données pour former des LLM de pointe serait impraticable », comme le montrent les documents du tribunal.

    Alors que les documents d'orientation sur l'IA évoquent souvent la nécessité d'ouvrir davantage les données et que les experts débattent de la question de savoir si les grands modèles de langage devraient être formés à partir de données sous licence provenant d'éditeurs, peu d'efforts sont déployés pour mettre la théorie en pratique, a déclaré le coauteur de l'article, Aviya Skowron, responsable des politiques à l'institut de recherche à but non lucratif Eleuther AI.

    « J'aimerais également que ces personnes soient curieuses de savoir ce que cette tâche implique réellement », a déclaré Skowron.


    Il s'avère que cette tâche implique beaucoup d'humains

    En effet, les données ne sont pas formatées de manière à être lisibles par la machine, ce qui pose des problèmes techniques, mais aussi juridiques, puisqu'il faut déterminer quelle licence s'applique à quel site web, une perspective décourageante alors que le secteur est truffé de données dont la licence n'est pas respectée.

    « Il ne s'agit pas d'une chose où l'on peut simplement augmenter les ressources dont on dispose », comme l'accès à davantage de puces informatiques et à un scraper web sophistiqué, a déclaré Stella Biderman, directrice exécutive d'Eleuther AI. « Nous utilisons des outils automatisés, mais toutes nos données sont annotées manuellement à la fin de la journée et vérifiées par des personnes. Et c'est vraiment très difficile ».

    Néanmoins, le groupe a réussi à mettre au jour de nouveaux ensembles de données qui peuvent être utilisés de manière éthique. Il s'agit notamment d'un ensemble de 130 000 livres en langue anglaise de la Bibliothèque du Congrès, soit près du double de la taille de l'ensemble de données sur les livres populaires du Projet Gutenberg.

    L'initiative du groupe s'appuie également sur des efforts récents visant à développer des ensembles de données plus éthiques, mais toujours utiles, tels que FineWeb de Hugging Face, le référentiel open-source pour l'apprentissage automatique.

    Eleuther AI a été à l'origine d'un effort analogue en matière de logiciels libres en 2020, en créant un ensemble de données souvent cité appelé « Pile ». Un site qui hébergeait l'ensemble de données a dû le retirer en 2023 à la suite d'une demande au titre du Digital Millennium Copyright Act émanant du groupe danois de lutte contre le piratage Rights Alliance, qui a ciblé le fait que le Pile contenait Books3, un ensemble de données de livres pour lequel Meta fait l'objet d'une action en justice.

    Le nouvel ensemble de données s'appelle Common Pile v0.1, et le modèle s'appelle Comma v0.1 - une référence délibérée à la conviction du groupe qu'il sera en mesure de trouver davantage de textes sous licence ouverte ou dans le domaine public, qui pourront ensuite être utilisés pour former des modèles plus importants.

    Source : résultats de l'étude

    Et vous ?

    La performance des modèles IA justifie-t-elle vraiment de s'affranchir du droit d’auteur ?

    Faut-il imposer un système de « opt-in » (autorisation préalable) plutôt que « opt-out » (retrait sur demande) pour l'utilisation des contenus protégés ?

    Accepteriez-vous que votre travail serve à former une IA si vous receviez une rémunération ou un crédit explicite ?

    Le modèle actuel vous semble-t-il plutôt basé sur la spoliation ou l’innovation collaborative ?

    Le droit d’auteur tel qu’il est conçu aujourd’hui est-il adapté à l’ère de l’intelligence artificielle ?

    Qui doit porter la responsabilité juridique en cas d’abus : le développeur, l’entreprise, ou l’utilisateur ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  10. #10
    Communiqués de presse

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Avril 2025
    Messages
    121
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Avril 2025
    Messages : 121
    Par défaut Une vaste étude détecte des empreintes d'IA dans des millions d'articles scientifiques
    Une vaste étude détecte les empreintes de l'IA dans des millions d'articles scientifiques, avec un risque accru de biais, en fonction des instructions génératives que les auteurs ont fourni aux chatbots.

    Une étude a révélé que depuis l'apparition des LLM, la fréquence de certains choix de mots stylistiques dans la littérature académique a augmenté en conséquence. Ces données suggèrent qu'au moins 13,5 % des articles publiés en 2024 ont été rédigés avec une certaine quantité de traitement LLM. Avec environ 1,5 million d'articles actuellement indexés dans PubMed par an, cela signifie que les LLM aident à la rédaction d'au moins 200 000 articles par an. Cette estimation est basée sur les mots marqueurs LLM qui ont montré un large excès d'utilisation en 2024, ce qui suggère fortement que ces mots sont préférés par les LLM comme ChatGPT qui est devenu populaire à ce moment-là.

    Il y a de fortes chances que vous ayez rencontré, sans le savoir, un contenu en ligne attrayant créé, entièrement ou en partie, par une version quelconque d'un grand modèle de langage (LLM). À mesure que ces ressources d'IA, telles que ChatGPT et Google Gemini, deviennent plus efficaces pour générer des écrits de qualité quasi humaine, il devient plus difficile de distinguer les écrits purement humains des contenus qui ont été soit modifiés, soit entièrement générés par des LLM.

    Dans le domaine de la science, un rapport de l’université du Surrey a révélé que l’intégrité de la connaissance scientifique est compromise par la prolifération d’articles générés par l’IA, souvent superficiels et méthodologiquement fragiles. Ces "usines à papier", profitant de bases de données accessibles comme la NHANES, produisent en masse des études biaisées, privilégiant des analyses simplistes à un seul facteur pour des problèmes de santé complexes.

    Cette pratique, amplifiée depuis 2021, inonde les revues, y compris celles évaluées par les pairs et menace de polluer le corpus scientifique avec des conclusions trompeuses. Si l’évaluation par les pairs reste un rempart, son efficacité est mise à mal par le volume croissant de ces publications et les limites inhérentes au système (évaluateurs non spécialisés, manque de rigueur). Les chercheurs ont donc averti que les industries de l'IA sont en train de submerger la science d'études inutiles.

    Récemment, une nouvelle étude a confirmé cette situation. Pour faire la lumière sur l'ampleur du contenu des LLM dans les écrits universitaires, une équipe de chercheurs américains et allemands a analysé plus de 15 millions de résumés biomédicaux sur PubMed afin de déterminer si les LLM ont eu un impact détectable sur le choix de mots spécifiques dans les articles de revues.

    Leur enquête a révélé que depuis l'apparition des LLM, la fréquence de certains choix de mots stylistiques dans la littérature académique a augmenté en conséquence. Ces données suggèrent qu'au moins 13,5 % des articles publiés en 2024 ont été rédigés avec une certaine quantité de traitement LLM. Depuis la publication de ChatGPT il y a moins de trois ans, la prévalence de l'intelligence artificielle (IA) et du contenu LLM sur le web a explosé, suscitant des inquiétudes quant à l'exactitude et à l'intégrité de certaines recherches.

    Nom : 1.jpg
Affichages : 4714
Taille : 50,5 Ko
    Nombre de mots en trop par an.

    Les efforts passés pour quantifier l'augmentation des LLM dans les écrits académiques ont toutefois été limités par leur dépendance à l'égard d'ensembles de textes générés par des humains et des LLM. Cette configuration, notent les auteurs, "...peut introduire des biais, car elle nécessite des hypothèses sur les modèles que les scientifiques utilisent pour leur écriture assistée par LLM, et sur la manière exacte dont ils les invitent".

    Afin d'éviter ces limitations, les auteurs de la dernière étude ont examiné les changements dans l'utilisation excessive de certains mots avant et après la publication de ChatGPT afin de découvrir des tendances révélatrices. Les chercheurs se sont inspirés de recherches antérieures sur la santé publique concernant la pandémie COVID-19, qui ont permis de déduire l'impact de la pandémie COVID-19 sur la mortalité en comparant la surmortalité avant et après la pandémie.

    En appliquant la même approche "avant-après", la nouvelle étude a analysé les schémas d'utilisation excessive des mots avant et après l'apparition des LLM. Les chercheurs ont constaté qu'après la publication des MAJ, l'utilisation excessive de "mots de contenu" a cédé la place à une utilisation excessive de mots "stylistiques et fleuris", tels que "showcasing", "pivotal" et "grappling".

    En attribuant manuellement des parties du discours à chaque mot excédentaire, les auteurs ont déterminé qu'avant 2024, 79,2 % des choix de mots excédentaires étaient des noms. Au cours de l'année 2024, il y a eu un changement clairement identifiable. 66 % des choix de mots excédentaires étaient des verbes et 14 % des adjectifs. L'équipe a également identifié des différences notables dans l'utilisation du LLM entre les domaines de recherche, les pays et les lieux.

    Pour rappel, en 2024, les chercheurs ont été avertis de ne pas recourir à l'intelligence artificielle pour évaluer les articles universitaires, mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs. Bien que les progrès des grands modèles de langage rendent tentante l'utilisation de l'IA pour rédiger des évaluations, cela compromettrait le contrôle de qualité inhérent à l'évaluation par les pairs. Pour remédier à cette situation, les principales conférences sur l'IA envisagent de mettre à jour leurs politiques pour interdire explicitement l'utilisation de l'IA dans ce contexte.

    Nom : 2.jpg
Affichages : 867
Taille : 43,1 Ko
    La combinaison de mots de style en excès permet d'obtenir un écart de fréquence plus important.

    Approfondissement de la rédaction assistée par le LLM dans les publications biomédicales par le biais d'un excès de vocabulaire

    Citation Envoyé par Résumé de l'étude
    Les grands modèles de langage (LLM) comme ChatGPT peuvent générer et réviser des textes avec des performances humaines. Ces modèles présentent des limites évidentes, peuvent produire des informations inexactes et renforcer les préjugés existants. Pourtant, de nombreux scientifiques les utilisent pour leurs écrits scientifiques. Mais quelle est l'ampleur de l'utilisation du LLM dans la littérature académique ? Pour répondre à cette question dans le domaine de la recherche biomédicale, nous présentons une approche impartiale et à grande échelle : Nous étudions les changements de vocabulaire dans plus de 15 millions de résumés biomédicaux de 2010 à 2024 indexés par PubMed et montrons comment l'apparition des LLM a conduit à une augmentation abrupte de la fréquence de certains mots de style. Cette analyse de l'excès de mots suggère qu'au moins 13,5 % des résumés de 2024 ont été traités avec des LLM. Cette limite inférieure diffère selon les disciplines, les pays et les revues, atteignant 40 % pour certains sous-corpus. Nous montrons que les LLM ont eu un impact sans précédent sur l'écriture scientifique dans la recherche biomédicale, dépassant l'effet d'événements mondiaux majeurs tels que la pandémie de COVID.
    Présentation de l'étude

    Lors de l'étude, les chercheurs ont exploité l'usage excessif des mots pour montrer comment les LLM ont affecté la rédaction scientifique dans la recherche biomédicale. Ils ont constaté que l'effet était sans précédent en termes de qualité et de quantité : Des centaines de mots ont brusquement augmenté leur fréquence après que les LLM de type ChatGPT sont devenus disponibles. Contrairement aux changements précédents dans la popularité des mots, les mots excédentaires de 2023-2024 n'étaient pas des noms liés au contenu mais plutôt des verbes et des adjectifs influençant le style que les LLM préfèrent.

    L'analyse est effectuée au niveau du corpus et ne peut pas identifier les résumés individuels qui peuvent avoir été traités par un LLM. Néanmoins, les exemples suivants, tirés de trois résumés réels de 2023, illustrent le langage fleuri de type LLM :

    • 1) En examinant méticuleusement le réseau complexe reliant [...] et [...], ce chapitre complet examine en profondeur leur implication en tant que facteurs de risque significatifs pour [...].
    • 2) Une compréhension approfondie de l'interaction complexe entre [...] et [...] est essentielle à l'élaboration de stratégies thérapeutiques efficaces.
    • 3) Dans un premier temps, nous nous penchons sur les subtilités de [...], en soulignant son caractère indispensable dans la physiologie cellulaire, le labyrinthe enzymatique qui régit son flux, et les mécanismes pivots de [...].

    L'analyse de la fréquence excessive de ces mots de style préférés par les LLM suggère qu'au moins 13,5 % des 2024 résumés PubMed ont été traités avec des LLM. Avec ~1,5 million d'articles actuellement indexés dans PubMed par an, cela signifie que les LLM aident à la rédaction d'au moins 200 000 articles par an. Cette estimation est basée sur les mots marqueurs LLM qui ont montré un large excès d'utilisation en 2024, ce qui suggère fortement que ces mots sont préférés par les LLM comme ChatGPT qui est devenu populaire à ce moment-là. Il ne s'agit que d'une limite inférieure : Les résumés n'utilisant aucun des mots marqueurs LLM ne contribuent pas aux estimations, de sorte que la fraction réelle des résumés traités par LLM est probablement plus élevée.

    Nom : 3.jpg
Affichages : 871
Taille : 81,0 Ko
    Fréquences des résumés PubMed contenant plusieurs mots exemples.

    Interprétation et limites

    La limite inférieure estimée sur l'utilisation du LLM varie de moins de 5% à plus de 40% dans différents domaines de recherche indexés par PubMed, pays d'affiliation et revues. Cette hétérogénéité pourrait correspondre à des différences réelles dans l'adoption du LLM. Par exemple, la limite inférieure élevée de l'utilisation du LLM dans les domaines informatiques (20 %) pourrait être due au fait que les chercheurs en informatique sont plus familiers avec la technologie LLM et plus disposés à l'adopter. Dans les pays non anglophones, les LLM peuvent aider les auteurs à éditer des textes en anglais, ce qui pourrait justifier leur utilisation intensive. Enfin, les auteurs qui publient dans des revues dont les processus d'examen sont accélérés et/ou simplifiés pourraient être attirés par les LLM pour rédiger des articles à faible effort.

    Cependant, l'hétérogénéité des limites inférieures pourrait également indiquer d'autres facteurs au-delà des différences réelles dans l'adoption du LLM. Tout d'abord, cela pourrait mettre en évidence des différences non négligeables dans la façon dont les auteurs de différents milieux linguistiques censurent les suggestions des assistants d'écriture, rendant ainsi l'utilisation des LLM non détectable pour les approches basées sur les mots. Il est possible que les locuteurs natifs et non natifs de l'anglais utilisent les LLM aussi souvent, mais les locuteurs natifs peuvent être plus à même de remarquer et d'éliminer activement les mots de style non naturels des sorties LLM. Cette méthode ne serait pas en mesure de détecter la fréquence accrue de l'utilisation de ces LLM plus avancés.

    Deuxièmement, les délais de publication dans les domaines informatiques sont souvent plus courts que dans de nombreux domaines biomédicaux ou cliniques, ce qui signifie que toute augmentation potentielle de l'utilisation du LLM peut être détectée plus tôt dans les revues informatiques. Troisièmement, il en va de même pour les revues et les éditeurs dont les délais d'exécution sont plus rapides que ceux des revues de haut prestige ayant fait l'objet d'un examen approfondi. La méthode peut facilement être utilisée pour réévaluer ces résultats après quelques cycles de publication dans tous les domaines et dans toutes les revues.

    Enfin, si cet approche permet de détecter des changements lexicaux inattendus, elle ne permet pas de distinguer les différentes causes de ces changements, comme les multiples sujets émergents ou les multiples changements de style d'écriture émergents. Par exemple, l'approche ne peut pas distinguer l'augmentation de la fréquence des mots due à l'utilisation directe des LLM de l'augmentation de la fréquence des mots due à l'adoption de mots préférés par les LLM et à leur emprunt pour leur propre écriture. Pour la langue parlée, il existe des preuves émergentes d'une telle influence des LLM sur l'utilisation de la langue humaine. Cependant, cet effet est beaucoup plus petit et beaucoup plus lent.

    Nom : 4.jpg
Affichages : 862
Taille : 84,8 Ko
    Estimation des écarts de fréquence pour différents sous-corporation.

    Implications et politiques

    Quelles sont les implications de cette révolution en cours dans la rédaction scientifique ? Les scientifiques ont recours à la rédaction assistée par des LLM parce que ces derniers peuvent améliorer la grammaire, la rhétorique et la lisibilité générale de leurs textes, aider à la traduction en anglais et générer rapidement des résumés. Cependant, les LLM sont tristement célèbres pour inventer des références, fournir des résumés inexacts et faire de fausses déclarations qui semblent faire autorité et être convaincantes. Si les chercheurs peuvent remarquer et corriger les erreurs factuelles dans les résumés de leurs propres travaux assistés par des LLM, il peut être plus difficile de repérer les erreurs dans les revues de littérature ou les sections de discussion générées par des LLM.

    De plus, les LLM peuvent imiter les biais et autres déficiences de leurs données de formation ou même carrément plagier. Cela rend les résultats des LLM moins diversifiés et moins nouveaux que les textes écrits par des humains . Une telle homogénéisation peut dégrader la qualité de l'écriture scientifique. Par exemple, toutes les introductions générées par le LLM sur un certain sujet peuvent se ressembler et contenir le même ensemble d'idées et de références, manquant ainsi des innovations et exacerbant l'injustice de la citation. Pire encore, il est probable que des acteurs malveillants tels que les usines à papier utilisent les LLM pour produire de fausses publications.

    Cet étude montre que l'utilisation des LLM pour l'écriture scientifique est en augmentation malgré ces limitations substantielles. Comment la communauté universitaire doit-elle faire face à cette évolution ? Certains ont suggéré d'utiliser des LLM améliorés par la recherche qui fournissent des faits vérifiables provenant de sources fiables ou de laisser l'utilisateur fournir tous les faits pertinents au LLM pour protéger la littérature scientifique de l'accumulation d'inexactitudes subtiles.

    D'autres pensent que pour certaines tâches telles que l'examen par les pairs, les LLM sont mal adaptés et ne devraient pas être utilisés du tout. En conséquence, les éditeurs et les agences de financement ont mis en place diverses politiques, interdisant les LLM dans l'évaluation par les pairs, en tant que coauteurs, ou en tant que ressources non divulguées de toute sorte. Des analyses basées sur des données et impartiales peuvent être utiles pour vérifier si ces politiques sont ignorées ou respectées dans la pratique.

    Citation Envoyé par Conclusion de l'étude
    En conclusion, notre travail a montré que l'effet de l'utilisation des LLM sur l'écriture scientifique est vraiment sans précédent et dépasse même les changements marqués dans le vocabulaire induits par la pandémie de COVID-19. Cet effet sera probablement encore plus prononcé à l'avenir, étant donné que l'on peut analyser plus de cycles de publication et que l'adoption des LLM est susceptible d'augmenter. En même temps, l'utilisation des LLM peut être bien dissimulée et difficile à détecter, de sorte que l'ampleur réelle de leur adoption est probablement déjà plus élevée que ce que nous avons mesuré. Cette tendance appelle à une réévaluation des politiques et réglementations actuelles concernant l'utilisation des LLM pour la science. Notre analyse peut alimenter le débat nécessaire sur les politiques en matière de LLM en fournissant une méthode de mesure de l'utilisation des LLM qui est nécessaire de toute urgence. Notre approche de l'excès de mots pourrait aider à suivre l'utilisation future des LLM, y compris les cas d'utilisation scientifiques (demandes de subvention et examen par les pairs) et non scientifiques (articles de presse, médias sociaux et prose). Nous espérons que les travaux futurs approfondiront méticuleusement le suivi de l'utilisation des LLM de manière plus précise et évalueront quels changements politiques sont cruciaux pour relever les défis complexes posés par l'augmentation des LLM dans l'édition scientifique.
    Source : Delving into LLM-assisted writing in biomedical publications through excess vocabulary

    Et vous ?

    Pensez-vous que cette étude est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    La prolifération des articles scientifiques falsifiés générés par IA de type GPT sur Google Scholar : une menace croissante pour l'intégrité de la recherche académique. Des chercheurs mettent en garde

    Les chercheurs en IA ont commencé à évaluer leurs pairs avec l'aide de l'IA, environ 6,5 % à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des LLM

    L'IA est-elle le nouveau chercheur scientifique ? Ce n'est pas le cas, selon une étude où l'IA générative ne s'est montrée compétente qu'à certaines étapes de la rédaction d'article de recherche

    L'éditeur de revues académiques Wiley ferme 19 revues scientifiques et retire plus 11 000 articles douteux dont plusieurs ont été générés par IA. Comment les algorithmes ont contribué à la fraude scientifique
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  11. #11
    Membre actif
    Profil pro
    Inscrit en
    Novembre 2003
    Messages
    140
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2003
    Messages : 140
    Par défaut
    C'est ironique de voir qu'un article (Je parle de l'article scientifique) qui alerte sur les conclusions simplistes des modèles de langage finisse lui-même par en tirer une.
    Il ne distingue pas entre une étude générée par un modèle de langage et une étude écrite par un humain, mais reformulée par un modèle pour corriger les fautes ou clarifier l'expression
    Proposer un outil pour mesurer l'utilisation d'un modèle de langage dans un texte est une bonne idée, mais il est regrettable de négliger l'essentiel, à savoir différencier le fond de la forme.

  12. #12
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 724
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 724
    Par défaut Les articles scientifiques frauduleux sont en forte augmentation
    Les articles scientifiques frauduleux sont en forte augmentation : les "usines à articles" permettant la fraude scientifique à grande échelle sont des entités importantes, résistantes et en pleine expansion

    Selon une nouvelle étude publiée dans les Proceedings of the National Academy of Sciences (PNAS), des recherches scientifiques frauduleuses sont désormais produites et publiées à grande échelle, certains chercheurs et éditeurs peu scrupuleux s'associant pour obtenir le prestige associé à la publication. De nombreux groupes d'éditeurs et d'auteurs semblent ainsi avoir coopéré dans ce que l'étude qualifie de « vague de science frauduleuse ».

    Cette recrudescence des travaux frauduleux coïncide avec une prolifération des articles scientifiques falsifiés générés par l'intelligence artificielle (IA) sur des plateformes telles que Google Scholar. Les chercheurs spécialisés dans la désinformation signalent que des modèles de langage tels que GPT sont utilisés pour créer des recherches falsifiées qui imitent de manière convaincante des études légitimes. Facilement accessibles via les moteurs de recherche universitaires, ces articles fabriqués de toutes pièces menacent l'intégrité et la fiabilité de la recherche académique.

    Dans le cadre de leurs récents travaux, les chercheurs qui ont mené l'étude publiée dans PNAS ont obtenu environ 47 000 articles rétractés. Ils ont recueilli des rapports sur la même image utilisée dans plusieurs publications. Ils ont compilé 33 000 articles d'origine suspecte. Tirant parti du fait que les noms des rédacteurs en chef sont publics chez certains éditeurs scientifiques, ils ont cherché à savoir si certains rédacteurs en chef traitaient un nombre disproportionné d'articles scientifiques problématiques, qui ont ensuite été rétractés ou signalés négativement par d'autres scientifiques.

    Dans la revue PLOS One, les chercheurs ont pu relier 30,2 % des articles rétractés à 45 éditeurs. Parmi ces éditeurs, 25 ont vu leurs propres articles rétractés. Les 45 éditeurs représentaient 0,25 % du nombre total d'éditeurs de la revue.

    David Knutson, responsable de la communication chez PLOS, a déclaré dans un communiqué que, comme d'autres éditeurs, PLOS avait constaté une augmentation des cas de fabrication de publications et d'atteinte à l'intégrité de l'évaluation par les pairs depuis 2021. En ce qui concerne les rédacteurs en chef, il a déclaré : « Dès qu'un comportement éditorial préoccupant est détecté, tous les articles qu'ils ont traités précédemment ou qu'ils traitent actuellement font l'objet d'une enquête de notre part. »

    Nom : pnas research paper mill.PNG
Affichages : 8411
Taille : 121,9 Ko

    Les chercheurs ont également découvert des groupes d'articles acceptés en moins d'un mois, impliquant souvent les mêmes rédacteurs en chef et auteurs.

    « Ils ont découvert des cas où des personnes avaient soumis des articles qui avaient été acceptés extrêmement rapidement, et quand on regardait les éditeurs, on voyait qu'ils se les envoyaient simplement entre eux », a déclaré Luís Amaral, biologiste des systèmes à l'université Northwestern et auteur senior de l'étude.

    « Certaines personnes pensent qu'il s'agit d'une fraude généralisée », a déclaré Reese Richardson, chercheur postdoctoral au laboratoire Amaral de Northwestern et auteur principal de l'étude. « Cet article propose une méthode, un point de départ et des données qui montrent que ce phénomène existe bel et bien, et que les mécanismes actuels ne sont pas en mesure de l'empêcher. »

    Les conclusions de l'étude confirment les soupçons de nombreux chercheurs, dont Elisabeth Bik, microbiologiste et consultante indépendante en intégrité scientifique qui a passé des années à identifier les recherches frauduleuses.

    Dans un cas, la chercheuse a trouvé 125 articles qui réutilisaient des parties de la même image. « C'était la même photo, mais avec des recadrages différents », a-t-elle déclaré. « Ils n'ont pas généré les photos eux-mêmes. Ils les ont obtenues auprès d'un tiers, un courtier, une usine à articles scientifiques. »

    Les chercheurs utilisent le terme « usine à articles » pour décrire les organisations qui vendent des articles de recherche fabriqués en série, de mauvaise qualité et inventés de toutes pièces.

    Selon Elisabeth Bik, bon nombre de ces articles frauduleux semblent provenir de médecins ou de chercheurs issus de pays où les promotions sont liées aux indicateurs de publication. Ils considèrent cela comme un investissement, explique-t-elle : quelques milliers de dollars leur permettent d'obtenir un article et de gravir rapidement les échelons de la promotion.

    Cette pression institutionnelle est particulièrement courante en Inde et en Chine, où les promotions, les licences médicales ou l'obtention du diplôme sont liées par la politique au nombre de publications, ont déclaré plusieurs experts. Dans une enquête menée il y a trois ans auprès de médecins résidents en Chine, 47 % ont admis avoir acheté et vendu des articles, laissé d'autres personnes rédiger des articles ou rédigé des articles pour d'autres. Lorsque les auteurs de l'étude ont analysé les archives d'articles d'une entreprise proposant des services aux « professionnels de la recherche désespérés » de publier, ils ont constaté que 26 % des auteurs étaient originaires d'Inde.

    Bien que la culture du « publier ou périr » soit également courante aux États-Unis, elle se manifeste davantage par des attentes en matière de prestige, de financement et de titularisation, plutôt que par des quotas fixes.

    L'Inde et la Chine sont les pays les plus peuplés au monde et tous deux sont des puissances scientifiques. L'article souligne que la fraude scientifique peut se produire partout.

    L'accumulation de publications frauduleuses a transformé certains domaines scientifiques, comme la biologie de l'ARN, en ce que Reese Richardson appelle un « champ de mines » académique, rendant difficile pour les chercheurs d'identifier les études fiables. Certaines études frauduleuses ont même été intégrées dans des méta-analyses qui influencent la manière dont les médecins traitent leurs patients. Ils ont trouvé des preuves que ce domaine de recherche a été la cible d'acteurs malveillants.

    Les experts affirment que la prise de conscience croissante de la fraude pourrait alimenter un scepticisme plus général à l'égard de la science, en particulier si les institutions ne prennent pas les mesures qui s'imposent.

    « Plus les archives sont polluées, plus il est difficile de les nettoyer et plus il est difficile de rétablir la confiance au sein et en dehors de la communauté scientifique », a déclaré Stephanie Kinnan, membre de longue date du Comité sur l'éthique de la publication (COPE).

    La communauté scientifique dispose d'outils pour riposter. Elle inflige des amendes et exclut les chercheurs et les universités. Les revues retirent les articles. Les agrégateurs peuvent mettre à l'écart les revues problématiques. Mais les auteurs de l'article ont constaté que le nombre de « recherches » provenant de fabriques à articles suspectes doublait environ tous les 18 mois. Les mesures prises ne suivent pas le rythme.

    Pour Luís Amaral, comme pour de nombreux autres scientifiques, les implications sont profondément personnelles. « Je rêvais d'être scientifique depuis l'âge de 12 ans », a-t-il déclaré. « Voir ce dont j'ai rêvé de faire partie, ce que je chéris, potentiellement détruit, est vraiment révoltant. »

    Toute recherche s'appuie sur des recherches antérieures, a expliqué Luís Amaral. Sans confiance, tout cela s'effondre. « C'est la grande crainte : que toute l'entreprise scientifique qui nous a donné les vaccins, les médicaments contre le cancer, les appareils à rayons X, les scanners informatiques, disparaisse tout simplement », a-t-il déclaré.

    Nom : pnas research paper mill 2.PNG
Affichages : 1066
Taille : 71,6 Ko

    Selon les auteurs de l'étude, la concurrence pour obtenir des financements et des emplois limités pousse les scientifiques et les organisations qui les emploient à s'efforcer continuellement d'accroître leur envergure, leur efficacité, leur impact et la croissance des indicateurs qui servent à les évaluer. Cependant, si un groupe restreint de nations, d'organisations et d'individus au sommet de l'entreprise scientifique ont accès aux ressources nécessaires à une telle croissance extraordinaire, ce n'est pas le cas de la plupart d'entre eux, selon les chercheurs.

    L'étude indique que le sentiment d'injustice est associé à des comportements répréhensibles dans le domaine de la recherche et que le manque d'opportunités et de formation est souvent cité comme facteur de mauvaise conduite. Ainsi, l'inégalité croissante dans l'accès aux ressources pourrait contribuer à l'augmentation de l'ampleur de la fraude scientifique.

    Cependant, comme le soulignent les auteurs, même lorsqu'on dispose de ressources, la recherche reste une activité à haut risque : « on ne sait pas a priori si une étude sera couronnée de succès ou non. Pourquoi risquer l'échec, compromettre sa carrière, alors que pour un coût relativement faible, on peut facilement acquérir les publications et les citations qui, autrement, nécessiteraient une quantité immense de travail ? »

    Selon les chercheurs qui ont mené l'étude, les discussions avec différentes parties prenantes suggèrent que beaucoup considèrent actuellement la fraude scientifique systématique comme un phénomène qui ne touche que la périphérie de la « véritable » entreprise scientifique, c'est-à-dire en dehors des pays de l'OCDE. Cependant, des preuves de plus en plus nombreuses montrent que la production systématique de science frauduleuse et de mauvaise qualité peut se produire partout. De plus, comme le notent les chercheurs, les grands éditeurs nord-américains et européens et les rédacteurs en chef qu'ils nomment confèrent une crédibilité à ces pratiques. L'impact de ces pratiques est donc susceptible d'être ressenti de manière beaucoup plus immédiate et forte dans les pays où l'activité scientifique est encore balbutiante, mais il ne se limite en aucun cas à ces pays.

    Les auteurs indiquent que les tendances qu'ils ont exposé laissent présager de graves risques pour l'entreprise scientifique. Selon eux :

    • De grands groupes d'éditeurs et d'auteurs semblent avoir coopéré pour faciliter la fraude à la publication.
    • Les réseaux d'articles frauduleux liés entre eux suggèrent une production à l'échelle industrielle.
    • Les organisations qui vendent des services de tricherie contractuelle anticipent et contrent la désindexation et d'autres interventions des agrégateurs de littérature.
    • La littérature dans certains domaines pourrait déjà avoir été irrémédiablement endommagée par la fraude.
    • L'ampleur des activités de fraude scientifique dépasse déjà la portée des mesures punitives actuelles destinées à prévenir la fraude.

    L'étude révèle en outre que les mesures punitives actuellement mises en œuvre ne permettent pas de lutter contre la vague de fraude scientifique. Selon les chercheurs, d'une part, les articles publiés dans des revues désindexées continuent de faire partie des archives de la littérature scientifique dans certains agrégateurs de littérature. D'autre part, les rétractations sont encore relativement rares, bien en deçà de ce que l'on pourrait raisonnablement attendre pour des articles clairement frauduleux.

    La recherche montre que seuls 8 589 des 29 956 articles suspects du corpus de l'étude qui ont une entrée correspondante dans OpenAlex ont été rétractés (28,7 %). En extrapolant à partir des tendances actuelles, « seulement environ 25 % des articles suspects provenant d'usines à articles seront retirés et seulement environ 10 % des articles suspects provenant d'usines à articles seront publiés dans une revue désindexée. » Collectivement, ces résultats montrent que l'intégrité des données scientifiques existantes et futures est compromise par les lacunes des systèmes mêmes grâce auxquels les scientifiques évaluent la fiabilité des travaux de leurs pairs.

    Changer la culture et les incitations dans le domaine scientifique est un processus lent. Bon nombre des parties prenantes dont l'engagement est nécessaire pour opérer ce changement sont celles qui bénéficient du statu quo. Cependant, selon les chercheurs qui ont mené l'étude, la gravité de la situation exige une action urgente. « Les efforts de responsabilisation visant à identifier les défections (sur lesquels repose l'étude) ont été menés par des individus courageux mais isolés. Certaines ont été accusées d'autodéfense et écartées, d'autres ont été menacées de poursuites judiciaires. » Les chercheurs appellent ainsi à créer un système plus robuste et plus systématique, dans lequel il serait plus difficile d'écarter ou d'intimider ceux qui fournissent des preuves de fraude.

    Avant tout, « il est nécessaire de séparer les différentes tâches requises par un système de responsabilisation équitable : détection, enquête et sanction », selon les auteurs. « Chacune de ces tâches doit être retirée des mains des parties susceptibles d'être en situation de conflit d'intérêts. »

    L'étude montre que les rédacteurs en chef de revues ont reçu des paiements substantiels pour la publication rapide de manuscrits sélectionnés, et une action éditoriale coordonnée a été mise en place dans le but d'augmenter le facteur d'impact des revues. De même, les instituts de recherche se trouvent en situation de conflit d'intérêts lorsqu'ils enquêtent sur leurs propres scientifiques. De plus, les chercheurs estiment que la détection à l'échelle requise par le problème ne peut être laissée à un petit nombre de bénévoles isolés. Elle nécessite des ressources, tant humaines que technologiques, à la mesure de la menace. À tout le moins, des recherches beaucoup plus approfondies sont nécessaires pour caractériser les diverses entités qui régissent la fraude scientifique systématique et pour développer un vocabulaire unifié et complet permettant de les décrire.

    Selon les auteurs, l'un des principaux défis réside dans l'absence d'un cadre complet pour les types de comportements que ont été signalés dans l'étude. Les comportements contraires à l'éthique dans le domaine scientifique sont souvent considérés comme un défaut de caractère individuel, et non comme quelque chose qui est perpétré, facilité et encouragé par un groupe d'individus et d'entités. Même la définition d'un terme désormais courant tel que « usine à articles » reste floue, précisent les auteurs. « Certaines des organisations que nous décrivons pourraient être mieux caractérisées comme des « courtiers » plutôt que comme des usines à articles. Nous ne pouvons pas non plus déterminer si nos observations sont dues à l'implication de fabriques à articles commerciaux ou si elles résultent de réseaux de pairs moins formels fonctionnant sur une base non commerciale (comme cela pourrait être le cas parmi certains des rédacteurs en chef que nous signalons). »

    Cette complexité est la raison pour laquelle les chercheurs proposent d'utiliser le concept de défection issu de la théorie des jeux. « Nous pensons que cette perspective est utile, car elle permet d'appréhender certains comportements non pas en termes d'éthique, mais en termes de rationalité. Cependant, le terme « défection » implique un passage d'un comportement normatif à un comportement non normatif. Pour de nombreux médecins en formation et scientifiques en herbe, adopter un comportement de défection peut être la nouvelle norme. »

    Les chercheurs qui ont mené l'étude précisent finalement l'importance de souligner explicitement le risque que représente la fraude scientifique à grande échelle pour les approches de pointe émergentes. « Les « scientifiques automatiques » et les grands modèles de langage promettent tous deux d'aider à synthétiser les connaissances contenues dans la littérature scientifique à l'intention des scientifiques et du grand public. Cependant, ces approches ne sont pas encore en mesure de distinguer la science de qualité de la science de mauvaise qualité ou frauduleuse, et cette tâche devient d'autant plus difficile que le nombre de publications scientifiques frauduleuses augmente. »

    La vague croissante de science frauduleuse dénoncée par l'étude n'est pas une tendance isolée. Un rapport de l'université du Surrey a averti que les « usines à articles » alimentées par l'IA exploitent des ensembles de données ouverts tels que NHANES pour produire en masse des études biaisées sur des questions de santé complexes. Depuis 2021, cette pratique a connu une forte augmentation, submergeant même les revues à comité de lecture et mettant en péril l'intégrité du processus d'évaluation par les pairs.

    Le cas de l'éditeur de revues académiques Wiley illustre l'ampleur du problème. Dans un geste décisif, Wiley a fermé 19 revues et retiré plus de 11 000 articles suspects, dont beaucoup avaient été produits à l'aide de l'IA. Ces révélations ont mis au jour un marché noir florissant de la fausse science, de la recherche corrompue et de l’auteur fictif. Pour les universités et la communauté scientifique au sens large, cette affaire souligne la nécessité urgente de renforcer l'éthique et la transparence de la recherche avant que la confiance du public ne s'érode davantage.

    Source : Etude publiée dans Proceedings of the National Academy of Sciences (PNAS)

    Et vous ?

    Quelle lecture faites-vous de cette situation ?
    Trouvez-vous les conclusions de cette étude crédibles ou pertinentes ?

    Voir aussi :

    Une vaste étude détecte les empreintes de l'IA dans des millions d'articles scientifiques, avec un risque accru de biais, en fonction des instructions génératives que les auteurs ont fourni aux chatbots

    L'IA est-elle le nouveau chercheur scientifique ? Ce n'est pas le cas, selon une étude où l'IA générative ne s'est montrée compétente qu'à certaines étapes de la rédaction d'article de recherche

    Les chercheurs sont mis en garde contre l'utilisation de l'IA pour l'évaluation par les pairs des articles universitaires, mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

Discussions similaires

  1. Réponses: 0
    Dernier message: 24/06/2024, 11h26
  2. Réponses: 0
    Dernier message: 21/03/2024, 20h09
  3. Réponses: 0
    Dernier message: 31/12/2022, 21h09
  4. Réponses: 8
    Dernier message: 04/06/2016, 17h36
  5. Les vieux sont très fort au Basket
    Par kOrt3x dans le forum Sports
    Réponses: 2
    Dernier message: 08/08/2013, 16h43

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo