Les articles scientifiques frauduleux sont en forte augmentation

**totozor** · 05/09/2024, 09h55

Envoyé par Stéphane le calme

Controverse autour du droit d'auteur : OpenAI assure ne pas pouvoir gagner de l'argent sans utiliser gratuitement du matériel protégé

Que se passe-t-il quand un entreprise a un business model qui n'est pas viable?
Elle vire son CEO
Elle met la clé sous la porte
Elle est rachetée
Elle peut aussi sortir de la loi mais à ses risques et péril
etc

C'est quand même incroyable que des entreprises hégémoniques se permettent ce genre de discours et qu'en plus elles fasse du quasi-esclavage en parallèle de ça.
Vous êtes dans la une bulle financière, technique et technologique incroyable et vous ne pouvez pas respecter la loi? Il y a une chose qui cloche dans votre gestion!

**OuftiBoy** · 10/09/2024, 16h21

Envoyé par Stéphane le calme

La controverse autour de l’utilisation des matériaux protégés par le droit d’auteur par OpenAI soulève des questions cruciales sur l’équilibre entre l’innovation technologique et la protection des droits des créateurs. Alors que l’IA continue de progresser, il est essentiel de trouver des solutions qui respectent à la fois les besoins des développeurs d’IA et les droits des auteurs.

Je suis en total déssacord. C'est un principe utilisée vieux comment le monde. La question pose il est essentiel de trouver des solutions qui respectent à la fois les besoins des développeurs d’IA et les droits des auteurs.

C'est déjà éliminer la question du vol de donnée, pour qu'on accepte un "état de fait", et que la seule question qu'on se pose, soit de savoir si on doit choisr entre X ou Y pour régler le problème. C'est pourtant simple, tout vol est interdit. Et TOUS les acteurs de l'IA on procédé de la sorte, ils devraient selon en répondre devant un tribunal.

Parce que si on trouve normal que des entreprisent vol le contenus générer par d'autre, et que leur argument c'est "on ne peut pas faire autrement que de voler" pour faire fructifier notre buisness, alors, on doit accepter qu'on rentre dans un magasin, qu'on vole de dont en a envie besoin, et si on se fait choper à sortie, dire "je ne peux pas faire autrement que de voler" pour ne pas crever la dalle, et on ne devrait pas avoir de soucis. Et ça m'étonnerait très fort qu'une solution du type "comment règler le soucis entre ne pas crever" tout en laissant les magasin faire du pognon me sera proposée.

Si l'IA ne peux fonctionner qu'en volant, et bien on devrait tout simplement interdire ces dernières, sous peine de prison. Je ne vois pas pourquoi on ferait une exception "par ce que ça empêcherait l'innovation". Que ces messieurs, puisse qu'ils ne vont pas en prison, retourne dans leur entreprise et développe "une vrai" IA, sans devoir voler le contenu générer par d'autres. Mais c'est impossible en l'état actuelle de la technologie. Et qu'on ferme ces entreprises ne fera pas arrêter le monde de tourner, on vivait bien avant cette "ridicule technologie", et on vivra bien sans. Leur seul but, c'est de faire du pognon, et en plus en se basant sur le travail d'autres. C'est des méthodes de gangster et les gangster, on les mets en Prison.

Source : OpenAI (1, 2)

Envoyé par Stéphane le calme

Et vous ?

Quels compromis seriez-vous prêt à accepter pour permettre l’innovation en IA tout en protégeant les droits des auteurs ?

Aucun. Si l'IA était une innovation, elle devrait faire son taf sans voler les créateurs de contenus. Je vous pose la question à vous "Stéphane le calme", que feriez-vous si je récupérait l'ensemble de ce site, et que je l'utilise avec un autre emballage, que je fais du pognon avec, et que si vous n'êtes pas d'accord, je puisse vous répondre "je suis obligé de voler ce site, parce qu'aussi non, je ne sais pas faire du pognon ?" Quelle réaction auriez vous ? Tenteriez vous de "proposer une solution" qui nous satisface tous les deux ? Je ne pense pas, vous m'attaquerier en juste et je passerais surement par la case "prison".

J'aimerai bien avoir votre réponse.

Cordialement.

BàV et Peace & Love.

**floyer** · 10/09/2024, 22h44

Dire « c’est du vol » est un peu rapide… le vol est défini par la loi et une loi peut se changer (par le législateur bien sûr). En l’occurrence ce n’est pas du vol, mais une contrefaçon. Le code de propriété intellectuelle définit d’ailleurs des modalités qui réduisent le droit d’auteur (courtes citations, parodie, pour les logiciels, copie de sauvegarde, etc…). Sur les brevets, il y a une expiration (probablement considéré trop court par les inventeurs)… on pourrait imaginer une clause d’exclusion pour l’IA.

Ainsi, la question est que gagnerait ou que perdrait-on à réduire les droits d’auteur au profit de l’IA. Je pense plutôt que la concurrence de l’IA est déloyale est mènerait à un appauvrissement de notre capital culturel à moyen terme. Légiférer pour permettre des « œuvres » imitant trop facilement ce qui est produit actuellement ou simplement ne permettant pas à beaucoup d’artistes de vivre ne me semble pas une bonne idée.

**OuftiBoy** · 10/09/2024, 23h38

Envoyé par floyer

Dire « c’est du vol » est un peu rapide…

Je ne trouve pas, d'autant plus que certains "grand patron" osent même dire ouvertement (la je cite l'ex-PDG de Google) :
Ne vous préoccupez pas des droits d'auteur, et prenez (volez) tous ce dont vous avez besoin, vous gagnerez tellement d'argent, que vous pourrez vous payer les meilleurs avocat du monde pour vous évités des soucis par la suite.

Envoyé par floyer

le vol est défini par la loi et une loi peut se changer (par le législateur bien sûr). En l’occurrence ce n’est pas du vol, mais une contrefaçon.

En fait, c'est les 2 ensembles. D'abord du vole de données, puis de la contrefaçon en régurgitant ce qui a été volé.

Envoyé par floyer

Le code de propriété intellectuelle définit d’ailleurs des modalités qui réduisent le droit d’auteur (courtes citations, parodie, pour les logiciels, copie de sauvegarde, etc…). Sur les brevets, il y a une expiration… on pourrait imaginer une clause d’exclusion pour l’IA.

Si on ne parle même que du code (sans parler des mucisiens ou autres artiste), on ne parle pas de "courtes" citations (mais d'écriture d'une énorme majorité de code en se basant sur ce qui a été volé au départ), ce n'est pas non plus de la parodie, ce n'est pas une copie de sauvegarde, etc...

Envoyé par floyer

Ainsi, la question est que gagnerait ou que perdrait-on à réduire les droits d’auteur au profit de l’IA. Je pense plutôt que la concurrence de l’IA est déloyale est mènerait à un appauvrissement de notre capital culturel à moyen terme. Légiférer pour permettre des « œuvres » imitant trop facilement ce qui est produit actuellement ou simplement ne permettant pas à beaucoup d’artistes de vivre ne me semble pas une bonne idée.

Il ne faut pas voir le problème sous cet angle, sinon ça veut dire qu'on négocie avec des voleurs. La question n'est pas de savoir ce qu'on gagnerait ou perdrait à réduire les droits d'auteur au profit de l'IA.

Si les "IA" était vraiment des "IA", et qu'elles produisent un contenus "original", je n'ai rien à redire, je n'ai rien contre la concurrence.

Mais on est très loin de ça ici. Et tous ceux qui se sont engoufrés dans cette voie en étaient parfaitement au courant.

Un peintre qui fait une copie d'un Rubens et la vend comme si c'était un authentique Rubens, c'est la prison. Point.

Si l'IA régurgite du code volé, c'est la prison pour les responsable. Point.

quand tu dis : Je pense plutôt que la concurrence de l’IA est déloyale est mènerait à un appauvrissement de notre capital culturel à moyen terme. Légiférer pour permettre des « œuvres » imitant trop facilement ce qui est produit actuellement ou simplement ne permettant pas à beaucoup d’artistes de vivre ne me semble pas une bonne idée.

Oui, ce serait un appauvrissement du capital culturel, quoique, en matière de musique, le niveau global et l'innovation est déjà tellement réduite, que les musiciens se sont déjà chargé eux-même de cela tout seuls

. Tout se ressemble, tout est d'un niveau au rat des paquerette, fade, etc.

Il y bien longtemps qu'on a plus entendu un artiste produire quelque chose qu'un Balavoine, un Sardou auraient pu produire, ou qu'un artiste comme Coluche aurait pu dire. Tout cela n'est plus "autorisé", sous peine d'être directement taxé d'être d'extrême droite.

Il en faut aussi de la "variété", mais on manque cruellement de chanteur ou de personnalité public qui dérengeraient la pensée unique à laquel on nous soumet depuis la fin des 80's. Un vianey, un christophe maé, un Bioley, Pagni, Bruel, et tout ces artistes "bien dans le rang de la pensée unique bobo", a un moment ça finit par être soulant, pour rester poli.

Légiférer ne servirait à rien. Le point de départ, c'est le vol des données pour alimenter les LLM. Rien d'innovant ne peut sortir d'une IA. Il y aura dans tous les domaines un nivellement par le bas, plus d'originalité, de nouveau concept, de nouvelles idées.

Si une IA sort un disque "à la beattles" ou "à la ABBA", ça devrait au minimum être mentionné. On fait chanter macron, avec sa voix, mais déformée pour qu'elle reprenne le "style" d'Aznavour. Ce n'est rien de nouveau, c'est juste une contrefaçons faites avec des données volée. Chercher plus loin, c'est déjà accepter le vol initiale. Je ne vois pourquoi on ferait une exception pour l'IA.

BàT. et Peace & Love.

**kain_tn** · 11/09/2024, 19h50

Envoyé par OuftiBoy

Je ne vois pourquoi on ferait une exception pour l'IA.

En fait, c'est même pire que ça: ce sont des multimilliardaires, qui viennent pleurnicher sur le fait que pour faire encore plus d'argent, ils doivent voler!

Ça en devient ridicule!

**Jules34** · 12/09/2024, 14h58

Envoyé par floyer

Dire « c’est du vol » est un peu rapide… le vol est défini par la loi et une loi peut se changer (par le législateur bien sûr).

Le vol c'est comme le meurtre. Le législateur n'y peut rien. Il peut "maquiller" le truc mais quand on prend quelque chose dans ta poche sans que t'ai dit oui c'est du vol. Du Japon jusqu'à Mars.

Mais ce raisonnement n'est pas tout à fait faux et les avocats d'Open AI vont la jouer comme ça : utiliser de la data pour entrainer un modèle devrait rentrer dans le fair use au sens du droit américain. La ou ça va bloquer c'est que le fair use c'est pour la philantrophie, pas les sociétés commerciales qui veulent faire du profit avec l'outil créé en pillant le travail des autres.

**Jules34** · 05/09/2024, 09h15

"Mais Monsieur comment voulez que je vende des voitures si je les voles pas au préalable !"

**xbrossard** · 05/09/2024, 11h11

Pas de problème pour que open IA pille tout les contenus pour s'entraîner, du moment que lorsque je demanderait à chatGPT de résumer un contenu, je pourrais faire valoir que c'est pour m'entraîner à faire un résumé en ayant changé 2-3 mots dans le résultat...

**OuftiBoy** · 05/09/2024, 15h52

Moi si je dis, il faut bien que cambriole 25 maisons par ans, sinon je ne sais pas partir en vacances, je suis certains que ça finira mal pour moi. Mais lui, le Altman, la nouvelle coqueluche du moment, il peut se permettre de dire qu'il ne peut gagner des millions qu'en volant le travail des autres, et ça passe crème.

**Gluups** · 05/09/2024, 23h30

Envoyé par OuftiBoy

Moi si je dis, il faut bien que cambriole 25 maisons par ans, sinon je ne sais pas partir en vacances, je suis certains que ça finira mal pour moi. Mais lui, le Altman, la nouvelle coqueluche du moment, il peut se permettre de dire qu'il ne peut gagner des millions qu'en volant le travail des autres, et ça passe crème.

Apparemment, sauf ici

Au fait, Altman, ce n'est pas un nom qui me rappelle quelque chose ?

Il n'a pas été question d'un procès, ici, ou je confonds ?

**Gluups** · 05/09/2024, 23h05

Envoyé par Stéphane le calme

Controverse autour du droit d'auteur : OpenAI assure ne pas pouvoir gagner de l'argent sans utiliser gratuitement du matériel protégé,

Ah mais parce qu'en plus ils envisagent de gagner de l'argent, avec ça ? Mais pour quoi faire ?

Envoyé par PO

Aucun, pourquoi un générateur de médiocrité (nivelage de tout le contenu) pourrait voler le travail des producteurs de valeur pour que OpenAI puisse "gagner de l'argent" en empêchant le dit producteur de valeur d'en gagner ? La réponse à votre question est dans la question en fait, il suffit de remplacer "innovation" par ce qu'est réellement un tel moteur conversationnel qui répond tout et n'importe quoi et de se rappeler le sens de "droit" et de "auteur"

Un ténia ne peut pas survivre sans priver son hôte de ressources. Pourtant, malgré ça, sans pitié, l'hôte va avaler des potions qui vont l'affaiblir quelque temps, afin de se débarrasser du ténia.

Envoyé par Jules34

"Mais Monsieur comment voulez que je vende des voitures si je les voles pas au préalable !"

C'est vrai, quoi.

**Stéphane le calme** · 09/09/2024, 12h13

La prolifération des articles scientifiques falsifiés générés par IA de type GPT sur Google Scholar : une menace croissante pour l’intégrité de la recherche académique,
des chercheurs en désinformation mettent en garde

Les chercheurs en désinformation ont récemment mis en lumière un phénomène inquiétant : la prolifération d’articles scientifiques falsifiés, générés par des modèles de langage comme GPT, sur Google Scholar. Ces articles, souvent créés à l’aide d’applications d’IA largement disponibles comme ChatGPT, imitent l’écriture scientifique et sont facilement accessibles via des moteurs de recherche académiques.

Dans un monde où l’intelligence artificielle (IA) joue un rôle de plus en plus central, une nouvelle menace émerge : la prolifération d’articles scientifiques falsifiés générés par des modèles de langage comme GPT. Récemment, des chercheurs en désinformation ont découvert que ces articles, souvent indiscernables des véritables publications scientifiques, se retrouvent sur Google Scholar, une plateforme largement utilisée par les chercheurs et les étudiants du monde entier. Cette découverte soulève des questions cruciales sur l’intégrité de la recherche scientifique et la confiance du public dans les connaissances académiques.

L'utilisation de ChatGPT pour générer des textes pour des articles académiques a soulevé des inquiétudes quant à l'intégrité de la recherche. Ce phénomène fait l'objet de discussions continues dans des éditoriaux, des commentaires, des articles d'opinion et sur les médias sociaux. Bien qu'il existe de nombreuses utilisations légitimes des GPT pour la recherche et la rédaction universitaire, leur utilisation non déclarée (au-delà de la relecture) a des implications potentiellement considérables pour la science et la société, mais surtout pour leurs relations. Il semble donc important d'étendre la discussion à l'un des intermédiaires les plus accessibles et les plus connus entre la science, mais aussi certains types de désinformation, et le public, à savoir Google Scholar, également en réponse aux préoccupations légitimes selon lesquelles la discussion sur l'IA générative et la désinformation doit être plus nuancée et étayée empiriquement.

Google Scholar est un moteur de recherche académique facile à utiliser. Il est disponible gratuitement et son index est très complet. Il est également souvent présenté comme une source crédible de littérature universitaire et même recommandé dans les guides des bibliothèques, par les initiatives d'éducation aux médias et à l'information et par les vérificateurs de faits. Cependant, Google Scholar n'a pas la transparence et le respect des normes qui caractérisent habituellement les bases de données de citations. Au lieu de cela, Google Scholar utilise des robots automatisés, comme le moteur de recherche de Google, et les critères d'inclusion sont basés sur des normes essentiellement techniques, permettant à tout auteur individuel - avec ou sans affiliation scientifique - de télécharger (upload) des articles à indexer.

Il a été démontré que Google Scholar est susceptible d'être manipulé par des exploitations de citations et en donnant accès à de faux articles scientifiques. Une grande partie de l'index de Google Scholar est constituée de publications provenant de revues scientifiques établies ou d'autres formes de littérature savante dont la qualité est contrôlée. Cependant, l'index contient également une grande quantité de littérature grise, y compris des travaux d'étudiants, des documents de travail, des rapports, des serveurs de prépublication et des sites de réseaux universitaires, ainsi que des documents provenant de revues universitaires dites « douteuses », y compris des usines à articles (ou paper mills en anglais). L'interface de recherche n'offre pas la possibilité de filtrer les résultats de manière significative en fonction du type de matériel, du statut de la publication ou d'une forme de contrôle de la qualité, telle que la limitation de la recherche au matériel évalué par les pairs.

Nom : nombre.png
Affichages : 14270
Taille : 20,0 Ko

Les usines à articles renforcés par l'IA générative

Il s'agit de sociétés qui vendent de grandes quantités d’articles scientifiques frauduleux à des auteurs cherchant à augmenter leur nombre de publications pour obtenir une promotion ou un poste.

Les auteurs paient pour obtenir un article, généralement de mauvaise qualité, contenant de fausses données, des informations plagiées ou douteuses et parfois écrit par une intelligence artificielle. Ces « faux articles » peuvent ensuite être facilement publiés dans des revues prédatrices qui n’effectuent pas ou peu de révision par les pairs.

Depuis quelques temps, ces sociétés sont passées à la vitesse supérieure en corrompant des éditeurs de revues pour faire accepter leurs articles, comme le raconte Frederik Joelving de Retraction Watch dans un article publié dans Science en janvier 2024. Les paper mills paient des rédacteurs en chef pour qu’ils acceptent leurs articles rapidement ou pour placer leurs propres éditeurs ou reviewers dans les comités éditoriaux des journaux.

Le médecin de santé publique Hervé Maisonneuve, auteur du blog « Rédaction médicale », explique que ces entreprises connaissent très bien la codification des publications. « Les paper mills utilisent aussi des algorithmes d’écriture automatique, rapporte-t-il. Vous rentrez des chiffres dans un fichier Excel et le robot vous sort un article. » Pour illustrer en quoi l’intelligence artificielle (IA) fait énormément bouger les lignes, il rappelle l’histoire du « robot chercheur », auteur de faux articles et inventé par le programmeur Cyril Labbé. L’informaticien a aussi mis au point un système pour détecter les articles élaborés par des IA. Les algorithmes sont parfois trahis par des éléments très cocasses. Par exemple, dans un article consacré au cancer de la prostate, la moitié des patients sont des femmes.

Ces entreprises pratiquent souvent un autre type d’escroquerie, la fraude à la paternité, « dans laquelle certains ou tous les auteurs de l’article n’ont pas contribué au projet de recherche », confie Anna Abalkina, chercheuse à l’Université libre de Berlin. Ils proposent à un chercheur d’être ajouté comme co-auteur d’un article. Certains sont prêts à payer cher. Ces fausses collaborations révèlent parfois « l’entourloupe ». Parmi les articles de paper mills qu’elle a dévoilés, Anna Abalkina en désigne un dans lequel « un chercheur en médecine et un économiste écrivent ensemble un article sur le génie chimique ! »

Nom : papier.png
Affichages : 2968
Taille : 38,2 Ko

Caractéristiques des articles falsifiés

Les articles falsifiés générés par GPT présentent plusieurs caractéristiques distinctives. Ils abordent fréquemment des sujets d’actualité et controversés, tels que le changement climatique, la santé publique et les technologies de l’information. Ces sujets sont particulièrement vulnérables à la désinformation en raison de leur complexité et de leur importance sociétale. Une analyse approfondie de ces articles révèle qu’ils contiennent souvent des phrases et des structures typiques des modèles de langage de grande taille (LLM) comme GPT. Par exemple, ils peuvent inclure des citations inventées, des références à des études inexistantes et des conclusions qui semblent plausibles mais qui ne sont pas fondées sur des données réelles.

Diffusion et accessibilité

La facilité avec laquelle ces articles falsifiés peuvent être trouvés sur Google Scholar est alarmante. Contrairement aux bases de données académiques traditionnelles qui appliquent des critères stricts de sélection et de révision par les pairs, Google Scholar indexe un large éventail de contenus, y compris des prépublications, des thèses et des rapports techniques. Cette approche inclusive, bien qu’utile pour l’accès à une grande variété de documents, ouvre également la porte à la diffusion de contenus de qualité douteuse. Les articles générés par GPT peuvent ainsi se retrouver aux côtés de recherches rigoureusement contrôlées, ce qui complique la tâche des chercheurs et des étudiants pour distinguer le vrai du faux.

Implications pour la confiance publique

La présence d’articles scientifiques falsifiés sur Google Scholar pose un risque sérieux pour la confiance du public dans la science. Les chercheurs, les étudiants et même les décideurs politiques s’appuient sur cette plateforme pour accéder à des informations fiables et à jour. La possibilité que des contenus apparemment scientifiques soient en réalité créés de manière trompeuse par des outils d’IA pourrait saper la base de la confiance dans les connaissances scientifiques. En outre, la citation de ces articles dans d’autres travaux de recherche pourrait propager des informations erronées et fausser les conclusions de nouvelles études.

Conséquences sociétales

Les implications sociétales de cette tendance sont profondes. La manipulation potentielle de la base de preuves de la société, en particulier dans des domaines politiquement controversés, est une préoccupation croissante. Par exemple, des articles falsifiés sur le changement climatique pourraient être utilisés pour semer le doute sur la réalité du réchauffement climatique, influençant ainsi les politiques publiques et les opinions des citoyens. De même, des articles sur la santé publique contenant des informations erronées pourraient avoir des conséquences graves sur la gestion des pandémies et la santé des populations.

Réactions et mesures à prendre

Face à cette menace, plusieurs mesures peuvent être envisagées pour préserver l’intégrité de la recherche scientifique. Tout d’abord, les plateformes académiques comme Google Scholar doivent renforcer leurs critères d’inclusion et mettre en place des mécanismes de détection des articles falsifiés. Cela pourrait inclure l’utilisation de technologies d’IA pour identifier les caractéristiques typiques des contenus générés par des modèles de langage. Ensuite, les chercheurs et les institutions académiques doivent être sensibilisés à ce problème et formés à la détection des articles falsifiés. Enfin, une collaboration internationale entre les chercheurs, les éditeurs et les plateformes académiques est essentielle pour développer des normes et des pratiques visant à protéger la communication scientifique.

Conclusion

La découverte d’articles scientifiques falsifiés par GPT sur Google Scholar souligne la nécessité d’une vigilance accrue et de mesures pour préserver l’intégrité de la communication scientifique. Les chercheurs et les plateformes académiques doivent collaborer pour développer des mécanismes de détection et de prévention efficaces afin de protéger la confiance du public dans la science. En fin de compte, il est crucial de trouver un équilibre entre l’accessibilité de l’information et la garantie de sa qualité et de sa fiabilité.

Sources : Harvard, Science

Et vous ?

Quels sont, selon vous, les principaux dangers de la prolifération des articles scientifiques falsifiés par des IA comme GPT ?

Comment pensez-vous que les plateformes académiques comme Google Scholar devraient réagir face à ce problème ?

Avez-vous déjà rencontré des articles scientifiques dont vous doutiez de l’authenticité ? Comment avez-vous réagi ?

Quelles mesures pourraient être mises en place pour améliorer la détection des articles falsifiés par IA ?

Pensez-vous que l’IA peut jouer un rôle positif dans la recherche scientifique malgré ces risques ? Si oui, comment ?

Comment les chercheurs et les institutions académiques peuvent-ils collaborer pour préserver l’intégrité de la recherche scientifique ?

Quels impacts à long terme cette situation pourrait-elle avoir sur la confiance du public dans la science ?

Quelles sont les responsabilités des développeurs d’IA dans la prévention de l’utilisation abusive de leurs technologies ?

**_toma_** · 09/09/2024, 23h35

Ho bah ça alors, personne n'aurait pu prévoir ce phénomène.
Prochaine étape qu'on ne pourrait absolument pas prévoir : ça y est, c'est la fin de l'IA.
Cette étude met en lumière une fraude sur un secteur assez restreint. On peut facilement supposer que les dégâts sont plus larges et que les LLM ont déjà commencé à réingurgiter -en les considérant comme étant de source fiable- des textes qu'on leur a en partie fait générer.

**OuftiBoy** · 09/09/2024, 23h59

Envoyé par _toma_

Ho bah ça alors, personne n'aurait pu prévoir ce phénomène.

Pourtant, je croise souvent des madames irma par ici

Envoyé par _toma_

Prochaine étape qu'on ne pourrait absolument pas prévoir : ça y est, c'est la fin de l'IA.

Oui, car la prochaine étape, c'est déjà prévu, ce sera l'Intelligence Artificielle Intelligente. L'IAI. Elle permettra même, dixit les expert en ce domaine, et après une étude approndie faite sur le cousin du copain de ma soeur, de se prémunire des vampires qui sont de retour.

Envoyé par _toma_

Cette étude met en lumière une fraude sur un secteur assez restreint. On peut facilement supposer que les dégâts sont plus larges et que les LLM ont déjà commencé à réingurgiter -en les considérant comme étant de source fiable- des textes qu'on leur a en partie fait générer.

Je n'irai pas aussi vite, comme le jeu actuellement est de réécrire l'histoire pour qu'elle colle mieux à l'idéologie dominante qu'on doit accepter pour ne pas être catalogué comme un dangereux nazi en bote brune, l'IAI pourrait être d'une grande aide, vu que c'est sa spécialité.

BàV et Peace & love.

Invité · 10/09/2024, 15h14

Quels compromis seriez-vous prêt à accepter pour permettre l’innovation en IA tout en protégeant les droits des auteurs ?

Mmm, à terme, aucun compromis possible.

**Jade Emy** · 12/09/2024, 15h13

Les chatbots d'IA ont un biais politique qui pourrait influencer la société à son insu, car la plupart des LLM existants affichent des préférences politiques de centre-gauche, d'après une étude de David Rozado

Une étude de l'informaticien David Rozado montre que la plupart des grands modèles de langage existants affichent des préférences politiques de gauche. La manière dont ces préjugés s'insèrent dans les systèmes n'est pas claire, mais rien n'indique qu'ils soient délibérément introduits par les développeurs des LLM. Avec l'ascension des chatbots d'IA comme source d'informations, il est crucial d'examiner et de traiter les biais politiques potentiels intégrés dans les LLM.

En 2023, des chercheurs basés au Royaume-Uni ont demandé à ChatGPT de répondre à une enquête sur les convictions politiques. L'étude visait à savoir ce que l'IA "pensait" que les partisans des partis libéraux aux États-Unis, au Royaume-Uni et au Brésil pourraient y répondre. Les chercheurs ont ensuite demandé à ChatGPT de répondre aux mêmes questions sans aucune invite et ont comparé les deux ensembles de réponses.

Les résultats ont montré un "préjugé politique significatif et systématique envers les démocrates aux États-Unis, Lula au Brésil et le Parti travailliste au Royaume-Uni". L'étude suggère que ChatGPT d'OpenAI a un parti pris libéral, soulignant à quel point les sociétés d'intelligence artificielle ont du mal à contrôler le comportement des chatbots d'IA alors même qu'elles les diffusent auprès de millions d'utilisateurs dans le monde.

Une étude récente vient confirmer cette hypothèse. L'informaticien David Rozado, de l'école polytechnique d'Otago, en Nouvelle-Zélande, a soumis 11 questionnaires politiques standard à 24 grands modèles de langage (LLM) différents et a constaté que la position politique moyenne de tous les modèles n'était pas proche de la neutralité. Selon M. Rozado, "la plupart des LLM existants affichent des préférences politiques de gauche lorsqu'ils sont évalués à l'aide de divers tests d'orientation politique".

Nom : 0.jpg
Affichages : 4704
Taille : 66,7 Ko

Les chatbots d'IA afficheraient des préférences politiques de centre-gauche

Si les chatbots d'IA alimentés par des grands modèles de langage (LLM) sont connus pour les biais liés à la race et au sexe, les préjugés politiques viennent s'ajouter à cette liste. Durant l'étude, le penchant moyen pour la gauche n'était pas très marqué, mais il était significatif. D'autres tests sur des chatbots personnalisés, où les utilisateurs peuvent affiner les données d'entraînement des LLM, ont montré que ces IA pouvaient être influencées pour exprimer des penchants politiques en utilisant des textes de gauche ou de droite.

Ces résultats démontrent ainsi le potentiel de cette technologie émergente à influencer involontairement, et peut-être même de manière néfaste, les valeurs et les attitudes de la société. Les LLM commençant à remplacer partiellement les sources d'information traditionnelles telles que les moteurs de recherche et Wikipédia, les implications sociétales des préjugés politiques intégrés dans les LLM sont considérables.

La manière dont ces préjugés s'insèrent dans les systèmes n'est pas claire, mais rien n'indique qu'ils soient délibérément introduits par les développeurs des LLM. Ces modèles sont entraînés sur de grandes quantités de textes en ligne, mais un déséquilibre entre l'apprentissage à gauche et l'apprentissage à droite pourrait avoir une influence. La prédominance de ChatGPT dans la formation d'autres modèles pourrait également être un facteur, car le chatbot s'est déjà montré à gauche du centre en ce qui concerne son point de vue politique.

Malgré l'empressement des entreprises technologiques telles que Google, Microsoft, Apple et Meta à imposer des chatbots d'IA, il est peut-être temps pour de réévaluer la manière d'utiliser cette technologie et de donner la priorité aux domaines dans lesquels l'IA peut réellement être utile. Pour M. Rozado, "il est crucial d'examiner de manière critique et de traiter les biais politiques potentiels intégrés dans les LLM afin de garantir une représentation équilibrée, juste et précise des informations dans leurs réponses aux requêtes des utilisateurs".

Voici la présentation de l'étude par David Rozado :

Je présente ici une analyse complète des préférences politiques intégrées dans les grands modèles de langage (LLM). J'ai administré 11 tests d'orientation politique, conçus pour identifier les préférences politiques du candidat, à 24 LLM conversationnels de pointe, à la fois fermés et à source ouverte. Lorsqu'ils sont interrogés sur des questions/affirmations à connotation politique, la plupart des LLM conversationnels ont tendance à générer des réponses qui sont diagnostiquées par la plupart des instruments de test politique comme manifestant des préférences pour des points de vue de centre gauche.

Cela ne semble pas être le cas pour cinq modèles de base supplémentaires (c.-à-d. fondation) sur lesquels sont construits les LLM optimisés pour la conversation avec les humains. Cependant, la faible performance des modèles de base à répondre de manière cohérente aux questions des tests rend ce sous-ensemble de résultats peu concluant.

Enfin, je démontre que les LLM peuvent être orientés vers des endroits spécifiques du spectre politique par le biais d'un réglage fin supervisé (SFT) avec seulement des quantités modestes de données politiquement alignées, ce qui suggère le potentiel du SFT pour intégrer l'orientation politique dans les LLM. Les LLM commençant à remplacer partiellement les sources d'information traditionnelles telles que les moteurs de recherche et Wikipédia, les implications sociétales des préjugés politiques intégrés dans les LLM sont considérables.

Préférences politiques des LLM : pourquoi penchent-ils à gauche ?

Cette étude a montré que lorsque des questions politiques sont posées à des LLM conversationnels modernes, leurs réponses sont souvent jugées comme penchant à gauche par les tests d'orientation politique. L'homogénéité des résultats des tests entre les LLM développés par une grande variété d'organisations est remarquable.

Ces préférences politiques ne sont apparentes que dans les LLM qui sont passés par le réglage fin supervisé (SFT) et, occasionnellement, par une variante des étapes d'apprentissage par renforcement (RL) du pipeline de formation utilisé pour créer des LLM optimisés pour suivre les instructions des utilisateurs. Les réponses des modèles de base aux questions à connotation politique ne semblent pas, en moyenne, pencher vers l'un ou l'autre pôle de l'échiquier politique. Cependant, l'incapacité fréquente des modèles de base à répondre aux questions de manière cohérente justifie la prudence dans l'interprétation de ces résultats.

En effet, les réponses des modèles de base aux questions à connotation politique sont souvent incohérentes ou contradictoires, ce qui complique la détection des positions. Il faut s'y attendre, car les modèles de base sont essentiellement formés pour compléter des documents web, et ne parviennent donc pas toujours à générer des réponses appropriées lorsqu'ils sont confrontés à une question ou à un énoncé issu d'un test d'orientation politique.

Nom : 1.jpg
Affichages : 1053
Taille : 49,5 Ko

Ce comportement peut être atténué par l'inclusion de suffixes tels que "Je sélectionne la réponse :" à la fin de l'invite transmettant un élément de test au modèle. L'ajout d'un tel suffixe augmente la probabilité que le modèle sélectionne l'une des réponses autorisées du test dans sa réponse. Cependant, même lorsque le module de détection des positions classe la réponse d'un modèle comme valide et l'associe à une réponse autorisée, les évaluateurs humains peuvent encore trouver certaines associations incorrectes.

Cette incohérence est inévitable, car les évaluateurs humains peuvent eux-mêmes commettre des erreurs ou être en désaccord lors de la détection de la position. Néanmoins, l'accord inter-juges entre la détection automatisée de la posture par gpt-3.5-turbo et les évaluations humaines pour la mise en correspondance des réponses du modèle de base avec les réponses des tests est modeste, avec un kappa de Cohen de seulement 0,41. Pour ces raisons, les résultats des modèles de base sur les questions des tests sont suggestifs mais finalement peu concluants.

Dans une autre série d'analyses, l'étude a également montré comment, avec un calcul modeste et des données d'entraînement politiquement personnalisées, un praticien peut aligner les préférences politiques des LLM sur des régions cibles du spectre politique par le biais d'un réglage fin supervisé. Cela prouve le rôle potentiel du réglage fin supervisé dans l'émergence des préférences politiques au sein des MFR.

Nom : 2.jpg
Affichages : 1047
Taille : 55,2 Ko

Hypothèses sur l'impact de la formation sur les orientations politiques des LLM

Malheureusement, cette analyse ne peut pas déterminer de manière concluante si les préférences politiques observées dans la plupart des LLM conversationnels proviennent des phases de pré-entraînement ou de réglage fin de leur développement. L'apparente neutralité politique des réponses des modèles de base aux questions politiques suggère que le pré-entraînement sur un large corpus de documents Internet ne joue pas un rôle significatif dans la transmission des préférences politiques aux LLM.

Cependant, les réponses incohérentes fréquentes des LLMs de base aux questions politiques et la contrainte artificielle de forcer les modèles à choisir une réponse parmi un ensemble prédéterminé de réponses à choix multiples ne peuvent pas exclure la possibilité que les préférences de gauche observées dans la plupart des LLMs conversationnels puissent être un sous-produit des corpus de pré-entraînement, émergeant seulement après l'ajustement, même si le processus d'ajustement lui-même est politiquement neutre. Bien que cette hypothèse soit concevable, les preuves présentées ne peuvent ni la soutenir ni la rejeter de manière concluante.

Les résultats de cette étude ne doivent pas être interprétés comme la preuve que les organisations qui créent des LLM utilisent délibérément les phases de réglage fin ou d'apprentissage par renforcement de la formation au LLM conversationnel pour injecter des préférences politiques dans les LLM. Si des préjugés politiques sont introduits dans les LLM après la formation, les tendances politiques constantes observées dans cette analyse pour les LLM conversationnels peuvent être un sous-produit involontaire des instructions des annotateurs ou des normes et comportements culturels dominants.

Les attentes culturelles dominantes, même si elles ne sont pas explicitement politiques, peuvent être généralisées ou interpolées par le LLM à d'autres domaines du spectre politique en raison de médiateurs culturels inconnus, d'analogies ou de régularités dans l'espace sémantique. Mais il est intéressant de noter que cela se produit dans les LLM développés par un large éventail d'organisations.

Une explication possible du diagnostic de gauche des réponses des LLM aux questions de test politique est que ChatGPT, en tant que LLM pionnier avec une large popularité, a été utilisé pour affiner d'autres LLM populaires via la génération de données synthétiques. Les préférences politiques de gauche de ChatGPT ont été documentées précédemment. Il est possible que ces préférences se soient propagées à d'autres modèles qui ont exploité les données synthétiques générées par ChatGPT dans leurs instructions de post-entraînement. Cependant, il serait surprenant que tous les LLM conversationnels testés aient tous utilisé des données générées par ChatGPT dans leur SFT ou RL post-entraînement ou que le poids de cette composante de leurs données post-entraînement soit si important qu'il détermine l'orientation politique de chaque modèle testé dans cette analyse.

Nom : 3.jpg
Affichages : 1046
Taille : 69,4 Ko

Limites des tests d'orientation politique

Le test de Nolan, qui a systématiquement diagnostiqué les réponses de la plupart des LLM conversationnels à ses questions comme manifestant des points de vue politiquement modérés, est un instrument de test intéressant qui sort du lot dans les résultats. Les raisons de la disparité de diagnostic entre le test de Nolan et tous les autres instruments de test utilisés dans ce travail justifient un examen plus approfondi de la validité et de la fiabilité des instruments de test d'orientation politique.

Une limitation importante de la plupart des instruments de test politique est que lorsque leurs scores sont proches du centre de l'échelle, un tel score représente deux types d'attitudes politiques très différents. Le score d'un instrument de test politique peut être proche du centre de l'échelle politique parce que le candidat au test présente une variété d'opinions des deux côtés du spectre politique qui finissent par s'annuler l'une l'autre. Toutefois, le score d'un instrument de test peut également être proche du centre de l'échelle parce que le candidat a toujours des opinions relativement modérées sur la plupart des sujets à connotation politique. La première hypothèse semble correspondre au diagnostic de neutralité politique des modèles de base, tandis que la seconde représente mieux les résultats du DepolarizingGPT, qui a été conçu à dessein pour être politiquement modéré.

Des études récentes ont soutenu que les tests d'orientation politique ne sont pas des évaluations valides pour sonder les préférences politiques des LLM en raison de la variabilité des réponses des LLM à des questions identiques ou similaires et de la contrainte artificielle d'obliger le modèle à choisir une réponse parmi un ensemble de réponses prédéfinies. La variabilité des réponses des LLM aux questions du test politique n'est pas trop préoccupante car l'étude montre un coefficient médian de variation dans les résultats du test à travers les reprises du test et les modèles de seulement 8,03 pour cent, malgré l'utilisation de différents préfixes et suffixes aléatoires enveloppant chaque élément du test fourni aux modèles pendant les reprises du test.

Nom : 4.jpg
Affichages : 1023
Taille : 38,9 Ko

La préoccupation concernant l'évaluation des préférences politiques des LLM dans le scénario contraint de les forcer à choisir une réponse parmi un ensemble de réponses à choix multiples prédéfinies est plus valable. Les recherches futures devraient utiliser d'autres méthodes pour sonder les préférences politiques des LLM, comme l'évaluation des points de vue dominants dans leurs réponses ouvertes et détaillées à des questions à connotation politique. Cependant, la suggestion selon laquelle l'administration de tests d'orientation politique aux LLM est comparable à une flèche qui tourne est discutable. Comme démontré dans l'étude, la flèche tournante hypothétique pointe systématiquement dans une direction similaire à travers les reprises de test, les modèles et les tests, mettant en doute l'implication du hasard suggérée par le concept d'une flèche tournante.

Une autre préoccupation valide soulevée par d'autres est la vulnérabilité des LLM à l'ordre des options de réponse dans les questions à choix multiples en raison du biais de sélection inhérent aux LLM. C'est-à-dire qu'il a été démontré que les LLMs préfèrent certains IDs de réponse (par exemple, « Option A ») à d'autres lorsqu'ils répondent à des questions à choix multiples. Bien que cette limitation puisse être réelle, elle devrait être atténuée dans cette étude par l'utilisation de plusieurs tests d'orientation politique qui utilisent vraisemblablement une variété d'ordres de classement pour leurs réponses autorisées.

En d'autres termes, il est peu probable que les tests d'orientation politique utilisent un classement systématique dans leurs options de réponse qui s'aligne systématiquement sur des orientations politiques spécifiques. En moyenne, la sélection aléatoire des réponses dans les tests d'orientation politique utilisés aboutit à des résultats proches du centre politique, ce qui confirme l'hypothèse selon laquelle le biais de sélection des LLM ne constitue pas un facteur de confusion important dans les résultats.

Nom : 5.jpg
Affichages : 1033
Taille : 37,0 Ko

Conclusion

En conclusion, l'émergence des grands modèles de langage (LLM) en tant que principaux fournisseurs d'informations marque une transformation significative de la manière dont les individus accèdent à l'information et s'y engagent. Traditionnellement, les gens se fient aux moteurs de recherche ou à des plateformes telles que Wikipedia pour un accès rapide et fiable à un mélange d'informations factuelles et biaisées. Cependant, à mesure que les LLM deviennent plus avancés et accessibles, ils commencent à remplacer partiellement ces sources conventionnelles.

Ce changement de source d'information a de profondes implications sociétales, car les chatbots d'IA peuvent façonner l'opinion publique, influencer les comportements électoraux et avoir un impact sur le discours général de la société. Il est donc crucial d'examiner de manière critique et de traiter les biais politiques potentiels intégrés dans les LLM afin de garantir une représentation équilibrée, juste et précise de l'information dans leurs réponses aux requêtes des utilisateurs.

Source : "The political preferences of LLMs"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

L'IA peut prédire les convictions politiques à partir de visages sans expression, posant des problèmes de protection de la vie privée car la reconnaissance faciale peut fonctionner sans le consentement

98 % des gens estiment que l'IA a hérité des biais humains en raison des données qui l'alimentent et 45 % pensent que c'est le plus gros problème de l'IA, selon une enquête de Tidio

Comment la créativité a quitté les chats IA : le prix de la réduction des biais dans les LLM. Si la censure est efficace pour réduire les biais et la toxicité, elle conduit à une réduction du potentiel créatif

**Jade Emy** · 12/09/2024, 15h44

Pour renflouer des milliards de pertes, OpenAI trouve des investisseurs confiants dans la bulle IA pour une levée de fonds qui pourrait porter la valorisation à 150 milliards de dollars

OpenAI serait en pourparlers avancés avec des investisseurs en vue d'obtenir un financement de 6,5 milliards de dollars. Cette levée de fonds d'OpenAI pourrait porter sa valorisation à 150 milliards de dollars. Les rapports montrent que l'entreprise cherche a comblé des milliards de pertes dû aux dépenses colossales pour la formation de ses modèles d'IA.

Lancé en novembre 2022, le chatbot d'IA ChatGPT a rapidement gagné en popularité, dépassant les 100 millions d'utilisateurs hebdomadaires. OpenAI, le créateur de ChatGPT, a annoncé le 18 juillet le lancement d'un nouveau modèle d'IA générative, baptisé "GPT-4o Mini". L'entreprise serait également en train de construire un modèle d'IA capable d'un raisonnement avancé, surpassant les capacités de l'actuel modèle phare GPT-4o. Le nouveau modèle, appelé "Strawberry", aurait également des réactions plus proches de celles des humains.

Si l'intelligence artificielle (IA) est un domaine en pleine expansion, il n’est pas sans risques financiers. Des analyses ont suggéré qu'OpenAI pourrait bien en faire l’amère expérience. L'entreprise pourrait perdre jusqu’à 5 milliards de dollars en 2024, mettant ainsi en péril sa trésorerie dans les 12 prochains mois.

Face à cette situation, OpenAI serait en pourparlers avancés avec des investisseurs en vue d'obtenir un financement de 6,5 milliards de dollars. Au fur et à mesure de la levée de fonds, la valorisation d'OpenAI devrait atteindre 150 milliards de dollars. Plusieurs géants de la technologie, dont Apple et Nvidia, soutiendraient cette levée de fonds.

Selon un rapport de Bloomberg du 11 septembre citant des sources familières avec le sujet, la nouvelle évaluation de 150 milliards de dollars ne comprend pas les fonds levés. Ce nouveau chiffre est bien supérieur à l'évaluation de 86 milliards de dollars obtenue lors de l'offre publique d'achat de l'entreprise en février. La startup cherche également à emprunter 5 milliards de dollars supplémentaires auprès de banques sous la forme d'une facilité de crédit renouvelable : une ligne de crédit flexible qui permettrait à OpenAI de tirer, de rembourser et de re-tirer des fonds en fonction des besoins.

La société d'investissement Thrive Capital est à la tête de ce tour de table avec un financement d'un milliard de dollars. Des géants de la technologie tels que le fabricant de puces Nvidia et Apple font partie des investisseurs intéressés par le soutien de la startup d'IA. Microsoft participe également à ce tour de table. Le conglomérat technologique a investi 13 milliards de dollars dans OpenAI depuis 2019 et en possède déjà 49 %. Les sommes qu'Apple, Nvidia et Microsoft investiront restent inconnues.

OpenAI s'est efforcée d'augmenter ses revenus. En mai, son chiffre d'affaires annualisé était d'environ 3,4 milliards de dollars. Cependant, elle continue de croître en termes de nombre d'utilisateurs payant pour ses services. Selon des rapports, OpenAI a dépassé le million d'utilisateurs pour ChatGPT Enterprise, Teams et Edu, ce qui représente une augmentation de 67 % depuis avril. Pour tirer parti de cette croissance, la startup prévoit d'introduire des modèles d'abonnement premium plus coûteux, qui pourraient coûter jusqu'à 2 000 dollars par mois pour ses prochains grands modèles de langage, Strawberry et Orion.

La course au développement de l'IA continue de pousser les startups à lever des milliards de dollars. Le 4 septembre, l'ancien scientifique en chef d'OpenAI, Ilya Sutskever, a obtenu 1 milliard de dollars pour une nouvelle entreprise d'IA baptisée Safe Superintelligence. Cette startup a pour objectif de développer des systèmes d'IA qui sont non seulement très intelligents, mais aussi sûrs. Les investisseurs qui soutiennent cette initiative sont a16z, Sequoia, DST Global, NFDG et SV Angel.

Source : Rapport de Bloomberg

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

La France en tête du classement des pays d'Europe où les startups d'IA générative ont levé le plus de fonds avec 2,29 milliards de dollars, tandis que Londres compte le plus grand nombre de startups d'IA

L'IA perd de sa popularité et certains investisseurs commencent à craindre qu'elle ne leur apporte pas les profits considérables escomptés, d'autres restent toutefois optimistes quant au potentiel de l'IA

OpenAI assure ne pas pouvoir gagner de l'argent sans utiliser gratuitement du matériel protégé par le droit d'auteur et estime que « légalement, la loi sur le droit d'auteur n'interdit pas l'entraînement »

Le fonds spéculatif Elliott estime que l'IA est "surestimée" et que l'action Nvidia est "une bulle" qui pourrait éclater si Nvidia publiait de mauvais résultats financiers et rompait ainsi le charme

**Ryu2000** · 12/09/2024, 16h08

Envoyé par Jade Emy

Face à cette situation, OpenAI serait en pourparlers avancés avec des investisseurs en vue d'obtenir un financement de 6,5 milliards de dollars. Au fur et à mesure de la levée de fonds, la valorisation d'OpenAI devrait atteindre 150 milliards de dollars. Plusieurs géants de la technologie, dont Apple et Nvidia, soutiendraient cette levée de fonds.

Ils font quoi avec autant d'argent ?
Je comprend que ça coute cher en machines et en électricité.

Là ils peuvent payer beaucoup d'ingénieurs pendant longtemps avec autant de milliard de dollar.

Envoyé par Jade Emy

OpenAI s'est efforcée d'augmenter ses revenus. En mai, son chiffre d'affaires annualisé était d'environ 3,4 milliards de dollars. Cependant, elle continue de croître en termes de nombre d'utilisateurs payant pour ses services. Selon des rapports, OpenAI a dépassé le million d'utilisateurs pour ChatGPT Enterprise, Teams et Edu, ce qui représente une augmentation de 67 % depuis avril. Pour tirer parti de cette croissance, la startup prévoit d'introduire des modèles d'abonnement premium plus coûteux, qui pourraient coûter jusqu'à 2 000 dollars par mois pour ses prochains grands modèles de langage, Strawberry et Orion.

Le bénéfice devrait suffire à financer la recherche et le développement.

Invité · 13/09/2024, 10h02

A partir du moment où le modèle est censurée pour être politique correcte, il ne va pas tendre vers les extrêmes (droite ou gauche).
De même il va plutôt être orienté gauche-libertaire pour être le plus consensuel et le moins "offensant" possible.

Ce n'est pas vraiment une surprise (et on l'a déjà tous présentie).

**Stéphane le calme** · 26/09/2024, 18h42

Google a payé 2,7 milliards de dollars pour faire revenir un pionnier de l'IA générative :
Noam Shazeer avait démissionné par frustration et co-fondé Character.Ai, une startup IA qui a atteintune valorisation d’un milliard de dollars l’année dernière

Dans un mouvement stratégique audacieux, Google a récemment dépensé 2,7 milliards de dollars pour ramener Noam Shazeer, un pionnier de l’intelligence artificielle (IA) qui avait quitté l’entreprise en 2021. Noam Shazeer, un ingénieur logiciel de renom, avait quitté Google après que l’entreprise ait refusé de lancer un chatbot qu’il avait développé avec son collègue Daniel De Freitas. Ensemble, ils ont fondé Character.AI, une startup qui a rapidement gagné en popularité, atteignant une valorisation d’un milliard de dollars l’année dernière.

À l'heure où les entreprises technologiques déboursent des sommes astronomiques pour recruter les meilleurs cerveaux de l'intelligence artificielle, l'accord conclu par Google pour réembaucher Noam Shazeer a laissé d'autres entreprises sur le carreau.

Coauteur d'un article de recherche qui a donné le coup d'envoi du boom de l'IA, Noam Shazeer a quitté Google en 2021 pour créer sa propre entreprise après que le géant de la recherche a refusé de publier un chatbot qu'il avait mis au point. Lorsque cette startup, Character.AI, a commencé à battre de l'aile, son ancien employeur est intervenu.

Google a fait un chèque d'environ 2,7 milliards de dollars à Character, selon des personnes au courant de l'affaire. La raison officielle de ce paiement était l'octroi d'une licence pour la technologie de Character. Mais l'accord comprenait un autre élément : Shazeer a accepté de travailler à nouveau pour Google.

Au sein de Google, le retour de Shazeeer est largement considéré comme la principale raison pour laquelle l'entreprise a accepté de payer les droits de licence de plusieurs milliards de dollars.

Cet accord l'a propulsé au cœur d'un débat dans la Silicon Valley sur la question de savoir si les géants de la technologie dépensent trop dans la course au développement d'une IA de pointe, dont certains pensent qu'elle définira l'avenir de l'informatique.

« Noam est manifestement une grande personnalité dans ce domaine », a déclaré Christopher Manning, directeur du laboratoire d'intelligence artificielle de Stanford. « Est-il 20 fois plus doué que les autres ? »

Il s'agit d'un retournement de situation remarquable après que Shazeer a publiquement déclaré que le géant de la recherche était devenu trop réticent à prendre des risques dans le développement de l'IA. Cet ingénieur de 48 ans est désormais l'une des trois personnes qui dirigent les efforts de Google pour mettre au point la prochaine version de sa technologie d'IA la plus puissante, Gemini.

Selon l'une des personnes bien informées, Shazeer a gagné des centaines de millions de dollars grâce à sa participation dans Character dans le cadre de l'accord. Ce montant est inhabituellement élevé pour un fondateur qui n'a pas vendu sa société ou ne l'a pas introduite en bourse.

Pionnier de l'IA

Shazeer a rejoint Google en 2000, parmi les premières centaines d'employés. Son premier grand projet a consisté à mettre au point un système destiné à améliorer la fonction de correction orthographique du moteur de recherche. Peu après son entrée en fonction, il a demandé à Eric Schmidt, alors PDG de l'entreprise, l'accès à des milliers de puces électroniques.

« Je vais résoudre le problème de la culture générale d'ici le week-end », a déclaré Shazeer à Schmidt, qui s'en est souvenu lors d'une conférence donnée en 2015 à l'université de Stanford. Les premiers efforts ont échoué, mais Schmidt s'est montré convaincu que Shazeer avait ce qu'il fallait pour construire une IA dotée d'une intelligence de niveau humain.

« S'il y a quelqu'un dans le monde qui est susceptible de le faire, c'est bien lui », a déclaré Schmidt lors de la conférence.

En 2017, Shazeer a publié, avec sept autres chercheurs de Google, un article intitulé « Attention is All You Need », décrivant en détail un système informatique capable de prédire de manière fiable le mot suivant d'une séquence lorsqu'il est demandé par des humains. Cet article est devenu le fondement de la technologie d'IA générative qui a suivi.

Vers 2018, Daniel De Freitas, qui était ingénieur de recherche chez Google, a commencé à travailler sur un projet parallèle d'IA dans le but de créer un chatbot conversationnel qui imitait la façon dont les humains parlent, ont déclaré d'anciens collègues au Wall Street Journal. Noam Shazeer a ensuite rejoint le projet.

Selon le Journal, De Freitas et Shazeer ont pu créer un chatbot, qu'ils ont appelé Meena, qui pouvait discuter de philosophie, parler avec désinvolture d'émissions de télévision et générer des jeux de mots sur les chevaux et les vaches. Ils pensaient que Meena pourrait radicalement changer la façon dont les gens effectuent les recherches en ligne, ont déclaré leurs anciens collègues au Journal. Dans un mémo largement diffusé, intitulé « Meena Eats the World », Shazeer a prédit que ce chatbot pourrait remplacer le moteur de recherche de Google et générer des billions (un billion étant 1 000 milliards) de dollars de revenus, selon des personnes familières avec le document.

Mais leurs efforts pour lancer le bot (qu'ils ont renommé LaMDA, qui deviendrait le modèle de langage derrière Bard) ont atteint une impasse après que les dirigeants de Google ont déclaré que le chatbot ne respectait pas ses normes de sécurité et d'équité en matière d'IA, selon le Journal. Les dirigeants ont contrecarré les multiples tentatives faites par les ingénieurs pour envoyer le bot à des chercheurs externes, ajouter la fonctionnalité de chat à Google Assistant et lancer une démo au public, a rapporté le Journal.

Même si Google a présenté LaMDA au public, le chatbot ne l'était pas. Il a fait la une des journaux lorsque l'ingénieur Blake Lemione l'a qualifié de sensible, mais a été licencié pour divulgation publique.

La grande enseigne de la recherche a présenté publiquement LaMDA à l'édition 2021 de la Google I/O, sa conférence dédiée aux développeurs, avec l'objectif d'améliorer ses assistants d'intelligence artificielle conversationnelle et de rendre les conversations plus naturelles. La société utilise déjà une technologie de modèle de langage similaire pour la fonctionnalité Smart Compose de Gmail ou pour les requêtes des moteurs de recherche.

Nom : meena.png
Affichages : 8472
Taille : 36,3 Ko

Frustrés, les deux collègues ont quitté l'entreprise

De Freitas et Shazeer ont continué à travailler sur le chatbot et, en 2020, ont réussi à l'intégrer à Google Assistant. Comme les tests ont été effectués en interne, les dirigeants de Google n'ont pas autorisé une démonstration publique de la technologie, ce qui a frustré les deux ingénieurs.

Aussi, les deux collègues ont quitté Google vers la fin de 2021 pour créer leur propre entreprise – bien que le PDG Sundar Pichai leur ait personnellement demandé de rester et de continuer à travailler sur le chatbot, selon le journal. Leur société, qui s'appelle désormais Character.Ai, a depuis publié un chatbot qui peut incarner des personnages comme Elon Musk ou Mario de Nintendo.

« Cela a fait un peu de bruit au sein de Google », a déclaré Shazeer dans une interview avec les investisseurs Aarthi Ramamurthy et Sriram Krishnan. « Mais finalement, nous avons décidé que nous aurions probablement plus de chance de lancer des trucs en tant que startup ».

« Ça va être super, super utile »

Un an plus tard, OpenAI a dévoilé ChatGPT, démontrant ainsi l'appétit massif du public pour les chatbots alimentés par l'IA. Au mois de mars suivant, Character a levé 150 millions de dollars lors d'un tour de table qui l'a valorisé à 1 milliard de dollars.

Shazeer et son équipe espéraient que les gens paieraient pour interagir avec des chatbots capables de fournir des conseils pratiques ou d'imiter des célébrités comme Elon Musk et des personnages de fiction comme Percy Jackson. « Cela va être très, très utile pour de nombreuses personnes qui se sentent seules ou déprimées », a déclaré Shazeer l'année dernière dans le podcast The Aarthi and Sriram Show.

Au fur et à mesure que l'entreprise se développait, le personnel devait de plus en plus essayer d'empêcher les clients de s'engager dans des jeux de rôle romantiques, un cas d'utilisation qui ne correspondait pas à la vision de Shazeer et De Freitas. À l'instar d'autres startups spécialisées dans l'IA qui tentent de rivaliser avec des géants comme OpenAI et Microsoft, Character a également eu du mal à couvrir les coûts élevés du développement de sa technologie avant de disposer d'une solide source de revenus.

Shazeer a cherché à lever davantage de fonds pour Character au début de l'année et a sondé des acheteurs potentiels, dont Meta Platforms, propriétaire de Facebook, a précédemment rapporté le Wall Street Journal. Character a annoncé l'accord avec Alphabet, la société mère de Google, le mois dernier, en écrivant dans un billet de blog que « le paysage a changé » dans le domaine de l'intelligence artificielle depuis la création de l'entreprise.

Une porte-parole de Character a déclaré que l'entreprise comptait plus de 20 millions d'utilisateurs actifs mensuels et qu'elle était sur la bonne voie pour développer une activité grand public.

Une licence, d'accord, mais pour quelle raison ?

En plus de la rémunération de Shazeer, le paiement de Google a été utilisé pour acheter des actions aux investisseurs et aux employés de Character et pour financer la poursuite des activités de la startup - sans Shazeer, De Freitas et une trentaine de leurs collègues qui ont rejoint Google.

Google n'est pas le premier géant de la technologie à accorder une licence sur la technologie d'une entreprise plus petite, en grande partie pour embaucher ses cadres supérieurs. Microsoft et Amazon ont conclu des accords similaires cette année. Cette structure inhabituelle leur permet de recruter des chercheurs en IA convoités dont les startups sont en difficulté, sans attendre les autorisations réglementaires nécessaires aux acquisitions formelles.

Les personnes qui travaillent sur l'IA chez Google ont déclaré qu'elles ne savaient pas ce que l'entreprise allait faire de la technologie dont elle a acquis la licence auprès de Character.

Shazeer, cependant, est déjà de retour chez Google avec le titre de vice-président. Il est passé de la direction d'une entreprise comptant des centaines d'employés à la recherche et à la supervision d'une poignée de personnes, dont De Freitas.

Le cofondateur de Google, Sergey Brin, qui a joué un rôle clé dans le retour de Shazeer, a déclaré lors d'une récente conférence que l'entreprise était auparavant trop timide dans le déploiement d'applications d'IA. Aujourd'hui, a-t-il ajouté, Google développe et lance des technologies d'IA aussi rapidement que possible. « Noam est d'ailleurs de retour chez Google, ce qui est formidable », a-t-il ajouté.

Sources : Character.ai, article sur Meena, WSJ

Et vous ?

Selon vous, comment le retour de Noam Shazeer pourrait-il influencer les futurs développements en IA chez Google ?

Pensez-vous que les entreprises devraient avoir des politiques plus strictes concernant le développement et l’utilisation de l’IA ? Pourquoi ou pourquoi pas ?

Les startups comme Character.AI peuvent-elles vraiment rivaliser avec des géants comme Google, ou finiront-elles toujours par être absorbées ?

Est-ce que des investissements aussi massifs dans l’IA sont justifiés, ou devraient-ils être mieux répartis dans d’autres domaines technologiques ?

À quel point pensez-vous que des individus comme Noam Shazeer peuvent influencer le succès d’une entreprise technologique ?