L'IA présentée comme le « premier ingénieur logiciel IA » loin d'être à la hauteur : Devin a un taux de réussite de 15 %
« Des tâches qui semblaient simples prenaient souvent des jours plutôt que des heures », notent des chercheurs
Un logiciel d’intelligence artificielle, promu comme le tout premier « ingénieur logiciel IA », fait l'objet de critiques sévères après des tests durant un mois qui remettent en question son efficacité. « Sur les 20 tâches que nous avons tentées, nous avons constaté 14 échecs, trois résultats non concluants et seulement trois réussites », ont constaté des chercheurs, soit un maigre taux de réussite d'à peine 15 %, concluant qu'en dépit d'un battage médiatique de près d'un an, il « fonctionnait rarement ». Si l'idée de remplacer des développeurs humains par une IA semblait révolutionnaire, la réalité semble bien différente, selon les témoignages d’utilisateurs et d'experts du domaine.
Un service décrit comme « le premier ingénieur logiciel de l'IA » semble être plutôt mauvais dans son travail, d'après une évaluation récente.
Le codeur automatique s'appelle « Devin » et a été introduit en mars 2024. Le créateur du robot, une entreprise appelée Cognition AI, a affirmé que « Devin peut construire et déployer des applications de bout en bout » et « peut trouver et corriger de manière autonome les bogues dans les bases de code ». L'outil a atteint la disponibilité générale en décembre 2024, à partir de 500 $ par mois.
« Devin est un ingénieur logiciel IA autonome qui peut écrire, exécuter et tester du code, aidant les ingénieurs logiciels à travailler sur des tâches personnelles ou sur leurs projets d'équipe », déclare la documentation de Cognition. Il « peut réviser les PR, soutenir les migrations de code, répondre aux problèmes de garde, construire des applications web, et même effectuer des tâches d'assistant personnel comme commander votre déjeuner sur DoorDash afin que vous puissiez rester enfermé dans votre base de code ».
Le service utilise Slack comme interface principale pour les commandes, qui sont envoyées à son environnement informatique, un conteneur Docker qui héberge un terminal, un navigateur, un éditeur de code et un planificateur. L'agent d'IA prend en charge l'intégration API avec des services externes. Cela lui permet, par exemple, d'envoyer des messages électroniques au nom d'un utilisateur via SendGrid.
Devin est un « système d'IA composé », ce qui signifie qu'il s'appuie sur plusieurs modèles d'IA sous-jacents, dont le GPT-4o d'OpenAI, et qu'il est susceptible d'évoluer au fil du temps.
En théorie, vous devriez pouvoir lui demander d'entreprendre des tâches telles que la migration du code vers nbdev, une plateforme de développement de carnets Jupyter, et vous attendre à ce qu'il le fasse avec succès. Mais c'est peut-être trop demander.
Les premières évaluations de Devin ont révélé des problèmes
Cognition AI a publié une vidéo promotionnelle censée montrer le codeur d'IA en train de réaliser des projets de manière autonome sur la plateforme de freelance Upwork.
Il n'a pas fallu longtemps aux chercheurs pour dénoncer la situation, un certain nombre de développeurs de logiciels analysant la vidéo de Cognition et accusant l'entreprise de « mentir » au sujet de ses affirmations.
Parmi eux, figure Carl Brown, développeur de logiciels, qui a analysé cette vidéo et a réfuté les revendications de la vidéo sur sa chaîne YouTube Internet of Bugs.
« Tous ces éléments donnent l'impression que Devin a beaucoup travaillé », a déclaré Carl Brown. « Cela donne l'impression que Devin a accompli beaucoup de choses ».
« Honnêtement, en ce qui me concerne, c'est assez impressionnant », a-t-il ajouté. « Mais s'il faut tenir compte de ce qu'aurait dû être un travail sur Upwork, du fait que plusieurs personnes disent que Devin “prend des travaux sur Upwork et les fait”, et surtout dans le contexte de l'entreprise qui dit que cette vidéo nous permettra de voir Devin être payé pour faire du travail, tout ceci n'est qu'un mensonge, encore une fois ».
L'agent logiciel a également été mis en cause par un autre spécialiste du code sur YouTube pour avoir prétendument inclus des problèmes de sécurité critiques.
Des résultats peu convaincants
Dans une analyse menée par Hamel Husain, Isaac Flath et Johno Whitaker, une équipe de data scientists spécialisés dans l'apprentissage automatique et travaillant pour le laboratoire indépendant de recherche et de développement en IA Answer.AI, Devin a bien commencé, réussissant à extraire des données d'une base de données Notion vers Google Sheets. L'agent d'IA a également réussi à créer un traqueur de planètes pour vérifier les affirmations sur les positions historiques de Jupiter et de Saturne.
Mais au fur et à mesure que les trois chercheurs poursuivaient leurs tests, ils ont rencontré des problèmes.
« Des tâches qui semblaient simples prenaient souvent des jours plutôt que des heures, Devin restant bloqué dans des impasses techniques ou produisant des solutions trop complexes et inutilisables », expliquent les chercheurs dans leur rapport. « Ce qui est encore plus inquiétant, c'est la tendance de Devin à poursuivre des tâches qui n'étaient pas possibles en réalité ».
À titre d'exemple, ils citent comment Devin, lorsqu'on lui a demandé de déployer plusieurs applications sur la plateforme de déploiement d'infrastructure Railway, n'a pas compris que cela n'était pas pris en charge et a passé plus d'une journée à essayer des approches qui n'ont pas fonctionné et à halluciner sur des fonctionnalités inexistantes.
Sur les 20 tâches proposées à Devin, l'ingénieur logiciel en IA n'en a accompli que trois de manière satisfaisante - les deux citées ci-dessus et un troisième défi consistant à chercher comment construire un robot Discord en Python. Trois autres tâches ont donné des résultats non concluants, et 14 projets ont carrément échoué.
Envoyé par Chercheurs d'Answer.AI
Devin de Congition met en évidence l'écart souvent important entre les affirmations des entreprises d'IA et la réalité
Les résultats soulignent que malgré le marketing tapageur de Cognition AI sur la capacité de Devin à « construire et déployer des applications de bout en bout » lorsque l'outil a été introduit pour la première fois en mars 2024, la technologie est toujours confrontée à certains problèmes fondamentaux.
Il s'agit d'un sujet pertinent, le PDG de Meta, Mark Zuckerberg, ayant récemment annoncé qu'il avait l'intention de remplacer les « ingénieurs de niveau intermédiaire » par l'IA dès cette année. OpenAI devrait également « annoncer une nouvelle avancée qui permettra à des super-agents de niveau doctoral d'effectuer des tâches humaines complexes ».
Mais la question de savoir si la technologie sera réellement à la hauteur du battage médiatique et si elle sera prête à remplacer les travailleurs humains dans un délai aussi court (ou même si elle sera prête à remplacer tout court) reste ouverte.
Comme le souligne l'équipe d'Answer.AI, les premières démonstrations de l'assistant d'IA étaient impressionnantes. Dans une vidéo diffusée en mars, Cognition affirmait que Devin pouvait être utilisé pour « gagner de l'argent en prenant en charge des tâches fastidieuses » sur la plateforme de freelancing Upwork.
Answer.AI et Brown ont tous deux constaté que Devin prenait également beaucoup plus de temps que n'importe quel codeur humain pour réaliser des tâches. « Des tâches qui semblaient simples prenaient souvent des jours plutôt que des heures », écrivent les chercheurs d'Answer.AI, « Devin restant bloqué dans des impasses techniques ou produisant des solutions trop complexes et inutilisables ».
En sommes, Devin de Congition met en évidence l'écart souvent important entre les affirmations des entreprises d'IA et la réalité, qui affecte le secteur depuis des années maintenant.
Il reste donc à voir si un assistant d'IA sera un jour capable de remplacer de manière compétente un ingénieur logiciel - sans causer de maux de tête majeurs à ses collègues humains, du moins.
Source : chercheurs d'Answer.AI
Et vous ?
Peut-on considérer qu'une IA a sa place dans le développement logiciel si elle génère des erreurs nécessitant des corrections humaines ?
Les bogues générés par l’IA sont-ils le signe d’une immaturité technologique ou d’une limite inhérente à ce type de système ?
Une IA doit-elle être conçue pour remplacer les développeurs humains ou pour les assister dans des tâches précises ?
En tant que développeur, quels types de tâches seriez-vous prêts à déléguer à une IA sans compromettre la qualité du produit final ?
Les entreprises qui misent sur ces outils peuvent-elles réellement faire des économies ou risquent-elles de perdre du temps à corriger les erreurs ?
Le coût d’intégration et de formation à ces outils justifie-t-il les bénéfices potentiels qu’ils offrent ?
Une IA peut-elle réellement innover dans la conception logicielle, ou sera-t-elle toujours limitée à des solutions stéréotypées ?
Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités
Encore une startup qui a encaissé des millions de $ pour vendre du rêve à des investisseurs naïfs excités par la nouvelle bulle IA.
Et est-ce que c'est une vrai IA ? Si "ça prends des jours", c'est pas plutôt un codeur en inde payé un euro de l'heure qui envoi les réponses ?![]()
Content de voir que les chercheurs arrivent aux mêmes conclusions que moi. Comme je l’ai dit dans un autre thread, les tests de l’ia sur des applications réelles sont décevants:
Envoyé par Nym4xx
j'ai retesté ce weekend gemini et l'ia d'office 365 copilot, vraiment à la ramasse et inutile, aucune requête ne donnait de bon résultat.
seul chatgpt me donne de "bon" résultats, mais ces réponses sont absolument pas plug and play, il continue de m'inventer des api ou méthodes de fonctions d'objet qui n'existe pas.
et si je lui donne la sortie d'erreur il m'invente un autre truc qui marche pas, puis si je lui retourne la nouvelle erreur alors il me redonne sa 1ere solution, et sa tourne en rond comme ça indéfiniment.
entre le marketing et la réalité, l'ia est très décevante.
je ne pense pas que dans le futur la qualité des réponses va s'améliorer (à la marge en tous cas), les ia comme chatgpt ont déjà été entrainé avec de bon datasets et massifs. Ils ont déjà tous pompé stackoverflow, github et wikipedia, il n'y a plus de nouvelle donnés a exploiter.
je pense par contre que les boites vont orienter la r&d vers des modèles moins couteux comme le fait DeepSeek.
il reste encore peut être les vidéos youtubes (la transcription audio) mais j'ai du mal a y voir l’intérêt, les videos youtubes ne sont souvent qu'un support de présentation "fun" d'un sujet chiant, par exemple du droits ou de la sciences, le youtubeur lit des papiers bien chiant en anglais, ce que l'ia a du déjà faire en pompant scihub et autres sites....
mais youtube ne crée pas de l'information de qualité, elle le présente de manière ludique, contrairement a stackoverflow ou wikipedia ou le site de droit du gouvernement français par exemple.
S’il suffisait de copier coller du code stackoverflow ou github cela ce saurait… La plupart du code à valeur ajoutée utilisé en entreprises n’est pas sur github ou stackoverflow. L’ia generative reste de l’esbroufe, une simulation d’intelligence par brut forcing et une bulle spéculative.
Partager