Bonjour.
Je pose la question l’impact du logiciel libre dans les performances des agents IA qui exploitent le contenu public de l’open source, et donc affectant l’emploi des informaticiens par ce que cela va empiéter sur leur domaine de compétences, outre les considérations économiques du libre contre le propriétaire.
Par là même, l’interrogation hypothétique, car les réflexions et recherches sur l’IA datent de plusieurs décennies, s’il n’y avait pas une arrière intention des promoteurs du logiciel libre de concrétiser leur œuvre de mobilisation à cela pour avoir, lorsque les conditions de mise en œuvre de la recherche IA seront réunies, une quantité de code libre sur tout et n’importe quoi en vue de nourrir les IA (au même titre que les incitations à tout numériser publiquement sous prétexte d’améliorer le partage des connaissances : les fonds documentaires universitaires, etc.).
Je n’ai pas trouvé de mesure officielle, chiffrée et consensuelle de la « part de bénéfice » attribuable au logiciel libre dans la performance des modèles d’IA générateurs de code, quand bien même l’évidence que sans l’immense corpus de code libre, les modèles actuels seraient très nettement moins performants, voire impossibles à entraîner dans leur forme actuelle. Il existe publiquement du code sur quasiment tout ce qui peut être implémenté informatiquement. Quelle serait la performance actuelle de l’IA génératrice de code sans l’open source et uniquement les corpus éducatifs ?
Les articles traitent régulièrement que les modèles générateurs de code sont entraînés sur des milliards de lignes de code, dont une part très importante provient de dépôts publics comme GitHub, GitLab ... mais n’expliquent pas de manière comparative ce qu’il en serait sans cela à ce jour.
“Artificial intelligence has changed how we write code. AI-based code generation tools now help developers work faster. These tools, such as GitHub Copilot, OpenAI Codex, ChatGPT 4.5, Claude, and DeepSeek R1, generate code by learning from millions of examples.”
The Impact Of AI-Generated Code On Software Quality And Developer Productivity
https://www.iosrjournals.org/iosr-jc...2704043137.pdf
“Dataset description
This is the dataset used for training StarCoder and StarCoderBase. It contains 783GB of code in 86 programming languages, and includes 54GB GitHub Issues + 13GB Jupyter notebooks in scripts and text-code pairs, and 32GB of GitHub commits, which is approximately 250 Billion tokens.“
https://huggingface.co/datasets/bigcode/starcoderdata
(ce sujet serait mieux placé dans d'autres catégories du forum mais n'ai pas les droits d'accès pour y publier car il s'agit plus d'une discussion d'ordre général que technique sur le logiciel libre ; à la volonté du modérateur de le déplacer dans une autre catégorie qui lui paraîtriat plus pertinente)





Répondre avec citation
Partager