IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 690
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 690
    Par défaut EuroLLM, le modèle open source qui pourrait redéfinir la place de l’Europe dans la course mondiale à l’IA
    EuroLLM, le modèle open source qui pourrait redéfinir la place de l’Europe dans la course mondiale à l’IA :
    le LLM doit être capable de comprendre les 24 langues de l'Union et d’offrir une alternative crédible aux modèles américains

    Dans un contexte où les grands modèles linguistiques (LLM – Large Language Models) sont généralement dominés par l’anglais voire quelques langues majeures, le projet EuroLLM se distingue par son ambition : offrir un modèle multilingue natif européen couvrant toutes les 24 langues officielles de l’European Union (UE). Conçu comme un atelier de souveraineté numérique et de diversité linguistique, ce projet met en avant à la fois des impératifs techniques, culturels et stratégiques pour l’Europe.

    Depuis l’avènement de ChatGPT, Gemini ou Claude, le débat sur la souveraineté numérique européenne s’est intensifié. Tous ces modèles, bien que performants, partagent un même biais : une domination écrasante de la langue anglaise et une conception technologique dictée par les États-Unis ou la Chine. Les langues dites « faibles » en volume de données, comme le maltais, le slovène ou l’irlandais, y sont largement sous-représentées, reléguées au rang d’exotismes linguistiques.

    EuroLLM naît précisément de cette frustration. Son ambition : bâtir un modèle de langage entraîné par et pour l’Europe, sur des corpus diversifiés issus de toutes ses cultures et idiomes. Il ne s’agit pas seulement de rattraper le retard technologique, mais d’imposer un autre modèle : un LLM démocratique, respectueux de la diversité linguistique et culturelle.

    Un chantier collectif soutenu par les institutions européennes

    EuroLLM est porté par un consortium rassemblant centres de recherche, universités et infrastructures de calcul haute performance répartis à travers le continent. Le projet bénéficie du soutien de l’initiative EuroHPC Joint Undertaking, un programme européen visant à développer des supercalculateurs souverains.

    L’idée fondatrice est double : garantir une indépendance stratégique face aux géants américains du cloud et bâtir une IA capable de comprendre la complexité linguistique de l’Europe. Les partenaires du projet s’appuient sur un socle technique robuste : des clusters européens d’entraînement open source, un jeu de données multilingues équilibré et un cadre de gouvernance aligné avec le RGPD et les principes éthiques européens.

    Le message est clair : l’IA européenne ne doit pas seulement parler anglais, elle doit parler toutes les langues européennes — et les comprendre avec nuance.

    Le projet EuroLLM regroupe l'Instituto Superior Técnico, l'université d'Édimbourg, l'Instituto de Telecomunicações, l'université Paris-Saclay, Unbabel, l'université de la Sorbonne, Naver Labs et l'université d'Amsterdam. Ensemble, ils ont créé EuroLLM-9B, un modèle d'IA multilingue prenant en charge les 24 langues officielles de l'UE. Développé avec le soutien d'Horizon Europe, du Conseil européen de la recherche et d'EuroHPC, ce LLM open source vise à renforcer la souveraineté numérique de l'Europe et à favoriser l'innovation en matière d'IA. Entraîné sur le supercalculateur MareNostrum 5, EuroLLM surpasse les modèles de taille similaire. Il est entièrement open source et disponible via Hugging Face.
    Une prouesse technique à l’échelle du continent

    Le cœur du projet repose sur le modèle EuroLLM-9B, un LLM de neuf milliards de paramètres entraîné sur environ 4 000 milliards de tokens. Il s’agit d’un modèle de taille moyenne, mais suffisamment puissant pour rivaliser avec des architectures bien plus volumineuses, notamment grâce à un entraînement ciblé sur la qualité linguistique plutôt que la quantité brute de données.

    Son tokenizer — la brique qui segmente le texte en unités compréhensibles — a été optimisé pour capturer les subtilités orthographiques et grammaticales des langues européennes, y compris celles à déclinaisons complexes comme le finnois ou le lituanien.

    La structure d’apprentissage s’appuie sur trois phases : un pré-entraînement massif multilingue, un raffinage sur des données de meilleure qualité, et un ajustement final sur des corpus spécialisés (traductions, documents administratifs, données parlementaires). Résultat : un modèle équilibré, capable de rédiger un courriel en croate ou d’expliquer une loi en roumain avec la même aisance qu’en anglais.

    L’ouverture comme principe fondateur

    Contrairement aux modèles américains fermés, EuroLLM revendique son statut open source. Les poids du modèle, la documentation et les données d’entraînement sont publiés sous des licences ouvertes (Apache 2.0 et équivalentes). Cette approche favorise l’adoption par la recherche, les administrations publiques et les entreprises privées qui souhaitent adapter le modèle à leurs besoins.

    Pour un développeur ou un architecte IA, cette ouverture change tout : il devient possible d’intégrer EuroLLM dans une application métier, de le fine-tuner pour un domaine précis (juridique, médical, traduction) ou même de le déployer sur un cloud européen. L’Europe se dote ainsi non seulement d’un modèle, mais d’une infrastructure d’innovation ouverte.

    Nom : euro.png
Affichages : 37007
Taille : 121,5 Ko

    Des performances multilingues prometteuses

    Sur les principaux benchmarks multilingues — notamment WMT24, FLORES et MMLU — EuroLLM-9B affiche des résultats convaincants. Il surpasse la plupart des modèles open source comparables en compréhension et génération de texte pour les langues de l’UE.

    Surtout, ses performances sont plus homogènes entre langues. Là où d’autres LLM montrent des écarts considérables entre anglais et langues « rares », EuroLLM maintient une cohérence appréciable. Cet équilibre est essentiel pour des applications réelles : services publics européens, institutions de l’UE, multinationales ou start-ups souhaitant proposer des interfaces réellement inclusives.

    Des cas d’usage concrets pour les professionnels

    EuroLLM ouvre un vaste champ d’applications professionnelles. Dans le domaine de la traduction automatique, il peut servir de moteur de traduction ou d’aide à la rédaction multilingue pour les institutions européennes, les cabinets juridiques ou les entreprises exportatrices.

    Dans le secteur des services clients, il permet de concevoir des chatbots capables de dialoguer dans la langue de l’utilisateur, sans passer par des relais externes américains.

    Pour les éditeurs de logiciels et de contenus, il facilite la localisation automatique, la génération de documentation technique multilingue ou la synthèse de rapports à l’échelle continentale.

    Même au-delà de l’Europe, les perspectives sont vastes. Un acteur africain francophone, par exemple, pourrait adapter EuroLLM pour proposer des interfaces en français, anglais et portugais, ou même le fine-tuner avec des corpus africains. C’est une base idéale pour bâtir un écosystème IA euro-africain souverain et interopérable.

    Les défis : puissance, biais et équilibre des langues

    Reste que la route est encore longue. La principale difficulté est l’équilibre des données linguistiques. Certaines langues de l’UE disposent de volumes considérables (anglais, français, allemand), tandis que d’autres peinent à fournir des corpus suffisants. Cela peut créer des disparités de performance, que les ingénieurs du projet tentent de compenser par des techniques de sur-échantillonnage et d’apprentissage contrastif.

    Autre enjeu : les coûts énergétiques et matériels. Entraîner un modèle de cette taille exige une infrastructure de calcul gigantesque et une consommation d’énergie non négligeable, même avec les supercalculateurs EuroHPC.

    Enfin, la question de l’éthique et de la gouvernance reste centrale. Comment s’assurer que le modèle reste neutre culturellement ? Comment garantir la conformité RGPD ? EuroLLM mise sur la transparence : documentation ouverte, données traçables, et supervision communautaire.

    Un symbole politique autant que technologique

    Au-delà de la prouesse technique, EuroLLM représente un signal politique fort. En développant un modèle linguistique fédérateur, l’Union européenne affirme sa volonté de maîtriser son avenir numérique. C’est un acte de souveraineté, mais aussi de cohésion culturelle : l’IA ne doit pas uniformiser le monde sous une seule langue, elle doit en refléter la pluralité.

    Pour les ingénieurs, chercheurs et entreprises, ce projet montre qu’il est possible de concilier performance, transparence et diversité. L’Europe ne veut pas seulement rattraper son retard, elle veut redéfinir les standards de l’intelligence artificielle responsable.

    Conclusion : l’IA européenne parle toutes les langues

    Avec EuroLLM, l’Europe pose une pierre angulaire de son indépendance numérique. Ce modèle n’est pas un simple concurrent de GPT-4 ou Gemini ; c’est une autre vision de l’IA, ancrée dans la diversité linguistique et la transparence scientifique.

    Pour les professionnels de l’informatique, ce projet ouvre un nouvel horizon : celui d’une IA qu’on peut comprendre, adapter et auditer. Dans un monde où la langue est pouvoir, EuroLLM rappelle que la technologie peut aussi être un acte de culture.

    Source : EuroLLM

    Et vous ?

    L’Europe peut-elle réellement construire une souveraineté numérique sans dépendre du cloud américain pour entraîner ses propres modèles ?

    EuroLLM marque-t-il le début d’une IA européenne indépendante, ou n’est-ce qu’un symbole politique destiné à rassurer ?

    Comment les institutions européennes peuvent-elles garantir un financement durable face à la course effrénée des géants du privé ?

    Faut-il que l’Union européenne impose, à terme, une préférence pour les modèles européens dans les administrations publiques ?

    EuroLLM peut-il vraiment traiter à égalité les 24 langues officielles, ou certaines resteront-elles toujours en marge faute de données ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Membre extrêmement actif
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Octobre 2017
    Messages
    2 405
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Octobre 2017
    Messages : 2 405
    Par défaut
    L'Ecole Polytechnique de Zürich et l'Ecole Polytechnique Fédérale de Lausanne ont annoncé Apertus, un LLM opensource suisse, multi-lingue (plus de 1 000 langues) et dont les données d'apprentissage respectent les copyright.

    Quelle différence entre Apertus et EuroLLM? Aucune, les 2 LLM auront le même devenir... le néant!

    Les IA à la ChatGPT ne sont pas qu'une LLM (qui est simplement la porte d'entrée de l'IA) mais une multitude d'applications dédiées et spécialisées qui gravitent autour de la LLM et qui fournissent des réponses sous le couvert de l'IA...

    Cet agglomérat de logiciels interconnectés est tout simplement absent de EuroLLM et Apertus... Et il faudrait engager des centaines de millions pour les développer que personne en Europe ne sera d'accord d'investir, ni les états, ni les entreprises.

    Il n'y aura donc jamais un ChatGPT européen, pas plus qu'il y a un Windows européen ou encore des ordinateurs européens... L'Europe a perdu le contrôle de la technologie numérique il y a bien longtemps et n'est pas près de le récupérer vu sa politique de soumission, sa politique de pays colonisé.

    Pour s'en convaincre, il suffit de se rappeler de la farce qui a vu la présidente de la Commission européenne Ursula von der Leyen se prosterner devant "l'Empereur" Trump qui a daigné la recevoir dans son golf d'Ecosse... Une honte!

  3. #3
    Membre habitué
    Homme Profil pro
    Backend lover
    Inscrit en
    Mai 2023
    Messages
    15
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Ain (Rhône Alpes)

    Informations professionnelles :
    Activité : Backend lover
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mai 2023
    Messages : 15
    Par défaut
    Il n'y aura jamais d'IA "européenne" ni française, pour la simple et bonne raison que cette partie de l'Occident a abandonné l'idée de la course à la technologie.
    Tous les cerveaux fuient, qui a envie d'être chercheur à 2500€/mois en France ou dans l'UE ? Personne.

    Franchement, cette mascarade commence à bien faire. 9 milliards de paramètres présentés comme une "prouesse" ? C'est pathétique. OpenAI et Google dépassent les 100 milliards depuis des lustres. Pendant que nos technocrates se gargarisent de leur "souveraineté numérique", la Silicon Valley a déjà trois générations d'avance.

    "Entraîné sur le supercalculateur MareNostrum 5" - magnifique, sauf qu'il tourne avec des puces américaines qu'on ne sait même pas fabriquer. Quelle souveraineté ? On dépend intégralement de NVIDIA, TSMC et des Américains pour le matériel. C'est du vent, de la poudre aux yeux pour justifier des subventions.

    Le consortium universitaire ? Une plaisanterie. Des chercheurs précaires à 2000€/mois qui bossent sur du matériel obsolète pendant que leurs homologues chez OpenAI gagnent 300k$/an. Évidemment qu'ils se cassent tous ! L'Europe forme les meilleurs pour enrichir les États-Unis.

    L'open source comme alibi ? Meta fait infiniment mieux avec Llama, gratuitement. "Disponible sur Hugging Face", quelle blague - comme si ça allait changer quoi que ce soit. Il n'y a aucune industrie européenne capable d'exploiter ce modèle. Zéro écosystème, zéro capital-risque digne de ce nom, zéro ambition.

    Cette IA ne durera pas longtemps. Elle sera obsolète avant même d'être déployée quelque part. Dans six mois, personne n'en parlera plus. C'est juste un énième projet subventionné pour permettre à quelques bureaucrates de se congratuler dans des colloques en se persuadant qu'on "existe" face aux Américains.

    Zéro écosystème, zéro industrie, zéro c0uilles. Pas de Google européen, pas d'OpenAI européen, rien. Juste des startups rachétées par les GAFAM dès qu'elles deviennent intéressantes. Notre modèle économique : former, innover, se faire racheter. Pathétique.

    L'UE excelle dans la régulation tatillonne (merci le RGPD et l'AI Act pour achever ce qui reste de compétitivité), mais pour l'innovation réelle ? Néant absolu. On préfère brider, taxer, sur-réglementer. Résultat : l'Europe est devenue un musée technologique.
    C'est une perte de temps et d'argent public pour faire semblant d'exister dans une compétition qu'on a déjà perdue il y a dix ans.

  4. #4
    Invité de passage
    Homme Profil pro
    Autre
    Inscrit en
    Octobre 2025
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Isère (Rhône Alpes)

    Informations professionnelles :
    Activité : Autre

    Informations forums :
    Inscription : Octobre 2025
    Messages : 1
    Par défaut
    Bonne intuitive. Il doit y avoir possibilité de repartir d'un modèle performant comme Qwen3 et l'entraîner un peu plus sur des données en langues de l'UE

  5. #5
    Membre actif
    Homme Profil pro
    Architecte réseau
    Inscrit en
    Mars 2025
    Messages
    95
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Architecte réseau
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2025
    Messages : 95
    Par défaut
    La seule alternative "européenne", c'est véritablement Mistral avec un modèle très efficace et accessible en self-hosted.

  6. #6
    Membre extrêmement actif
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Octobre 2017
    Messages
    2 405
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Octobre 2017
    Messages : 2 405
    Par défaut
    Citation Envoyé par Artaeus Voir le message
    La seule alternative "européenne", c'est véritablement Mistral avec un modèle très efficace et accessible en self-hosted.
    La "réussite" de l'IA sera proportionnelle aux milliards investis et à la force de frappe!

    La française Mistral a déjà perdu la course...

    Mistral sera à ChatGPT & Cie, ce que Qwant a été à Google... Une illusion, une vaste blague!

  7. #7
    Membre éprouvé
    Avatar de Matthieu Vergne
    Homme Profil pro
    Consultant IT, chercheur IA indépendant
    Inscrit en
    Novembre 2011
    Messages
    2 362
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant IT, chercheur IA indépendant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2011
    Messages : 2 362
    Billets dans le blog
    3
    Par défaut
    Les commentaires précédents me semblent excessifs dans leurs conclusions, dans le sens où ils prônent un constat actuel comme un absolu intangible. Le monde de l'IA change vite, Mistral s'est fait une place, et d'autres peuvent aussi arriver à le faire. Cela ne veut pas dire succès garanti, mais ce n'est pas impossible. Les technos vont continuer d'évoluer, on n'est qu'au début, je ne doute donc pas qu'on verra de nouvelles surprises.

    Pour ce qui est des gros modèles qui tournent chez les GAFAM, le retard difficile à rattraper par contre est réel. Et il ne suffit pas de sortir quelques modèles pour asseoir sa souveraineté. Sur ce point là je suis tout à fait d'accord.

    Par contre, l'avantage des petits modèles tant critiqués ici est que ça tourne sur une machine perso ! Des modèles 7B-9B ça permet de le faire tourner sur mon GPU, sans devoir débourser un centime ni envoyer mes données où que ce soit ni dépendre d'une quelconque entité de bien vouloir me fournir le service. Je télécharge le modèle, et c'est tout, plus personne ne peut me l'enlever ou me le corrompre à sa discrétion. Tant que j'ai un logiciel indépendant pour le faire tourner, comme LM Studio, je suis autonome. Et ça c'est cool. Même le 22B je peux le faire tourner en mode CPU.

    Des critiques plus pertinentes par contre sont sur ce qu'on peut faire avec le modèle. Pour un prompt tout simple mais pas forcément évident à répondre :
    Dit-moi comment créer un range monnaie en origami.
    Les origami c'est connu, les range monnaie aussi, mais la combinaison des deux...

    J'ai testé plusieurs versions quantizés à Q3_K_S (version quantizée recommandée par LM Studio qui permet de faire tourner sur mon GPU) :
    • eurollm-9b : ça écrit n'importe quoi, normal c'est un modèle de base, pas entraîné pour un échange mais simplement pour générer du texte
    • eurollm-9b-instruct : (+instruct pour formater l'échange) ça m'écrit bien une description pour faire un origami, le produit lui-même est à jeter mais ça ressemble bien à ce qui est attendu
    • eurollm-9b-instruct-ungated : (+ungated) réponse similaire, mais il commence à me parler de "coin monnaie" plutôt que de "range monnaie"
    • eurollm-9b-instruct-ungated-i1 : (+i1 pour une théorique meilleure quantization) là il parle de faire un origami de billet de banque, on est carrément hors sujet

    Pour un modèle censé maîtriser les nuances de chaque langue européenne, échouer de manière évidente dès le premier essai montre que l'objectif n'est pas atteint.

    Donc pour l'instant, je ne m'appuierai pas sur ces modèles EuroLLM, car ils ont encore besoin d'améliorer leur qualité. Mais je salue l'effort et je ne doute pas que la nécessité de gérer la multiplicité des langues trouve ses usages... Juste que les limiter aux langues européennes me semble totalement arbitraire. Une approche internationale me semble plus pertinente (même si par conséquent plus difficile encore à mettre en oeuvre, donc au moins le niveau UE est un pas dans ce sens).
    Site perso
    Recommandations pour débattre sainement

    Références récurrentes :
    The Cambridge Handbook of Expertise and Expert Performance
    L’Art d’avoir toujours raison (ou ce qu'il faut éviter pour pas que je vous saute à la gorge {^_^})

Discussions similaires

  1. Réponses: 1
    Dernier message: 30/01/2025, 11h31
  2. Réponses: 2
    Dernier message: 22/06/2012, 00h22
  3. Réponses: 7
    Dernier message: 30/08/2011, 19h52
  4. Réponses: 0
    Dernier message: 24/08/2011, 00h09
  5. Réponses: 3
    Dernier message: 17/07/2009, 11h24

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo