IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    10 080
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 10 080
    Par défaut Alibaba publie Qwen3.6-27B qui bat Claude 4.5 Opus sur Terminal-Bench et frôle ses scores de codage
    Codage agentique, raisonnement préservé, un million de tokens : Qwen3.6-35B-A3B redessine le plafond de l'IA open source pour les développeurs,
    malgré plusieurs départs d'ingénieurs clés qui ont quitté le projet

    Quelques semaines après une crise interne qui avait fait craindre le pire pour son avenir, la famille Qwen d'Alibaba revient avec un modèle de code aussi ambitieux que symbolique. Le Qwen3.6-35B-A3B incarne une architecture MoE (mixture d'experts) optimisée pour la programmation agentique et le raisonnement à l'échelle d'un dépôt entier et ses scores sur les benchmarks les plus exigeants sont difficiles à ignorer. Retour sur une sortie qui redistribue les cartes.

    Pour saisir la portée de cette publication, il faut d'abord revenir sur la tourmente qui a secoué l'équipe Qwen au début du mois de mars 2026. À peine vingt-quatre heures après le lancement de la série Qwen 3.5 Small (des modèles dont Elon Musk lui-même avait salué la densité d'intelligence sur X), Junyang Lin, figure technique centrale du projet, annonçait son départ sans donner plus de précisions. Il avait rejoint Alibaba en juillet 2019 et intégré l'équipe Qwen en avril 2023, d'après son profil LinkedIn. Ce départ soudain, qui a suscité de vives réactions parmi ses collègues et partenaires du secteur, intervient alors que la concurrence mondiale entre les développeurs d'IA s'intensifie et que les entreprises s'efforcent de créer des modèles capables de rivaliser avec ceux d'OpenAI, de Google et d'Anthropic.

    Nom : je pars.png
Affichages : 21970
Taille : 9,2 Ko

    Dans la foulée, Binyuan Hui, responsable de Qwen Code, et Kaixin Li, contributeur principal des versions Coder, quittaient également l'entreprise. Yu Bowen, à la tête du travail de post-entraînement, suivait peu après.

    Lin Junyang, 32 ans, avait fait de Qwen la série de modèles open source la plus téléchargée au monde, dépassant 700 millions de téléchargements sur Hugging Face. Sa démission, présentée de l'extérieur comme un départ volontaire, semblait en réalité moins consentie : Chen Cheng, un contributeur du projet, lui adressait publiquement ce message : « Je sais que partir n'était pas ton choix. »

    Le départ de Lin est survenu au moment même où l'équipe Qwen s'apprêtait à publier de nouvelles versions, suscitant des réactions particulièrement vives de la part de ses collègues et partenaires, qui ont souligné le rôle central qu'il a joué dans le projet.

    Wenting Zhao, chercheuse au sein de l'équipe Qwen, a décrit le départ de Lin comme « la fin d'une ère », le remerciant dans un article publié sur X pour sa contribution aux avancées du projet dans le domaine de l'IA et de l'ingénierie open source. Yuchen Jin, directeur technique de la startup Hyperbolic, spécialisée dans les infrastructures d'IA, a déclaré que Lin avait joué un rôle déterminant dans le rapprochement de Qwen avec la communauté mondiale des développeurs, se souvenant de longues soirées de collaboration avec l'équipe lors des lancements de modèles. Tiezhen Wang, responsable de l'écosystème Asie-Pacifique chez Hugging Face, a également qualifié le départ de Lin de « perte immense » pour le projet Qwen.

    La direction d'Alibaba a admis lors d'une réunion de crise des « lacunes de communication » et une réorganisation profonde du laboratoire Tongyi, passant d'une structure verticalement intégrée à des équipes séparées de pré-entraînement, post-entraînement et de compréhension visuelle. Pour suppléer aux départs, Alibaba a recruté Hao Zhou, ancien chercheur chez Google DeepMind, pour prendre en charge les travaux de post-entraînement.

    Dans ce contexte, la sortie du Qwen3.6-35B-A3B quelques semaines plus tard prend une valeur presque symbolique. Sur Hacker News, un utilisateur l'a relevé : « C'est un soulagement de voir l'équipe Qwen continuer à publier des poids ouverts, après les départs de Junyang Lin et des autres. »

    Nom : elon thanks.png
Affichages : 2059
Taille : 14,5 Ko

    L'architecture MoE, clé de l'efficacité

    Le nom du modèle contient l'essentiel de l'histoire technique. Les 35B désignent le nombre total de paramètres de l'architecture ; l'A3B indique que seulement 3 milliards de ces paramètres sont activés lors de l'inférence d'un token. C'est la signature d'une architecture MoE (mixture of experts), dans laquelle le modèle dispose de sous-réseaux spécialisés (les « experts ») parmi lesquels un mécanisme de routage sélectionne dynamiquement ceux qui traitent chaque entrée.

    L'intérêt pratique est immédiat : on dispose de la capacité de représentation d'un grand modèle dense, mais avec un coût de calcul par token beaucoup plus proche d'un modèle de 3 milliards de paramètres. Un utilisateur HN précise la nuance matérielle importante : même si seuls 3B de paramètres sont actifs à l'inférence, l'ensemble des poids doit rester en mémoire, et l'architecture MoE peut se montrer plus capricieuse à déployer qu'un modèle dense classique. Il rappelle néanmoins que des outils comme llama.cpp permettent de délester les experts sur le CPU (via l'option --cpu-moe), au prix d'un débit réduit.

    Le modèle prend en charge une fenêtre de contexte native de 262 144 tokens, extensible jusqu'à environ 1 million de tokens Hugging Face, ce qui en fait l'un des modèles de code ouverts les mieux dotés pour les sessions de travail sur de larges bases de code.

    Nom : qwen36.png
Affichages : 1019
Taille : 648,9 Ko

    Des chiffres qui parlent d'eux-mêmes

    Alibaba a soumis Qwen3.6-35B-A3B à plusieurs des benchmarks les plus discriminants pour la programmation agentique. Sur Terminal-Bench 2.0, qui évalue le code en environnement terminal avec un délai de trois heures et des ressources CPU réelles, le modèle obtient 51,5 points contre 42,9 pour le Gemma4-31B de Google. L'écart est encore plus prononcé sur les benchmarks SWE-Bench, conçus pour mesurer la capacité d'un modèle à corriger des bugs dans de vrais dépôts GitHub : SWE-bench Pro donne 49,5 contre 35,7 pour Gemma4-31B ; SWE-bench Verified atteint 73,4 contre 52,0, et SWE-bench Multilingual 67,2 contre 51,7.

    Ces chiffres méritent cependant d'être contextualisés. Sur HN, un participant souligne qu'Alibaba a soigneusement évité de comparer ce modèle aux assistants propriétaires comme Claude Sonnet ou GPT : les comparaisons restent cantonnées aux modèles open source concurrents, Gemma4-31B en tête. Ce n'est pas un oubli : un autre commentateur résume la position de manière directe, en indiquant que ces modèles n'arrivent pas encore au niveau des meilleurs modèles commerciaux, quel que soit ce que les benchmarks affichent. Ils sont remarquables pour ce qu'ils sont (des modèles exécutables sur du matériel standard) mais ils ont des limites et nécessitent d'adapter les flux de travail en conséquence.

    Nom : tests.png
Affichages : 1012
Taille : 134,0 Ko

    Deux capacités phares : raisonnement agentique et mémoire de raisonnement

    Au-delà de l'architecture, Alibaba a mis l'accent sur deux axes qui répondent aux plaintes les plus récurrentes des développeurs vis-à-vis des modèles de code ouverts.

    Le premier est le codage agentique à plusieurs étapes. La promesse n'est pas de générer un fichier en une requête, mais de rester cohérent sur plusieurs cycles d'itération : proposer des modifications sur plusieurs fichiers, lire les résultats de tests, corriger, relancer. La fiche technique du modèle sur Hugging Face précise qu'il gère désormais les flux de travail frontend et le raisonnement à l'échelle d'un dépôt avec plus de fluidité et de précision.

    Le second est la préservation du raisonnement entre les messages, un mécanisme inédit dans la famille Qwen. Lors d'une session agentique multi-tours, le modèle peut conserver le contexte de son raisonnement des messages précédents plutôt que de le recalculer depuis zéro. Cette fonctionnalité réduit les frais généraux d'inférence, améliore la cohérence des décisions dans les scénarios agentiques, et optimise l'utilisation du cache KV, aussi bien en mode raisonnement qu'en mode standard. Concrètement, un agent de code qui débogue un problème sur dix étapes ne « repart pas de zéro » à chaque échange.

    Ce que la communauté en fait déjà

    La mise à disposition a été quasi-immédiate sur Hugging Face. L'équipe Unsloth a publié une version quantifiée au format GGUF dès les premières heures, permettant à ceux qui ne disposent pas de plusieurs GPU de pouvoir tester le modèle dans des conditions raisonnables.

    Les commentaires sur HN reflètent des attentes différenciées selon les profils. Les développeurs travaillant dans des secteurs réglementés comme la banque ou la santé voient dans ces modèles ouverts la seule alternative crédible aux API publiques, à condition de ne pas se leurrer sur leurs limites réelles par rapport aux modèles de pointe. D'autres se concentrent sur les contraintes matérielles : un Mac équipé de 36 Go de mémoire unifiée ne suffit pas à charger confortablement ce modèle avec un contexte long, et les utilisateurs espèrent des variantes plus petites, notamment une version 9B, dans les prochaines semaines.

    Un échange intéressant porte sur le coût réel d'un modèle « gratuit » : un participant fait observer que si l'on tient compte du coût de l'électricité consommée lors des inférences locales, Claude Haiku reste souvent moins cher, plus rapide et meilleur que tout ce qu'un particulier peut exécuter sur sa propre machine. L'argument est honnête, et rappelle que « open weights » ne signifie pas nécessairement « économique » dans tous les contextes.

    L'enjeu derrière le modèle : la souveraineté logicielle

    Derrière la technique, ce lancement s'inscrit dans une dynamique plus large. La course à l'IA open source s'intensifie, avec Google et son Gemma4, Meta et sa série Llama, et Alibaba avec Qwen, chacun cherchant à capturer l'adoption des développeurs. Pour les équipes qui travaillent sous contraintes réglementaires (données sensibles, environnements isolés du réseau, exigences de conformité), un modèle de code capable de s'exécuter entièrement en interne représente plus qu'une économie : c'est une condition d'existence.

    Un commentateur résume sobrement ce que beaucoup pensent tout bas : même si ces modèles ne battent pas encore Sonnet ou GPT en qualité brute, ils changent la dynamique des négociations avec les fournisseurs propriétaires. Ils constituent un levier de pression, sinon une alternative immédiate.

    La question reste ouverte sur la direction que prendra Qwen sous sa nouvelle gouvernance. La publication du Qwen3.6-35B-A3B est un signal fort que la production de modèles ouverts reste au programme, mais l'équipe qui l'a rendu possible n'est plus tout à fait la même.

    Sources : blog Qwen, Hugging Face, Elon Musk

    Et vous ?

    La fenêtre d'un million de tokens est-elle réellement utile en pratique, ou l'attention se dégrade-t-elle trop au-delà de quelques centaines de milliers de tokens pour des tâches de code complexes ?

    La préservation du raisonnement inter-messages est-elle un vrai changement de paradigme pour les agents de code, ou une optimisation marginale qui ne compense pas l'absence d'une mémoire structurée et persistante ?

    Quen continuera-t-il à publier des poids ouverts maintenant que l'équipe fondatrice est dispersée et qu'Alibaba restructure en profondeur son laboratoire vers davantage de commercialisation ?

    La comparaison délibérément évitée avec Claude ou GPT en dit-elle plus que les benchmarks eux-mêmes : ces modèles ouverts sont-ils encore trop loin des modèles commerciaux pour les usages professionnels exigeants ?

    L'architecture MoE est-elle le bon pari pour les équipes DevOps qui veulent déployer un modèle de code en interne, ou la complexité opérationnelle qu'elle introduit annule-t-elle les gains en efficacité ?

    Voir aussi :

    Alibaba présente Qwen 3.6 Plus, un modèle d'IA 100 % gratuit qui surpasserait Claude Sonnet 4.6 et permettrait de créer des applications en une seule instruction

    Alibaba lance Qwen3.5, un modèle natif de vision-langage à poids ouvert de 397 milliards de paramètres, affichant de améliorations en matière de raisonnement, de codage et de capacités d'agent
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    2 192
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 2 192
    Par défaut Alibaba dévoile Qwen 3.6-Max-Preview, la version préliminaire de son prochain modèle d'IA avancé
    Alibaba dévoile Qwen 3.6-Max-Preview, la version préliminaire de son prochain modèle d'IA avancé, qui est plus intelligent, plus performant et toujours en pleine évolution

    Alibaba a présenté Qwen3.6-Max-Preview, la version préliminaire de son modèle d'intelligence artificielle (IA) de nouvelle génération. Disponible sur Alibaba Cloud via Qwen Studio et des API, ce modèle vise à améliorer les performances de codage agentique, à renforcer la capacité à suivre des instructions complexes et à garantir une plus grande cohérence factuelle. Alibaba positionne cette préversion comme s'inscrivant dans une évolution plus large vers des systèmes d'IA autonomes capables d'utiliser des outils ou d'effectuer des flux de travail structurés, plutôt que vers des modèles purement conversationnels.

    Alibaba Group Holding Limited, connue sous le nom d'Alibaba, est une multinationale chinoise spécialisée dans le commerce électronique, la vente au détail, Internet et les technologies. Fondée le 28 juin 1999 à Hangzhou, dans la province du Zhejiang, la société propose des services de vente de particulier à particulier (C2C), d'entreprise à particulier (B2C) et d'entreprise à entreprise (B2B) via des places de marché chinoises et internationales, ainsi que des services locaux destinés aux consommateurs, dans les domaines des médias numériques et du divertissement, de la logistique et du cloud computing. Elle détient et exploite un portefeuille diversifié d'entreprises à travers le monde dans de nombreux secteurs d'activité.

    Qwen (également connu sous le nom de Tongyi Qianwen) est une famille de grands modèles de langage développés par Alibaba Cloud, une filiale du groupe Alibaba. De nombreux modèles Qwen sont distribués sous la licence libre et open source Apache 2.0, sous la licence Qwen (avec code source disponible) ou sous la licence Qwen Research (à usage non commercial) ; d'autres modèles Qwen propriétaires sont proposés via Alibaba Cloud.

    Le lancement de cette nouvelle préversion s’inscrit dans la continuité des efforts récents d'Alibaba pour repositionner sa famille de modèles Qwen sur des usages plus avancés. Mi-avril 2026, soit quelques semaines seulement après une crise interne marquée par le départ de plusieurs ingénieurs clés, le groupe a lancé Qwen3.6-35B-A3B, un modèle basé sur une architecture Mixture of Experts (MoE) optimisée pour le codage agentique et le raisonnement à l'échelle d'un dépôt entier. Capable de traiter des contextes allant jusqu’à un million de tokens et affichant des performances élevées sur les principaux benchmarks, ce modèle redéfinit les limites de l'IA open source pour les développeurs.

    Nom : Alibaba Qwen 3.6-Max-Preview.png
Affichages : 1804
Taille : 201,3 Ko

    « Suite à la sortie de Qwen3.6-Plus, nous vous proposons un premier aperçu de notre prochain modèle propriétaire : Qwen 3.6-Max-Preview. Par rapport à Qwen3.6-Plus, cette version préliminaire offre une meilleure connaissance du monde et une meilleure capacité à suivre les instructions, ainsi que des améliorations significatives en matière de codage agentique sur un large éventail de benchmarks », a déclaré Alibaba dans un communiqué publié le 18 avril dernier.

    Il s'agit d'un premier aperçu du prochain modèle Qwen d'Alibaba, qui succédera à Qwen3.6-Plus. Il ne s'agit pas d'une version stable définitive. Ce modèle fait actuellement l'objet de tests et d'itérations, dans le but d'améliorer ses capacités de codage, sa capacité à suivre des instructions et la fiabilité de ses connaissances.

    Qu'est-ce que Qwen3.6-Max-Preview ?

    Il s'agit d'un modèle propriétaire hébergé sur Alibaba Cloud et accessible via Qwen Studio et une API. Il est conçu pour offrir des performances accrues dans les tâches où le modèle doit se comporter davantage comme un assistant automatisé capable d'utiliser des outils, d'écrire du code et d'exécuter des flux de travail en plusieurs étapes.

    Par rapport à Qwen 3.6-Plus, cette version préliminaire vise à améliorer les performances de codage de type « agent », à renforcer la capacité à suivre des instructions complexes et à assurer une plus grande cohérence factuelle. Elle est également conçue pour gérer de manière plus fiable les tâches réelles des développeurs, en particulier dans les environnements impliquant des référentiels, des terminaux et des appels d'outils.

    Performances et benchmarks

    D'après les résultats des évaluations de Qwen3.6-Max-Preview par rapport aux principaux modèles de pointe, cette version met en avant des améliorations dans plusieurs benchmarks de codage et de raisonnement. On note notamment des progrès dans les tâches d'ingénierie logicielle, la résolution de problèmes en mode terminal et la génération de code liée à des référentiels.

    Qwen3.6-Max-Preview fait également état d'améliorations modérées dans les évaluations portant sur les connaissances générales et la capacité à suivre des instructions. L'accent est mis sur une cohérence globale et des performances plus solides dans des scénarios de codage concrets, plutôt que sur un seul indicateur remarquable.

    Nom : Alibaba Qwen 3.6-Max-Preview 2.png
Affichages : 537
Taille : 118,4 Ko

    Par rapport à Qwen 3.6-Plus, cette version préliminaire offre des améliorations significatives en matière de codage agentique (par exemple, SkillsBench +9,9, SciCode +6,3, NL2Repo +5,0, Terminal-Bench 2.0 +3,8), une meilleure connaissance du monde (SuperGPQA +2,3, QwenChineseBench +5,3) et une meilleure capacité à suivre des instructions (ToolcallFormatIFBench +2,8).

    Accès pour les développeurs et détails sur l'API

    Le modèle est accessible via les API de Qwen Studio et d'Alibaba Cloud Model Studio. Il prend en charge les interfaces standard de saisie assistée pour les chats et est compatible avec les formats d'API courants du secteur. Cette version prend également en charge la fonctionnalité preserve_thinking, une option permettant de conserver les traces de raisonnement internes tout au long des workflows des agents, ce qui s'avère particulièrement utile pour le débogage et les systèmes d'automatisation en plusieurs étapes impliquant une approche agentique.

    Alibaba Cloud Model Studio prend par ailleurs en charge les protocoles standard du secteur, notamment les API de complétion de chat et de réponse compatibles avec les spécifications d'OpenAI, ainsi qu'une interface API compatible avec Anthropic.

    Un exemple de code pour l'API de complétion de chat est fourni ci-dessous :

    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    """
    Environment variables (per official docs):
      DASHSCOPE_API_KEY: Your API Key from https://modelstudio.console.alibabacloud.com
      DASHSCOPE_BASE_URL: (optional) Base URL for compatible-mode API.
        - Beijing: https://dashscope.aliyuncs.com/compatible-mode/v1
        - Singapore: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
        - US (Virginia): https://dashscope-us.aliyuncs.com/compatible-mode/v1
      DASHSCOPE_MODEL: (optional) Model name; override for different models.
    """
    from openai import OpenAI
    import os
     
    api_key = os.environ.get("DASHSCOPE_API_KEY")
    if not api_key:
        raise ValueError(
            "DASHSCOPE_API_KEY is required. "
            "Set it via: export DASHSCOPE_API_KEY='your-api-key'"
        )
     
    client = OpenAI(
        api_key=api_key,
        base_url=os.environ.get(
            "DASHSCOPE_BASE_URL",
            "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
        ),
    )
     
    messages = [{"role": "user", "content": "Introduce vibe coding."}]
     
    model = os.environ.get(
        "DASHSCOPE_MODEL",
        "qwen3.6-max-preview",
    )
    completion = client.chat.completions.create(
        model=model,
        messages=messages,
        extra_body={
            "enable_thinking": True,
            # "preserve_thinking": True,
        },
        stream=True
    )
     
    reasoning_content = ""  # Full reasoning trace
    answer_content = ""  # Full response
    is_answering = False  # Whether we have entered the answer phase
    print("\n" + "=" * 20 + "Reasoning" + "=" * 20 + "\n")
     
    for chunk in completion:
        if not chunk.choices:
            print("\nUsage:")
            print(chunk.usage)
            continue
     
        delta = chunk.choices[0].delta
     
        # Collect reasoning content only
        if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None:
            if not is_answering:
                print(delta.reasoning_content, end="", flush=True)
            reasoning_content += delta.reasoning_content
     
        # Received content, start answer phase
        if hasattr(delta, "content") and delta.content:
            if not is_answering:
                print("\n" + "=" * 20 + "Answer" + "=" * 20 + "\n")
                is_answering = True
            print(delta.content, end="", flush=True)
            answer_content += delta.content


    La direction principale prise ici consiste à s'orienter vers des modèles qui fonctionnent davantage comme des agents que comme de simples outils de conversation. Au lieu de se concentrer uniquement sur la qualité du dialogue, les améliorations visent des tâches concrètes telles que le codage, l'utilisation d'outils et les flux de travail structurés. Le terme « direction » sert simplement à indiquer que le modèle est développé dans le but d'adopter un comportement plus autonome et axé sur les tâches, plutôt que de se limiter à de simples interactions par chat.

    Source : Alibaba

    Et vous ?

    Quel est votre avis sur le sujet ?
    Trouvez-vous cette initiative d'Alibaba crédible ou pertinente ?

    Voir aussi :

    Alibaba présente Qwen 3.6 Plus, un modèle d'IA 100 % gratuit qui surpasserait Claude Sonnet 4.6 et permettrait de créer des applications en une seule instruction

    Alibaba lance Qwen3.5, un modèle natif de vision-langage à poids ouvert de 397 milliards de paramètres, affichant de améliorations en matière de raisonnement, de codage et de capacités d'agent

    Alibaba Cloud lance Qwen-Image-2.0, un modèle fondamental de génération d'images de nouvelle génération, combinant infographie professionnelle et photoréalisme dans un seul modèle d'IA
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  3. #3
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    10 080
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 10 080
    Par défaut Alibaba publie Qwen3.6-27B qui bat Claude 4.5 Opus sur Terminal-Bench et frôle ses scores de codage
    Alibaba publie Qwen3.6-27B qui bat Claude 4.5 Opus sur Terminal-Bench et frôle ses scores de codage,
    mais que valent vraiment ces chiffres avant la vérification indépendante ?

    Alibaba vient de frapper un grand coup dans le paysage de l'IA open source. Sorti le 22 avril 2026 sous licence Apache 2.0, le Qwen3.6-27B est un modèle dense de 27 milliards de paramètres qui surpasse sur les principaux benchmarks de codage agentique le Qwen3.5-397B-A17B, son propre prédécesseur et ancien fleuron open source, quatorze fois plus grand. Plus frappant encore : il tient dans moins de 17 gigaoctets de VRAM en quantisation Q4, ce qui le rend accessible à tout développeur équipé d'une carte graphique grand public récente. Le rapport performance/empreinte mémoire de ce modèle est sans précédent, et il change concrètement les conditions dans lesquelles on peut envisager de faire tourner un agent de codage en local.

    Depuis deux ans, la course aux grands modèles de langage a massivement favorisé l'architecture Mixture-of-Experts (MoE) : plutôt que d'activer l'ensemble d'un réseau à chaque inférence, ces modèles ne sollicitent qu'un sous-ensemble « d'experts » spécialisés, ce qui permet de gonfler spectaculairement le nombre total de paramètres sans augmenter proportionnellement le coût de calcul par token. Le Qwen3.5-397B-A17B en était un exemple canonique : 397 milliards de paramètres au total, mais seulement 17 milliards actifs à chaque passe. Résultat, en termes de calcul effectif, il se comportait comme un modèle d'environ 17 milliards. Le poids total en mémoire demeurait cependant considérable : 807 Go sur Hugging Face.

    Le Qwen3.6-27B choisit une voie différente. Il s'agit d'un modèle dense, dans lequel tous les 27 milliards de paramètres sont activés à chaque passe, sans routage, sans experts latents dormants en mémoire. Ce choix a des implications pratiques immédiates : un modèle dense est structurellement plus simple à déployer localement, car son empreinte mémoire correspond exactement à la taille de ses poids. Pas de gestion d'experts partiellement chargés, pas de déséquilibre de charge entre GPU.

    Mais Alibaba ne s'est pas contenté de revenir à une architecture conventionnelle. Le modèle repose sur une architecture hybride inédite : 64 couches organisées en blocs répétitifs de type 3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN). Cela signifie que trois quarts des sous-couches d'attention utilisent un mécanisme de Gated DeltaNet, une forme d'attention linéaire, tandis que seulement un quart recourt à l'attention classique. L'attention linéaire, contrairement à l'attention quadratique traditionnelle, n'explose pas en coût de calcul à mesure que le contexte s'allonge : elle scale en O(n) plutôt qu'en O(n²), ce qui la rend significativement plus rapide et plus économe en mémoire pour les longues séquences.

    Cette architecture hybride a également un effet direct sur le cache KV, qui stocke les états intermédiaires de l'attention pendant l'inférence. Les couches de Gated Attention utilisent seulement 4 têtes pour les clés et valeurs (KV) contre 24 pour les requêtes (Q), une configuration qui réduit considérablement la consommation mémoire du cache KV à l'inférence. C'est une des raisons pour lesquelles le modèle parvient à traiter efficacement de très longues fenêtres de contexte.

    Nom : qwen36b.png
Affichages : 33715
Taille : 411,9 Ko

    Des benchmarks qui renversent l'ordre établi

    Sorti le 22 avril 2026 sous Apache 2.0, le modèle 27 milliards de paramètres affiche des scores de codage agentique qui surpassent le précédent fleuron Qwen3.5-397B-A17B sur plusieurs benchmarks, tout en tenant dans 16,8 Go en quantisation Q4_K_M (une technique de compression des modèles de langage) sur un seul GPU grand public.

    Les chiffres publiés par Alibaba sont parlants : le modèle obtient 77,2 sur SWE-bench Verified, 59,3 sur Terminal-Bench 2.0, et 1 487 sur le benchmark interne QwenWebBench, reposant sur une architecture hybride Gated DeltaNet et Gated Attention répartie sur 64 couches. À titre de comparaison, le Qwen3.5-397B-A17B plafonnait à 76,2 sur SWE-bench Verified, 52,5 sur Terminal-Bench 2.0 et 30,0 sur SkillsBench, là où le nouveau venu atteint 48,2. Le saut est particulièrement brutal sur SkillsBench, qui mesure la capacité à accomplir des tâches de codage multi-étapes dans des environnements terminaux réels.

    L'écart avec Claude 4.5 Opus se réduit à une poignée de points sur les benchmarks qui comptent pour les agents de codage. Sur Terminal-Bench 2.0, le 27B dense atteint exactement le score de Claude 4.5 Opus (59,3), tandis que sur GPQA Diamond il le dépasse légèrement (87,8 contre 87,0). Claude 4.5 Opus conserve l'avantage sur SWE-bench Verified (80,9) et SWE-bench Pro (57,1).

    Il faut néanmoins mesurer ces chiffres avec précaution. La vérification indépendante sur des tâches de codage en production reste limitée au 23 avril 2026, et les benchmarks publiés par Alibaba utilisent son propre échafaudage d'agent interne. La communauté open source rappelle également, comme à chaque nouvelle sortie, d'attendre quelques jours avant de tirer des conclusions définitives : les premières semaines révèlent souvent des problèmes de configuration, des bugs dans les backends d'inférence, ou des comportements inattendus qui ne ressortent pas des benchmarks officiels.

    Nom : benchmarks.png
Affichages : 4072
Taille : 159,5 Ko

    Multimodalité, Thinking Preservation et fenêtre de 262 000 tokens

    Au-delà de la performance brute en codage, le Qwen3.6-27B introduit plusieurs capacités qui méritent attention. Le modèle est nativement multimodal, supportant les entrées texte, image et vidéo (il a été entraîné avec un encodeur visuel lors des phases de pré-entraînement et de post-entraînement). Cette capacité multimodale native, sur un modèle de cette taille, ouvre des cas d'usage que les versions précédentes ne couvraient pas : analyser des captures d'écran d'interface, lire du code dans des images, ou traiter des vidéos de documentation technique directement en local.

    La fenêtre de contexte native est de 262 144 tokens, extensible à 1 010 000 tokens via YaRN, une capacité qui change concrètement la donne pour les agents de codage qui doivent naviguer dans de grandes bases de code. Pour les tâches de type repository-level (comprendre l'intégralité d'un dépôt pour éditer plusieurs fichiers de manière cohérente), cette fenêtre de contexte est une condition pratiquement nécessaire.

    Une autre nouveauté concerne le mécanisme de « Thinking Preservation ». Le modèle dispose d'un mode de raisonnement hybride (c'est-à-dire avec ou sans chaîne de pensée) dans un seul checkpoint, et introduit un mécanisme de préservation du raisonnement, une première dans l'open source. Dans la pratique, cela signifie que le modèle peut être configuré pour conserver et transmettre ses étapes de réflexion intermédiaires d'un tour à l'autre dans une conversation agentique, ce qui améliore la cohérence sur des tâches longues.

    Enfin, le modèle intègre la Multi-Token Prediction (MTP) à l'entraînement. À l'inférence, cela permet le décodage spéculatif, le modèle génère simultanément plusieurs tokens candidats et les vérifie en parallèle, améliorant le débit sans compromettre la qualité.

    La réalité matérielle : que faut-il pour le faire tourner ?

    C'est probablement la question la plus pratique, et les réponses varient considérablement selon les configurations. En quantisation Q4_K_M, le modèle occupe environ 16,8 Go de mémoire, ce qui lui permet de tenir sur une RTX 4080 16 Go (serré) ou une RTX 4090 24 Go (à l'aise). En Q8, il faut compter environ 28,6 Go.

    Pour les utilisateurs de Mac avec mémoire unifiée, un M5 Pro avec 128 Go de RAM n'en utilise que 20 Go pour ce modèle, avec des performances de 25 tokens par seconde en génération. Sur un Mac M4 avec 32 Go de RAM, le confort est plus limité : en Q4_K_M via llama-server, on obtient environ 5 tokens par seconde, ce qui reste utilisable mais peut devenir frustrant pour des tâches longues.

    La situation sur les cartes NVIDIA grand public est meilleure pour les GPUs récents. Sur une AMD Radeon R9700 en quantisation 8 bits, on atteint environ 20 tokens par seconde. Sur un DGX Spark (le PC à puce Grace Blackwell de NVIDIA), le débit en FP8 sans optimisation tourne autour de 7,8 tokens par seconde, mais l'utilisation du décodage spéculatif par Multi-Token Prediction avec 3 tokens spéculatifs permet de monter à environ 15,2 tokens par seconde, un gain de près de 2x. Le calcul théorique explique le plafond : à FP8, chaque passe déplace environ 27 Go de paramètres avec une bande passante maximale de 270 Go/s, ce qui donne un plafond théorique d'environ 10 tokens par seconde.

    Pour ceux qui espèrent une percée avec la quantisation NVFP4, le passage à NVFP4 ne déplacerait plus que 7 Go par passe, permettant théoriquement d'atteindre environ 38 tokens par seconde avec une perte de qualité minimale.

    La communauté HN soulève par ailleurs un point rarement abordé dans les annonces officielles : le choix de la quantisation n'est pas anodin. La vraie difficulté pour les débutants est d'apprendre à distinguer entre « le modèle tourne » et « le modèle tourne avec une qualité et un contexte utilisables ». Les quantisations Q3 et inférieures permettent de faire tourner le fichier sur du matériel modeste, mais la dégradation sur les tâches longues devient significative. Un utilisateur signale par exemple que le modèle en Q4 sur une RTX 4090 peut maintenir un contexte de 50 000 à 60 000 tokens à une qualité acceptable.

    Un avertissement pratique s'impose également : à la date du 23 avril 2026, Ollama ne supporte pas encore les fichiers mmproj séparés utilisés par Qwen 3.6 pour la vision. Les alternatives recommandées sont llama.cpp directement, LM Studio, vLLM en version 0.19.0 ou supérieure, ou SGLang en version 0.5.10 ou supérieure. Par ailleurs, un bug documenté avec CUDA 13.2 produit des sorties incohérentes sur ce modèle : il est conseillé de rester sur CUDA 13.1 ou 12.x en attendant un correctif de NVIDIA.

    Tests en conditions réelles : un M3 Ultra et des jeux en 3D

    Le youtuber Bijan Bowen (vidéo ci-dessous) a testé le modèle en conditions réelles sur un Mac Studio M3 Ultra avec 256 Go de RAM, une machine dont la puissance de calcul lui permettait de faire tourner le modèle en quantisation 8 bits via LM Studio et le framework MLX. Avec la fenêtre de contexte maximale (262 144 tokens), la vitesse de génération se situait autour de 21 tokens par seconde, un débit qu'il a maintenu sur l'ensemble de ses tests.

    Le protocole de test était délibérément ambitieux : générer un système d'exploitation de navigateur complet avec au moins cinq applications fonctionnelles, dont deux jeux 3D, l'un d'eux devant être un clone de GTA. Le modèle a produit en un seul passage environ 3 500 lignes de code, avec un résultat jugé « parmi les meilleurs browser OS reçus », tous modèles confondus. Le clone GTA comportait des animations de marche, des véhicules dotés de collisions, et une tentative de système d'étoiles de recherche partiellement fonctionnelle. Le second jeu, un simulateur spatial, était également jugé très propre pour un modèle de cette taille.

    Les tests agentiques menés via Open Code ont confirmé les capacités de codage multi-fichiers : à partir d'une feuille de sprites générée par IA (non structurée), le modèle a tenté de découper les assets par analyse de densité de pixels, a échoué partiellement sur l'extraction précise des sprites (le fichier source n'était pas un sprite sheet standard), mais a produit un jeu de course rétro fonctionnel qui utilisait effectivement les graphismes fournis. Un jeu de skateboard en C++ de 1 746 lignes a également été compilé avec succès après environ 50 minutes de génération agentique, un résultat que le testeur a jugé impressionnant au regard de la complexité du livrable.

    L'ensemble de ces tests illustre une tendance de fond : les modèles de cette taille et de cette génération commencent à rendre concrètement accessibles des workflows agentiques qui, il y a un an encore, nécessitaient des modèles de 70 milliards de paramètres ou des API propriétaires.


    Le contexte stratégique : Apache 2.0 contre le verrouillage propriétaire

    Cette sortie s'inscrit dans un contexte stratégique précis : début avril, Alibaba avait publié trois modèles propriétaires fermés en trois jours, signalant que la partie haute de sa gamme serait réservée aux API payantes. Le Qwen3.6-27B coupe dans l'autre sens; Apache 2.0, usage commercial autorisé, sans redevance.

    Pour les équipes qui ne peuvent ou ne souhaitent pas acheminer leur code source vers des fournisseurs américains (pour des raisons de souveraineté des données, de conformité réglementaire, ou simplement de confidentialité des propriétés intellectuelles), la disponibilité d'un modèle téléchargeable de 55 Go rivalisant avec les modèles frontier sur les tâches de codage agentique constitue un changement d'équation économique réel.

    La question de confiance revient néanmoins de manière récurrente dans les discussions de la communauté technique, notamment sur Hacker News. Des intervenants soulèvent que confier des actifs de code sensibles à un modèle hébergé par une infrastructure chinoise soulève des questions différentes de celles liées à un modèle tournant entièrement en local sur sa propre infrastructure, ce qui est précisément l'un des avantages concurrentiels du modèle open weight par rapport aux API. D'autres observateurs notent, à l'inverse, que la méfiance envers les fournisseurs d'infrastructure est loin d'être l'apanage des acteurs non-américains.

    Sources : Alibaba, NYU Shanghai Library, vidéo dans le texte, forum NVIDIA

    Et vous ?

    Le passage à des modèles denses de 27 milliards de paramètres accessibles sur GPU grand public marque-t-il la fin pratique de la dépendance aux API propriétaires pour les tâches de codage agentique courantes, ou la qualité à la marge des modèles frontier justifie-t-elle encore ce coût ?

    La fenêtre de contexte de 262 000 tokens du Qwen3.6-27B est théoriquement disponible, mais en pratique limitée par la VRAM disponible. Comment les équipes qui opèrent avec des GPU de 24 Go gèrent-elles ce compromis entre qualité de quantisation, longueur de contexte et débit ?

    L'architecture hybride Gated DeltaNet + attention quadratique, 3 couches linéaires pour 1 classique, ouvre-t-elle la voie à une nouvelle génération de modèles qui n'auraient plus à choisir entre performance sur les longues séquences et précision sur les tâches de raisonnement ?

    La prolifération des formats de quantisation (Q3_K_S, Q4_K_M, UD-IQ4_XS, NVFP4…) constitue-t-elle désormais la principale barrière à l'adoption des modèles open source en production, plus que les performances brutes elles-mêmes ?

    Avec un modèle Apache 2.0 qui se rapproche à quelques points des modèles frontier sur les benchmarks de codage, quel avantage compétitif reste-t-il aux labs propriétaires, la confiance institutionnelle, la frontière de la recherche, ou l'écosystème d'outils ?

    Voir aussi :

    Codage agentique, raisonnement préservé, un million de tokens : Qwen3.6-35B-A3B redessine le plafond de l'IA open source pour les développeurs, malgré plusieurs départs d'ingénieurs clés qui ont quitté le projet

    Alibaba présente Qwen 3.6 Plus, un modèle d'IA 100 % gratuit qui surpasserait Claude Sonnet 4.6 et permettrait de créer des applications en une seule instruction

    Alibaba dévoile Qwen 3.6-Max-Preview, la version préliminaire de son prochain modèle d'IA avancé, qui est plus intelligent, plus performant et toujours en pleine évolution
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  4. #4
    Membre actif
    Homme Profil pro
    Architecte réseau
    Inscrit en
    Mars 2025
    Messages
    265
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Architecte réseau
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2025
    Messages : 265
    Par défaut
    Le modèle est incroyable pour l'avoir testé, je préfère tout de même le Qwen3.6-35B-A3B pour un usage générale avec une bonne CG (35 milliards, mais ne charge pas tout les paramètres, donc bien plus rapide, mais avec perte de qualité).
    Perso, je choisis toujours les Q8 plutôt que Q4 trop imprécis.

    Ce que je conseille au débutant : Commencé par des modèles GGUF (de type Q4_K_M) qui marche sur la carte graphique et le processeur, en allant sur hugging face.
    Enfin, quand on ne comprends pas, on peut demander (y compris à des IA comme ChatGPT).

Discussions similaires

  1. Réponses: 8
    Dernier message: 06/01/2012, 14h24
  2. include dans fonction->perd ses variables
    Par shawidoom dans le forum Langage
    Réponses: 13
    Dernier message: 07/07/2011, 21h51
  3. Réponses: 0
    Dernier message: 07/01/2011, 10h09
  4. un objet corba perd ses réferences
    Par kos.noura dans le forum CORBA
    Réponses: 3
    Dernier message: 03/04/2009, 10h04

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo