IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Mistral AI publie Codestral Mamba, un modèle de langage Mamba2 spécialisé dans la génération de code


Sujet :

Intelligence artificielle

  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 234
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 234
    Par défaut Mistral AI publie Codestral Mamba, un modèle de langage Mamba2 spécialisé dans la génération de code
    Mistral publie Codestral Mamba, un modèle de langage Mamba2 avec 7 milliards de paramètres spécialisé dans la génération de code, disponible sous licence Apache 2.0.

    Mistral AI publie Codestral Mamba, un modèle de langage Mamba2 spécialisé dans la génération de code. Testé sur des capacités d'extraction en contexte jusqu'à 256k tokens, Codestral Mamba pourrait être un excellent assistant de code local.

    Mistral AI est une entreprise française spécialisée dans les produits d'intelligence artificielle (IA). Fondée en avril 2023 par d'anciens employés de Meta Platforms et de Google DeepMind, l'entreprise se concentre sur la production de grands modèles de langage open source, soulignant l'importance fondamentale des logiciels gratuits et open source, et se positionnant comme une alternative aux modèles propriétaires.

    En hommage à Cléopâtre, dont le destin glorieux s'est achevé dans les circonstances tragiques d'un serpent, Mistral AI a publié Codestral Mamba, un modèle de langage Mamba2 spécialisé dans la génération de code, disponible sous une licence Apache 2.0. Il s'agit d'un modèle instruit avec 7 285 403 648 paramètres.

    Contrairement aux modèles Transformer, les modèles Mamba offrent l'avantage d'une inférence en temps linéaire et la possibilité théorique de modéliser des séquences de longueur infinie. Ils permettent aux utilisateurs d'utiliser le modèle de manière intensive et d'obtenir des réponses rapides, quelle que soit la longueur de l'entrée. Cette efficacité est particulièrement pertinente pour les cas d'utilisation de la productivité du code. C'est pourquoi Mistral AI a formé ce modèle avec des capacités de code et de raisonnement avancées, pour lui permettre d'être aussi performant que les modèles SOTA basés sur les transformateurs.

    Nom : 0.jpg
Affichages : 7643
Taille : 53,3 Ko

    Mistral AI annonce avoir testé Codestral Mamba sur des capacités d'extraction en contexte jusqu'à 256k tokens. On peut s'attendre à ce qu'il soit un excellent assistant de code local.

    Vous pouvez déployer Codestral Mamba en utilisant le SDK mistral-inference, qui s'appuie sur les implémentations de référence du dépôt GitHub de Mamba. Le modèle peut également être déployé via TensorRT-LLM. Pour l'inférence locale, gardez un œil sur le support dans llama.cpp. Vous pouvez télécharger les poids bruts à partir de HuggingFace.

    Pour faciliter les tests, Mistral AI a rendu Codestral Mamba disponible sur la Plateforme (codestral-mamba-2407), aux côtés de sa grande sœur, Codestral 22B. Alors que Codestral Mamba est disponible sous la licence Apache 2.0, Codestral 22B est disponible sous une licence commerciale pour l'auto-déploiement ou une licence communautaire à des fins de test.

    Après la publication de la famille Mixtral, Codestral Mamba est une nouvelle étape pour Mistral AI dans son effort pour étudier et fournir de nouvelles architectures. Il peut être utilisé, modifié et distribué librement, et Mistral AI espère qu'il ouvrira de nouvelles perspectives dans la recherche sur les architectures. Codestral Mamba a été conçu avec l'aide d'Albert Gu et de Tri Dao.


    Source : Mistral AI

    Et vous ?

    Avez-vous utilisé cet outil ou un outil similaire pour votre usage ou le développement d'applications, et si oui qu'en pensez-vous ?

    Voir aussi :

    Mistral AI présente Codestral, un modèle d'IA générative conçu pour les tâches de génération de code : Il permet d'écrire et d'interagir avec le code grâce à une instruction partagée et une API de complétion

    Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité

    Les défis croissants du code généré par l'IA : le code généré par l'IA pourrait augmenter la charge de travail des développeurs et accroître les risques, selon Harness
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Membre averti
    Profil pro
    Inscrit en
    Août 2010
    Messages
    38
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2010
    Messages : 38
    Par défaut
    Ils viennent également de publier un nouveau modèle (Mistral NeMo, avec 12 milliards de paramètres).

    Depuis quelques semaines sortent tout un tas de modèles ouverts autour des 10 milliards de paramètres qui ont des qualités supérieures ou égales à ChatGPT (Llama3-8B, puis Gemma-2-9B).
    Cette concurrence est assez extraordinaire, il y avait pendant longtemps un décalage entre des petits modèles plus ou moins qualitatifs et bloqués à 7B et loin de la qualités proposée par OpenAI et des modèles qui pouvaient rivaliser avec GPT-4 mais avec plusieurs dizaines de milliards de paramètres (typiquement Llama3-70B)

    Là on a Gemma-2 9B, qui est supérieur à GPT-3.5 et maintenant Mistral Nemo qui semble encore plus performant (d'après leurs comparatifs, j'ai pas encore essayé) avec seulement 12 milliards de paramètres.
    C'est assez excitant.

Discussions similaires

  1. Réponses: 0
    Dernier message: 30/05/2024, 16h10
  2. Réponses: 0
    Dernier message: 25/03/2023, 01h22
  3. Réponses: 0
    Dernier message: 22/04/2021, 21h11
  4. [CE10 Pro] Erreur Connexion SQL pour etats publiés
    Par L.nico dans le forum Connectivité
    Réponses: 1
    Dernier message: 09/12/2004, 17h16

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo