IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 414
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 414
    Par défaut L'IA chinoise DeepSeek Coder V2 devient le premier modèle de codage open-source à battre GPT-4 Turbo d'OpenAI
    L'IA chinoise DeepSeek Coder V2 devient le premier modèle de codage open-source à battre le GPT-4 Turbo d'OpenAI,
    elle vise à combler l'écart de performance avec les modèles à source fermée en se positionnant comme alternative

    Le modèle DeepSeek Coder V2, développé par la startup chinoise DeepSeek, a récemment fait sensation dans le domaine de l’intelligence artificielle. En effet, DeepSeek Coder V2 est le premier modèle open-source à surpasser GPT-4 Turbo dans les benchmarks. Il s’agit d’un modèle de langage basé sur un mélange d’experts (MoE) qui excelle à la fois dans le codage et les tâches mathématiques. DeepSeek-Coder-V2 vise à combler l'écart de performance avec les modèles à source fermée, en offrant une alternative à source ouverte qui fournit des résultats compétitifs dans divers benchmarks.

    Le domaine de la « code intelligence » se concentre sur la création de modèles avancés capables de comprendre et de générer du code de programmation. Ce domaine interdisciplinaire s'appuie sur le traitement du langage naturel et le génie logiciel pour améliorer l'efficacité et la précision de la programmation. Les chercheurs ont mis au point des modèles permettant d'interpréter le code, de générer de nouveaux extraits de code et de déboguer le code existant. Ces avancées réduisent l'effort manuel nécessaire aux tâches de codage, ce qui rend le processus de développement plus rapide et plus fiable. Les modèles de code intelligence se sont progressivement améliorés et sont prometteurs dans diverses applications, du développement de logiciels à l'éducation et au-delà.

    La disparité de performance entre les modèles de code open source et les modèles à source fermée de pointe constitue un défi important en matière de code intelligence. Malgré les efforts considérables de la communauté des logiciels libres, ces modèles doivent rattraper leurs homologues à code fermé dans des tâches spécifiques de codage et de raisonnement mathématique. Cette lacune constitue un obstacle à l'adoption généralisée des solutions à code source ouvert dans les milieux professionnels et éducatifs. Des modèles open-source plus puissants et plus précis sont essentiels pour démocratiser l'accès aux outils de codage avancés et encourager l'innovation dans le développement de logiciels.

    Les méthodes existantes en matière de code intelligence comprennent des modèles open-source notables tels que StarCoder, CodeLlama et le DeepSeek-Coder original. Ces modèles ont fait l'objet d'améliorations constantes grâce aux contributions de la communauté open-source. Cependant, ils doivent encore rattraper les capacités des principaux modèles à source fermée tels que GPT4-Turbo, Claude 3 Opus et Gemini 1.5 Pro. Ces modèles fermés bénéficient de vastes ensembles de données propriétaires et d'importantes ressources informatiques, ce qui leur permet d'obtenir des résultats exceptionnels dans les tâches de codage et de raisonnement mathématique. Malgré ces avancées, le besoin d'alternatives open-source compétitives demeure.

    Nom : comparaison.png
Affichages : 20180
Taille : 153,6 Ko

    Vient alors DeepSeek-V2

    La startup chinoise DeepSeek, qui a déjà fait parler d'elle avec un concurrent de ChatGPT entraîné sur 2 000 milliards de jetons anglais et chinois, a annoncé la sortie de DeepSeek Coder V2, un modèle de langage de code open-source issu d'un mélange d'experts (MoE).

    Basé sur DeepSeek-V2, un modèle MoE lancé le mois dernier, DeepSeek Coder V2 excelle à la fois dans les tâches de codage et de mathématiques. Il prend en charge plus de 300 langages de programmation et surpasse les modèles fermés de pointe, notamment GPT-4 Turbo, Claude 3 Opus et Gemini 1.5 Pro. L'entreprise affirme que c'est la première fois qu'un modèle ouvert réalise cet exploit, devançant de loin le Llama 3-70B et d'autres modèles de la catégorie.

    Elle note également que DeepSeek Coder V2 conserve des performances comparables en termes de raisonnement général et de capacités linguistiques.

    Le modèle DeepSeek-Coder-V2 se décline en quatre variantes distinctes, chacune adaptée à des cas d'utilisation et à des besoins de performance spécifiques :
    • DeepSeek-Coder-V2-Instruct : conçue pour les tâches de génération de texte avancées, cette variante est optimisée pour les scénarios de codage basés sur des instructions, offrant des capacités solides pour la génération et la compréhension de codes complexes.
    • DeepSeek-Coder-V2-Base : cette variante offre une base solide pour la génération de texte général, adaptée à un large éventail d'applications, et sert de modèle de base sur lequel les autres variantes sont construites.
    • DeepSeek-Coder-V2-Lite-Base : cette version légère du modèle de base met l'accent sur l'efficacité, ce qui la rend idéale pour les environnements disposant de ressources informatiques limitées, tout en offrant de bonnes performances dans les tâches de génération de texte.
    • DeepSeek-Coder-V2-Lite-Instruct : combinant l'efficacité de la série Lite avec les capacités optimisées pour les instructions, cette variante excelle dans les tâches basées sur les instructions, fournissant une solution équilibrée pour une génération de code et une compréhension de texte à la fois efficaces et puissantes.



    Qu'apporte DeepSeek Coder V2 ?

    Fondée l'année dernière avec pour mission de « percer le mystère de l'IA avec curiosité », DeepSeek est un acteur chinois notable dans la course à l'IA, rejoignant des entreprises telles que Qwen, 01.AI et Baidu. En fait, moins d'un an après son lancement, l'entreprise a déjà mis en libre accès un certain nombre de modèles, dont la famille DeepSeek Coder.

    Le DeepSeek Coder original, avec jusqu'à 33 milliards de paramètres, a obtenu des résultats satisfaisants sur les benchmarks avec des capacités telles que l'achèvement du code au niveau du projet et le remplissage, mais il ne prenait en charge que 86 langages de programmation et une fenêtre contextuelle de 16K. La nouvelle offre V2 s'appuie sur ce travail, en étendant la prise en charge des langages à 338 et la fenêtre de contexte à 128K - ce qui lui permet de gérer des tâches de codage plus complexes et plus étendues.

    DeepSeek-Coder-V2 a surpassé les principaux modèles à source fermée dans les tâches de codage et de mathématiques lors des évaluations de référence. Le modèle a obtenu un score de 90,2 % sur le benchmark HumanEval, ce qui représente une amélioration notable par rapport à ses prédécesseurs. En outre, il a obtenu un score de 75,7 % sur le benchmark MATH, démontrant ainsi ses capacités de raisonnement mathématique améliorées. Par rapport aux versions précédentes, DeepSeek-Coder-V2 a fait des progrès significatifs en termes de précision et de performance, ce qui en fait un concurrent redoutable dans le domaine de l'intelligence des codes. La capacité du modèle à gérer des tâches de codage complexes et étendues marque une étape importante dans le développement de modèles de code open-source.

    Le seul modèle qui a réussi à surpasser l'offre de DeepSeek sur plusieurs benchmarks est le GPT-4o, qui a obtenu des scores légèrement supérieurs dans HumanEval, LiveCode Bench, MATH et GSM8K.

    DeepSeek affirme avoir réalisé ces avancées techniques et de performance en utilisant comme base DeepSeek V2, qui est basé sur son cadre Mixture of Experts. Essentiellement, l'entreprise a pré-entraîné le modèle de base V2 sur un ensemble de données supplémentaire de 6 000 milliards de jetons - comprenant principalement des données liées au code et aux mathématiques provenant de GitHub et de CommonCrawl.

    Cela permet au modèle, qui comporte 16 et 236 milliards de paramètres, de n'activer que 2,4 et 21 milliards de paramètres « experts » pour traiter les tâches à accomplir, tout en optimisant les divers besoins en matière de calcul et d'application.

    De bonnes performances en langage général et en raisonnement

    En plus d'exceller dans les tâches de codage et de mathématiques, DeepSeek Coder V2 offre également des performances décentes dans les tâches de raisonnement général et de compréhension du langage.

    Par exemple, dans le test de référence MMLU conçu pour évaluer la compréhension du langage dans plusieurs tâches, il a obtenu un score de 79,2. Ce résultat est bien meilleur que celui d'autres modèles spécifiques à un code et presque similaire à celui du Llama-3 70B. GPT-4o et Claude 3 Opus, pour leur part, continuent de mener la catégorie MMLU avec des scores de 88,7 et 88,6, respectivement. Le GPT-4 Turbo suit de près.

    Cette évolution montre que les modèles open source destinés à coder excellent enfin dans tous les domaines (et pas seulement dans leurs principaux cas d'utilisation) et qu'ils se rapprochent des modèles à code fermé de pointe.

    Conclusion

    En somme, l'introduction de DeepSeek-Coder-V2 par les chercheurs représente une avancée significative dans le domaine du code intelligence. En s'attaquant à la disparité de performance entre les modèles open-source et les modèles fermés, cette recherche fournit un outil puissant et accessible pour le codage et le raisonnement mathématique.

    L'architecture du modèle, son vaste ensemble de données d'entraînement et ses performances de référence supérieures soulignent son potentiel à révolutionner le paysage. En tant qu'alternative open-source, DeepSeek-Coder-V2 améliore l'efficacité du codage et encourage l'innovation et la collaboration au sein de la communauté des développeurs de logiciels. Cette recherche souligne l'importance de poursuivre les efforts pour améliorer les modèles open-source, en veillant à ce que tous les outils de codage avancés soient disponibles.

    Dès à présent, DeepSeek Coder V2 est proposé sous une licence MIT, qui permet à la fois la recherche et l'utilisation commerciale sans restriction. Les utilisateurs peuvent télécharger des avatars de base et d'instruction de taille 16B et 236B via Hugging Face. L'entreprise propose également un accès aux modèles via l'API de sa plateforme dans le cadre d'un modèle de paiement à l'utilisation.

    Pour ceux qui souhaitent d'abord tester les capacités des modèles, l'entreprise offre la possibilité d'interagir avec Deepseek Coder V2 par l'intermédiaire d'un chatbot.

    Interagir avec Deepseek Coder V2

    Sources : Deepseek, licence de Deepseek Coder V2 , modèles sur Hugging Face

    Et vous ?

    Quelle est la signification de l’open-source dans le domaine de l’IA ?
    Quelles sont les implications éthiques de l’utilisation de modèles open-source ? Explorez les avantages (accès libre, personnalisation) et les inconvénients (risque de biais, sécurité) de cette approche.
    Comment DeepSeek Coder V2 se compare-t-il aux autres modèles de codage ? Comparez les performances, les fonctionnalités et les cas d’utilisation de ce modèle avec ceux de GPT-4 Turbo et d’autres concurrents.
    Quelles sont les opportunités et les défis pour les développeurs open-source ? Discutez notamment des avantages (communauté, innovation) et des obstacles (financement, maintenance) liés au développement de projets open-source.
    Quel rôle joue la Chine dans l’évolution de l’IA ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Membre éclairé
    Femme Profil pro
    Inscrit en
    Juillet 2012
    Messages
    278
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Italie

    Informations forums :
    Inscription : Juillet 2012
    Messages : 278
    Par défaut
    "I am a closed source AI model developed by DeepSeek, a Chinese company. My code and algorithms are not publicly available for modification or redistribution. If you have any other questions or if there's something specific you'd like to know, please feel free to ask!"

    open-source...

Discussions similaires

  1. [MIDlet Pascal] MIDlet Pascal devient open source dans sa version 3.0
    Par petitprince dans le forum Autres IDE
    Réponses: 24
    Dernier message: 14/07/2010, 00h10
  2. IntelliJ Idea devient Open Source !
    Par Baptiste Wicht dans le forum IntelliJ
    Réponses: 27
    Dernier message: 02/11/2009, 11h46
  3. Réponses: 9
    Dernier message: 14/10/2009, 20h42
  4. Débat : Quel est le meilleur langage pour coder en open-source ?
    Par Katleen Erna dans le forum Actualités
    Réponses: 15
    Dernier message: 17/08/2009, 10h54
  5. Réponses: 11
    Dernier message: 02/08/2007, 15h07

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo