Un nouveau modèle CodeLlama affiné appelé Phind battrait GPT-4 en termes de codage, il serait 5 fois plus rapide et avec une taille de contexte de 16 Ko

L'équipe en charge de Phind a annoncé la sortie d'un nouveau modèle d'IA construit sur la base de CodeLlama-34B. Ce modèle, que Phind utilise désormais par défaut, serait d'après eux capable de surpasser les performances de GPT-4 en termes de codage, tout en étant cinq fois plus rapide pour la génération des réponses aux questions techniques.


Nous sommes heureux d'annoncer que Phind utilise désormais par défaut notre propre modèle qui égale et dépasse les capacités de codage de GPT-4 tout en fonctionnant 5 fois plus vite. Vous pouvez maintenant obtenir des réponses de haute qualité à des questions techniques en 10 secondes au lieu de 50.

Le modèle Phind actuel de 7ème génération est construit sur la base de nos ajustements CodeLlama-34B open-source qui ont été les premiers modèles à battre le score de GPT-4 sur HumanEval et qui sont toujours les meilleurs modèles de codage open-source dans l'ensemble, par une large marge.

  • Le modèle Phind V7 obtient 74,7 % pass@1 sur HumanEval

Ce nouveau modèle a été affiné sur 70B+ tokens supplémentaires de code de haute qualité et de problèmes de raisonnement et affiche un score HumanEval de 74,7 %. Cependant, nous avons constaté que HumanEval est un mauvais indicateur de l'utilité dans le monde réel. Après avoir déployé les itérations précédentes du modèle Phind sur notre service, nous avons recueilli des commentaires détaillés et remarqué que notre modèle correspond ou dépasse l'utilité de GPT-4 la plupart du temps sur des questions du monde réel. De nombreux membres de notre communauté Discord ont commencé à utiliser Phind exclusivement avec le modèle Phind bien qu'ils aient également un accès illimité à GPT-4.

L'un des principaux avantages du modèle Phind est qu'il est très rapide. Nous avons été en mesure de multiplier par 5 la vitesse par rapport à GPT-4 en exécutant notre modèle sur des H100 à l'aide de la nouvelle bibliothèque TensorRT-LLM de NVIDIA, atteignant 100 tokens par seconde en flux unique.

Un autre avantage clé du modèle Phind est le contexte - il supporte jusqu'à 16k tokens. Nous autorisons actuellement la saisie de 12k tokens sur le site web et réservons les 4k tokens restants aux résultats du site web.

Le modèle Phind présente encore quelques imperfections et nous continuerons à l'améliorer en permanence. Un domaine dans lequel il souffre encore est la cohérence - sur certaines questions difficiles où il est capable d'obtenir la bonne réponse, le modèle Phind peut prendre plus de générations pour arriver à la bonne réponse que le GPT-4.
Source : Phind

Et vous ?

Quel est votre avis sur le sujet ?

Pensez-vous que l'affirmation selon laquelle Phind battrait GPT-4 pour le codage soit crédible ?

Quel est votre outil AI préféré pour le codage ? GPT 4 ? Copilot ? Phind ? Aucun ? Autre ?

Voir aussi

Meta lance un outil d'IA appelé Code Llama capable de générer du code informatique et de déboguer le code écrit par un programmeur, mais les critiques affirment que ces outils ne sont pas fiables

Meta met à disposition son modèle d'intelligence artificielle et de langage étendu, Llama 2, pour une utilisation commerciale par le biais de partenariats avec Microsoft