IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Hugging Face clone l'agent d'IA « Deep Research » d'OpenAI en 24 heures et rend le résultat open source


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 417
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 417
    Par défaut Hugging Face clone l'agent d'IA « Deep Research » d'OpenAI en 24 heures et rend le résultat open source
    OpenAI riposte à DeepSeek avec o3-mini, son nouveau modèle de raisonnement plus intelligent pour les utilisateurs payants et gratuits de ChatGPT, o3-mini est qualifié de « monstre de codage ultra-rapide »

    OpenAI a introduit o3-mini, son nouveau modèle de raisonnement d'intelligence artificielle (IA) conçu pour améliorer la vitesse et la précision par rapport au modèle précédent o1. Il s'agit de la première fois que les utilisateurs gratuits de ChatGPT peuvent accéder à un modèle de raisonnement, même si les limites de vitesse sont semblables à celles de GPT-4o. Annoncé en décembre 2024, o3-mini est optimisé pour les tâches de mathématiques, de codage et de sciences. Il fournit des réponses 24 % plus rapidement qu'o1 tout en maintenant les niveaux de performance.

    Ce développement fait suite au récent lancement du modèle de raisonnement chinois DeepSeek-R1, qui offre des performances similaires à o1 d'OpenAI pour 95 % moins cher, selon les benchmarks de la startup chinoise.

    L'une des principales caractéristiques d'o3-mini est sa capacité à expliquer le raisonnement qui sous-tend ses réponses, ce qui va bien au-delà de la simple fourniture de résultats. Des benchmarks réalisés en décembre ont montré que o3 surpassait o1 dans les tâches de raisonnement et de codage, et OpenAI confirme que o3-mini surpasse o1 avec un coût et un temps de latence réduits.

    OpenAI o3-mini est le modèle le plus récent et le plus économique de la série de modèles de raisonnement d'OpenAI. Prévu initialement pour décembre 2024, le modèle repousse les limites de ce que les petits modèles peuvent réaliser, offrant des capacités STEM (Science, Technologie, Ingénierie et Mathématiques) exceptionnelles - avec une force particulière dans les sciences, les mathématiques et le codage - tout en conservant le faible coût et la latence réduite de l'OpenAI o1-mini.


    OpenAI o3-mini est le premier modèle de raisonnement de petite taille qui prend en charge les fonctionnalités très demandées par les développeurs, notamment l'appel de fonction, les sorties structurées et les messages de développeur, ce qui le rend prêt pour la production dès le départ. Comme OpenAI o1-mini et OpenAI o1-preview, o3-mini supportera le streaming . De plus, les développeurs peuvent choisir entre trois options d'effort de raisonnement - faible, moyen et élevé - afin d'optimiser leurs cas d'utilisation spécifiques. Cette flexibilité permet à o3-mini de « penser plus fort » lorsqu'il s'agit de relever des défis complexes ou de donner la priorité à la vitesse lorsque la latence est un problème. Cependant, o3-mini ne prend pas en charge les capacités de vision, les développeurs doivent donc continuer à utiliser OpenAI o1 pour les tâches de raisonnement visuel.

    o3-mini est déployé dans l'API Chat Completions, l'API Assistants et l'API Batch à partir de ce 31 janvier 2025 pour les développeurs sélectionnés dans les niveaux d'utilisation 3 à 5 de l'API.

    Les utilisateurs de ChatGPT Plus, Team et Pro peuvent accéder à OpenAI o3-mini à partir d'aujourd'hui, avec un accès Enterprise en février. o3-mini remplacera OpenAI o1-mini dans le sélecteur de modèle, offrant des limites de taux plus élevées et une latence plus faible, ce qui en fait un choix convaincant pour le codage, les STEM et les tâches de résolution de problèmes logiques.

    Dans le cadre de la mise à jour, OpenAI a triplé les limites de messages pour les utilisateurs Plus et Team, passant de 50 messages par jour avec o1-mini à 150 messages par jour avec o3-mini. En outre, o3-mini fonctionne désormais avec la recherche pour trouver des réponses actualisées avec des liens vers des sources web pertinentes. Il s'agit d'un premier prototype, car OpenAI travaille actuellement à l'intégration de la recherche dans ses modèles de raisonnement.

    À partir de ce 31 janvier, les utilisateurs du plan gratuit peuvent également essayer OpenAI o3-mini en sélectionnant « Raisonner » dans le compositeur de messages ou en régénérant une réponse. C'est la première fois qu'un modèle de raisonnement est mis à la disposition des utilisateurs gratuits de ChatGPT.

    Alors qu'OpenAI o1 reste le modèle de raisonnement de connaissances générales le plus large de l'entreprise, o3-mini fournit une alternative spécialisée pour les domaines techniques nécessitant précision et rapidité. Dans ChatGPT, o3-mini utilise un effort de raisonnement moyen pour fournir un compromis équilibré entre vitesse et précision. Tous les utilisateurs payants auront également la possibilité de sélectionner o3-mini-high dans le sélecteur de modèle pour une version d'intelligence supérieure qui prend un peu plus de temps pour générer des réponses. Les utilisateurs professionnels auront un accès illimité à o3-mini et o3-mini-high.

    Rapide, puissante et optimisée pour le raisonnement STEM

    Tout comme son prédécesseur OpenAI o1, OpenAI o3-mini a été optimisé pour le raisonnement STEM. o3-mini, avec un effort de raisonnement moyen, égale les performances de o1 en mathématiques, codage et sciences, tout en fournissant des réponses plus rapides. Les évaluations des testeurs experts ont montré que o3-mini produit des réponses plus précises et plus claires, avec des capacités de raisonnement plus fortes, que l'OpenAI o1-mini.

    Les testeurs ont préféré les réponses de o3-mini à celles de o1-mini dans 56 % des cas et ont observé une réduction de 39 % des erreurs majeures sur des questions difficiles du monde réel.

    Avec un effort de raisonnement moyen, o3-mini égale les performances de o1 sur certaines des évaluations de raisonnement et d'intelligence les plus difficiles, y compris AIME et GPQA.

    Concours de mathématiques (AIME 2024)

    Avec un faible effort de raisonnement, l'OpenAI o3-mini atteint des performances comparables à celles de l'OpenAI o1-mini, tandis qu'avec un effort moyen, l'o3-mini atteint des performances comparables à celles de l'o1. En revanche, avec un effort de raisonnement élevé, o3-mini surpasse à la fois OpenAI o1-mini et OpenAI o1, où les régions grisées montrent la performance du vote majoritaire (consensus) avec 64 échantillons.

    Nom : o3-mini fig1.PNG
Affichages : 25657
Taille : 88,0 Ko

    Questions scientifiques de niveau doctoral (GPQA Diamond)

    Sur les questions de biologie, de chimie et de physique de niveau doctoral, avec un faible effort de raisonnement, OpenAI o3-mini atteint des performances supérieures à OpenAI o1-mini. Avec un effort élevé, o3-mini atteint des performances comparables à celles de o1.

    Nom : o3-mini fig2.PNG
Affichages : 6921
Taille : 68,0 Ko

    Mathématiques pour la recherche (FrontierMath)

    L'OpenAI o3-mini avec un raisonnement poussé obtient de meilleurs résultats que son prédécesseur sur FrontierMath. Sur FrontierMath, lorsqu'il est invité à utiliser un outil Python, o3-mini avec un effort de raisonnement élevé résout plus de 32 % des problèmes du premier coup, dont plus de 28 % des problèmes difficiles (T3). Ces chiffres sont provisoires, et le graphique ci-dessous montre les performances sans outils ni calculatrice.

    Nom : o3-mini fig3.PNG
Affichages : 6892
Taille : 5,3 Ko

    Compétition de code (Codeforces)

    Sur la programmation compétitive de Codeforces, OpenAI o3-mini atteint des scores Elo progressivement plus élevés avec un effort de raisonnement accru, surpassant tous o1-mini. Avec un effort de raisonnement moyen, elle égale les performances de o1.

    Nom : o3-mini fig4.PNG
Affichages : 6914
Taille : 60,6 Ko

    Génie logiciel (SWE-bench vérifié)

    o3-mini est le modèle publié le plus performant d'OpenAI sur SWEbench-verified. Pour des données supplémentaires sur les résultats de SWE-bench Verified avec un effort de raisonnement élevé, y compris avec l'échafaudage Agentless open-source (39?%) et un échafaudage d'outils internes (61?%), voir la fiche du système o3-mini.

    Nom : o3-mini fig5.PNG
Affichages : 6889
Taille : 55,7 Ko

    Codage LiveBench

    OpenAI o3-mini surpasse o1-high même à un effort de raisonnement moyen, soulignant son efficacité dans les tâches de codage. À un effort de raisonnement élevé, o3-mini accroît encore son avance, obtenant des performances nettement plus élevées sur les mesures clés.

    Nom : o3-mini fig6.PNG
Affichages : 6870
Taille : 8,8 Ko

    Connaissances générales

    o3-mini surpasse o1-mini dans les évaluations de connaissances dans les domaines de connaissances générales.

    Nom : o3-mini fig7.PNG
Affichages : 6855
Taille : 10,6 Ko

    Évaluation des préférences humaines

    Les évaluations réalisées par des testeurs experts externes montrent également que l'OpenAI o3-mini produit des réponses plus précises et plus claires, avec des capacités de raisonnement plus fortes que l'OpenAI o1-mini, en particulier dans le domaine des STEM. Les testeurs ont préféré les réponses de o3-mini à celles de o1-mini dans 56 % des cas et ont observé une réduction de 39 % des erreurs majeures dans les questions difficiles du monde réel.

    Nom : o3-mini fig8.PNG
Affichages : 6850
Taille : 71,6 Ko

    Vitesse et performance du modèle

    Avec une intelligence comparable à celle de l'OpenAI o1, l'OpenAI o3-mini offre des performances plus rapides et une efficacité accrue. Au-delà des évaluations STEM mises en évidence ci-dessus, o3-mini démontre des résultats supérieurs dans des évaluations mathématiques et factuelles supplémentaires avec un effort de raisonnement moyen. Dans les tests A/B, o3-mini a fourni des réponses 24?% plus rapidement que o1-mini, avec un temps de réponse moyen de 7,7 secondes contre 10,16 secondes.

    Comparaison de la latence entre o1-mini et o3-mini

    Nom : o3-mini fig9.PNG
Affichages : 6826
Taille : 44,0 Ko

    OpenAI o3-mini a un temps moyen de 2500 ms plus rapide que o1-mini pour obtenir le premier jeton.

    Sécurité

    L'une des techniques clés utilisées par OpenAI pour apprendre à o3-mini à réagir en toute sécurité est l'alignement délibératif, où le modèle est entraîné à raisonner sur des spécifications de sécurité écrites par l'homme avant de répondre aux invites de l'utilisateur. Comme pour o1, il ressort que o3-mini surpasse de manière significative GPT-4o dans les évaluations de sécurité et de jailbreak les plus difficiles. Avant le déploiement, OpenAI a soigneusement évalué les risques de sécurité de o3-mini en utilisant la même approche de préparation, de red-teaming externe et d'évaluations de sécurité que o1.

    Les détails des évaluations ci-dessous, ainsi qu'une explication complète des risques potentiels et de l'efficacité des mesures d'atténuation d'OpenAI, sont disponibles dans la fiche du système o3-mini.

    Évaluations des contenus interdits

    Nom : o3-mini fig10.PNG
Affichages : 6809
Taille : 12,2 Ko

    Évaluations Jailbreak

    Nom : o3-mini fig11.PNG
Affichages : 6823
Taille : 10,3 Ko

    Prochaines étapes

    La sortie d'OpenAI o3-mini marque une nouvelle étape dans la mission d'OpenAI qui consiste à repousser les limites de l'intelligence rentable. En optimisant le raisonnement pour les domaines STEM tout en maintenant les coûts bas, OpenAI a rendu l'IA de haute qualité encore plus accessible.

    Le modèle o3-mini s'inscrit dans la continuité de l'action d'OpenAI visant à réduire le coût de l'intelligence (réduction du prix par jeton de 95 % depuis le lancement de GPT-4), tout en maintenant des capacités de raisonnement de premier plan. Dans un contexte d'adoption croissante de l'IA, OpenAI a réaffirmé son engagement à se positionner à l'avant-garde de la technologie en concevant des modèles qui optimisent l'intelligence, l'efficacité et la sécurité à grande échelle.

    Alors que les modèles d'IA comme o3-mini continuent de repousser les limites de l'automatisation, l'essor des outils de codage pilotés par l'IA a suscité un débat continu sur l'avenir du développement logiciel, de sorte qu'il est difficile à l'heure actuelle de déterminer qui a raison.

    En effet, selon le PDG de Nvidia, Jensen Huang, l'apprentissage de la programmation sera inutile à l'avenir car l'IA permettra à n'importe qui d'écrire du code en utilisant le langage naturel. D'autre part, des chercheurs de l'université de Princeton suggèrent que l'IA générative ne remplacera pas les développeurs de sitôt, car le développement de logiciels va bien au-delà des tâches de complétion de code. La question de savoir si l'IA va finir par rendre les programmeurs humains obsolètes ou si elle va plutôt redéfinir leurs rôles reste ainsi à l'ordre du jour.

    Source : OpenAI

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous du modèle d'IA o3-mini d'OpenAI ? Le trouvez-vous utile et intéressant ?

    Voir aussi :

    Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes, car o1 réfléchit avant de répondre

    OpenAI lance des modèles d'IA dotés de capacités de « raisonnement » semblables à celles d'une personne, les modèles « Strawberry » peuvent décomposer des problèmes complexes en étapes logiques plus petites

    Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 959
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 959
    Par défaut OpenAI annonce un nouvel agent de "recherche approfondie" dans ChatGPT
    OpenAI annonce un nouvel agent ChatGPT de "recherche approfondie", alimenté par le dernier modèle o3, affirmant qu'il accomplit en quelques dizaines de minutes ce qui prendrait de nombreuses heures à un humain.

    OpenAI a intensifié son développement d'agents d'intelligence artificielle (IA) en annonçant un nouvel outil permettant de rédiger des rapports qui, selon elle, peuvent égaler les résultats d'un analyste de recherche. Le développeur de ChatGPT a déclaré que le nouvel outil, "deep research", "accomplit en 10 minutes ce qui prendrait de nombreuses heures à un humain". "Deep Research" est un agent d'IA alimenté par une version du dernier modèle de pointe d'OpenAI, o3.

    Fin janvier 2025, OpenAI a introduit o3-mini, son nouveau modèle de raisonnement d'intelligence artificielle (IA) conçu pour améliorer la vitesse et la précision par rapport au modèle précédent o1. Il s'agit de la première fois que les utilisateurs gratuits de ChatGPT peuvent accéder à un modèle de raisonnement, même si les limites de vitesse sont semblables à celles de GPT-4o. Annoncé en décembre 2024, o3-mini est optimisé pour les tâches de mathématiques, de codage et de sciences. Il fournit des réponses 24 % plus rapidement qu'o1 tout en maintenant les niveaux de performance.

    Puis, le 2 février, OpenAI a présenté son agent de recherche approfondie (Deep research) en affirmant qu'il accomplit en quelques dizaines de minutes ce qui prendrait de nombreuses heures à un humain. "Deep research est le prochain agent d'OpenAI qui peut travailler pour vous de manière indépendante - vous lui donnez un ordre et ChatGPT trouvera, analysera et synthétisera des centaines de sources en ligne pour créer un rapport complet au niveau d'un analyste de recherche", a déclaré l'entreprise technologique.

    L'entreprise l'a décrit comme marquant "une étape importante vers notre objectif plus large de développement de l'AGI, que nous envisageons depuis longtemps comme capable de produire de nouvelles recherches scientifiques". Baptisé "deep research", l'agent a été conçu et construit pour les personnes qui effectuent un travail intensif dans des domaines tels que la finance, la science, la politique et l'ingénierie, car il se nourrit de "recherches approfondies, précises et fiables".

    L'agent sera alimenté par une version du modèle o3 d'OpenAI, qui sera optimisé pour la navigation sur le web et l'analyse de données. Parmi ses principales caractéristiques, citons le raisonnement permettant de rechercher, d'interpréter et d'analyser de grandes quantités de textes, d'images et de fichiers PDF sur l'internet. Comme cas d'utilisation, l'agent serait utile pour les acheteurs avisés qui recherchent des recommandations hyperpersonnalisées pour des achats qui nécessiteraient habituellement beaucoup de recherches, comme les voitures ou les appareils électroménagers.


    Pour utiliser la recherche approfondie, dans ChatGPT, sélectionnez "Deep research" dans le compositeur de messages et entrez votre requête. Dites à ChatGPT ce dont vous avez besoin. Vous pouvez joindre des fichiers ou des feuilles de calcul pour ajouter du contexte à votre question. Une fois la recherche lancée, une barre latérale s'affiche avec un résumé des étapes suivies et des sources utilisées. La recherche approfondie peut prendre de 5 à 30 minutes, le temps de se plonger dans le web. Pendant ce temps, vous pouvez vous éloigner ou travailler sur d'autres tâches : vous recevrez une notification une fois la recherche terminée. Le résultat final se présente sous la forme d'un rapport dans le chat.

    La recherche approfondie dans ChatGPT est actuellement très gourmande en calcul. Plus la recherche d'une requête est longue, plus le calcul de l'inférence est nécessaire. OpenAI lance une première version optimisée pour les utilisateurs Pro, avec un maximum de 100 requêtes par mois. Les utilisateurs Plus et Team y auront ensuite accès, suivis par les utilisateurs Enterprise. OpenAI affirme que tous les utilisateurs payants bénéficieront bientôt de limites tarifaires nettement plus élevées lorsqu'une version plus rapide et plus rentable de la recherche approfondie sera disponible.

    Voici l'annonce d'OpenAI :

    Nous lançons aujourd'hui la recherche approfondie sur ChatGPT, une nouvelle capacité agentique qui effectue des recherches en plusieurs étapes sur l'internet pour des tâches complexes. Elle accomplit en quelques dizaines de minutes ce qui prendrait des heures à un humain.

    Deep research est le prochain agent d'OpenAI qui peut faire du travail pour vous de manière autonome - vous lui donnez un ordre, et ChatGPT trouvera, analysera et synthétisera des centaines de sources en ligne pour créer un rapport complet au niveau d'un analyste de recherche. Alimenté par une version du futur modèle OpenAI o3 optimisé pour la navigation sur le web et l'analyse de données, il s'appuie sur le raisonnement pour rechercher, interpréter et analyser des quantités massives de textes, d'images et de PDF sur Internet, en pivotant si nécessaire en réaction aux informations qu'il rencontre.

    La capacité à synthétiser les connaissances est une condition préalable à la création de nouvelles connaissances. C'est pourquoi la recherche approfondie constitue une étape importante vers notre objectif plus large de développement de l'intelligence artificielle, que nous envisageons depuis longtemps comme capable de produire de nouvelles recherches scientifiques.

    Pourquoi nous avons conçu la recherche approfondie

    La recherche approfondie est destinée aux personnes qui effectuent un travail intensif dans des domaines tels que la finance, la science, la politique et l'ingénierie, et qui ont besoin de recherches approfondies, précises et fiables. Elle peut également s'avérer utile pour les acheteurs avisés qui recherchent des recommandations hyperpersonnalisées pour des achats qui nécessitent généralement des recherches approfondies, comme les voitures, les appareils électroménagers et les meubles. Chaque résultat est entièrement documenté, avec des citations claires et un résumé de la réflexion, ce qui facilite la référence et la vérification des informations. Il est particulièrement efficace pour trouver des informations spécialisées et non intuitives qui nécessiteraient de parcourir de nombreux sites web. La recherche approfondie vous fait gagner un temps précieux en vous permettant de vous décharger et d'accélérer des recherches complexes et fastidieuses sur le web à l'aide d'une seule requête.

    La recherche approfondie découvre, raisonne et consolide de manière indépendante des informations provenant de l'ensemble du web. Pour ce faire, il a été formé à des tâches réelles nécessitant l'utilisation d'un navigateur et d'outils Python, en utilisant les mêmes méthodes d'apprentissage par renforcement que celles utilisées par OpenAI o1, notre premier modèle de raisonnement. Alors que o1 démontre des capacités impressionnantes dans le codage, les mathématiques et d'autres domaines techniques, de nombreux défis du monde réel exigent un contexte étendu et la collecte d'informations à partir de diverses sources en ligne. Deep research s'appuie sur ces capacités de raisonnement pour combler ce fossé, ce qui lui permet de s'attaquer aux types de problèmes auxquels les gens sont confrontés au travail et dans la vie de tous les jours.
    Comment Deep Research fonctionne ?

    Deep Research a été formé à l'aide de l'apprentissage par renforcement de bout en bout sur des tâches difficiles de navigation et de raisonnement dans un large éventail de domaines. Grâce à cette formation, il a appris à planifier et à exécuter une trajectoire en plusieurs étapes pour trouver les données dont il a besoin, en revenant en arrière et en réagissant aux informations en temps réel si nécessaire.

    Le modèle est également capable de parcourir les fichiers téléchargés par les utilisateurs, de tracer et d'itérer sur des graphiques à l'aide de l'outil python, d'intégrer dans ses réponses des graphiques générés et des images provenant de sites web, et de citer des phrases ou des passages spécifiques de ses sources. Grâce à cette formation, il atteint de nouveaux sommets dans un certain nombre d'évaluations publiques axées sur des problèmes réels.

    • Humanity's Last Exam

      Sur Humanity's Last Exam, une évaluation récemment publiée qui teste l'IA sur un large éventail de sujets et sur des questions de niveau expert, le modèle qui alimente la recherche approfondie atteint un nouveau record avec une précision de 26,6 %. Ce test comprend plus de 3 000 questions à choix multiple et à réponse courte portant sur plus de 100 sujets, de la linguistique à la science des fusées, en passant par les sciences classiques et l'écologie. Par rapport à OpenAI o1, les gains ont été enregistrés en chimie, en sciences humaines et sociales et en mathématiques.

      Nom : 1.jpg
Affichages : 6425
Taille : 33,8 Ko

    • GAIA

      Sur GAIA, un benchmark public qui évalue l'IA sur des questions du monde réel, le modèle qui alimente la recherche approfondie atteint un nouvel état de l'art (SOTA), se plaçant en tête du classement externe. Comprenant des questions de trois niveaux de difficulté, la réussite de ces tâches requiert des capacités de raisonnement, de fluidité multimodale, de navigation sur le web et d'utilisation d'outils.

      Nom : 2.jpg
Affichages : 2032
Taille : 18,9 Ko

    • Tâches de niveau expert

      Lors d'une évaluation interne des tâches de niveau expert dans une série de domaines, la recherche approfondie a été jugée par les experts du domaine comme ayant automatisé plusieurs heures d'investigations manuelles difficiles.

      Nom : 3.jpg
Affichages : 2033
Taille : 59,2 Ko


    La recherche approfondie permet de débloquer de nouvelles capacités importantes, mais elle n'en est qu'à ses débuts et présente des limites. Elle peut parfois halluciner des faits dans les réponses ou faire des déductions incorrectes, bien qu'à un taux inférieur à celui des modèles ChatGPT existants, selon des évaluations internes d'OpenAI. Il peut avoir du mal à distinguer les informations faisant autorité des rumeurs et montre actuellement des faiblesses dans l'étalonnage de la confiance, ne parvenant souvent pas à exprimer l'incertitude de manière précise. Au lancement, il peut y avoir des erreurs de formatage dans les rapports et les citations, et les tâches peuvent prendre plus de temps à démarrer.

    OpenAI conclut son annonce en énonçant la prochaine étape pour son agent Deep Research :

    Deep Research est disponible dès aujourd'hui sur ChatGPT web, et sera étendue aux applications mobiles et de bureau dans le courant du mois. Actuellement, la recherche approfondie peut accéder au web ouvert et à tous les fichiers téléchargés. À l'avenir, vous pourrez vous connecter à des sources de données plus spécialisées - en élargissant son accès à des ressources internes ou sur abonnement - afin de rendre ses résultats encore plus robustes et personnalisés.

    À plus long terme, nous envisageons que les expériences agentiques se rejoignent dans ChatGPT pour une recherche et une exécution asynchrones dans le monde réel. La combinaison de la recherche approfondie, qui peut effectuer une investigation en ligne asynchrone, et de l'opérateur, qui peut prendre des mesures dans le monde réel, permettra à ChatGPT d'effectuer des tâches de plus en plus sophistiquées pour vous.
    Et vous ?

    Pensez-vous que ce nouvel agent de ChatGPT est crédible ou pertinent ?
    Quel est votre avis sur cette fonctionnalité ?

    Voir aussi :

    OpenAI a publié un aperçu de recherche de son nouvel agent d'IA Operator, qui contrôle votre navigateur pour effectuer des tâches à votre place sur le web

    OpenAI annonce o3 et o3-mini, ses prochains modèles de raisonnement simulé, o3 correspond aux niveaux humains sur le benchmark ARC-AGI et o3-mini dépasse o1 dans certaines tâches

    Un autre chercheur d'OpenAI démissionne et affirme que les laboratoires d'IA prennent un « pari très risqué » avec l'humanité dans la course vers l'AGI, ce qui pourrait avoir « d'énormes inconvénients »
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  3. #3
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    1 108
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 108
    Par défaut Hugging Face clone l'agent d'IA « Deep Research » d'OpenAI en 24 heures et rend le résultat open source
    Hugging Face clone l'agent d'IA « Deep Research » d'OpenAI en 24 heures et rend le résultat open source
    après que des chercheurs ont créé un équivalent ouvert du modèle o1 d'OpenAI pour seulement 50 $

    Les chercheurs de Hugging Face ont présenté un nouveau modèle appelé « Open Deep Research ». Il s'agit d'un clone du dernier modèle « Deep Research », un agent d'IA capable de sonder le Web en profondeur de manière autonome et de proposer des rapports de recherche détaillés sur un sujet donné. L'équipe dit avoir créé Open Deep Research en seulement 24 heures et a déclaré qu'il affiche des performances proches de celles du modèle original d'OpenAI. L'équipe estime que le projet vise à égaler les performances de Deep Research tout en mettant la technologie gratuitement à la disposition des développeurs. Le code est disponible sur GitHub.

    Deep Research d'OpenAI est cloné seulement 24 heures après sa sortie

    OpenAI a lancé Deep Research le 2 février 2025 et a déclaré qu'il accomplit en quelques dizaines de minutes ce qui prendrait de nombreuses heures à un humain. « Deep Research peut travailler pour vous de manière indépendante ; vous lui donnez un ordre et ChatGPT trouvera, analysera et synthétisera des centaines de sources en lignes pour créer un rapport complet du niveau d'un analyste de recherche », a expliqué OpenAI à propos de son nouveau modèle.

    L'équipe de Hugging Face s'est dite « époustouflée » par ce modèle d'IA après l'avoir essayé. Les chercheurs de Hugging Face ont donc décidé de reproduire (copier) Deep Research et de mettre le résultat à la disposition de tout le monde gratuitement. C'est ce qu'ils ont réussi à faire en seulement 24 heures.

    Une équipe de chercheurs de l'université de Stanford et de l'université de Washington a récemment annoncé avoir formé un modèle d'IA axé sur le raisonnement en moins d'une demi-heure et pour moins de 50 $. Ils ont utilisé la méthode controversée de « distillation » désapprouvée par certains Big Tech.

    Citation Envoyé par L'équipe de recherche de Hugging Face

    Alors que de puissants LLM sont désormais disponibles en open source, OpenAI n'a pas divulgué beaucoup d'informations sur le cadre agentique qui sous-tend Deep Research. Nous avons donc décidé de nous lancer dans une mission de 24 heures pour reproduire leurs résultats et rendre open source le cadre nécessaire en cours de route.
    À l'instar de Deep Research d'OpenAI, la solution de Hugging Face ajoute un agent à un modèle d'IA existant pour lui permettre d'effectuer des tâches en plusieurs étapes, telles que la collecte d'informations et l'élaboration au fur et à mesure d'un rapport qu'il présente à l'utilisateur à la fin.

    Le clone open source obtient déjà des résultats comparables. Open Deep Research de Hugging Face a atteint une précision de 55,15 % sur le benchmark General AI Assistants (GAIA), qui teste la capacité d'un modèle à rassembler et à synthétiser des informations provenant de sources multiples.

    À titre de comparaison, le modèle propriétaire Deep Research d'OpenAI a obtenu une précision de 67,36 % sur le même benchmark avec une réponse en un seul passage (le score d'OpenAI est passé à 72,57 % lorsque 64 réponses ont été combinées à l'aide d'un mécanisme de consensus).

    Comment est construit le modèle Open Deep Research de Hugging Face

    Un agent d'IA n'est rien sans un modèle d'IA existant à la base. Pour l'instant, Open Deep Research s'appuie sur les grands modèles de langage d'OpenAI (tels que GPT-4o) ou les modèles axés sur le raisonnement (tels que o1 et o3-mini) par le biais d'une API. Mais il peut aussi être adapté aux modèles à poids ouvert.

    La nouveauté réside dans la structure agentique qui maintient l'ensemble et permet à un modèle de langage d'IA d'effectuer une tâche de recherche de manière autonome. Aymeric Roucher, de Hugging Face, qui dirige le projet Open Deep Research, a déclaré que l'équipe a choisi d'utiliser un modèle fermé (Deep Research d'OpenAI) simplement parce qu'il fonctionnait bien. L'équipe a expliqué tout le processus de développement et le code a été publié.

    Nom : code_agent.png
Affichages : 60265
Taille : 289,8 Ko

    Il est possible d'utiliser également des modèles open source. « Il est possible de passer à n'importe quel autre modèle, de sorte qu'il prend en charge un pipeline entièrement ouvert. J'ai essayé un certain nombre de LLM, y compris [DeepSeek] R1 et o3-mini. Et pour ce cas d'utilisation, c'est o1 qui a le mieux fonctionné. Mais avec l'initiative open-R1 que nous avons lancée, nous pourrions remplacer o1 par un meilleur modèle ouvert », a-t-il déclaré.

    Bien que le modèle au cœur de l'agent de recherche soit important, Open Deep Research montre que la construction de la bonne couche agentique est essentielle, car les benchmarks montrent que l'approche agentique en plusieurs étapes améliore considérablement la capacité des grands modèles de langage : GPT-4o d'OpenAI seul (sans cadre agentique) obtient un score moyen de 29 % sur le benchmark GAIA, contre 67 % pour OpenAI Deep Research.

    Selon Aymeric Roucher, c'est un élément essentiel de la reproduction de Hugging Face qui permet au projet de fonctionner aussi bien. Ils ont utilisé la bibliothèque open source « smolagents » de Hugging Face, qui utilise ce qu'ils appellent des « agents de code » plutôt que des agents basés sur JSON.

    Ces agents de code écrivent leurs actions en code de programmation, ce qui les rendrait 30 % plus efficaces dans l'accomplissement des tâches. Selon les chercheurs, cette approche permet au système de gérer des séquences d'actions complexes de manière plus concise.

    Évolution potentielle du projet Open Deep Research de Hugging Face

    Bien que le projet open source Open Deep Research n'atteigne pas encore les performances du modèle propriétaire Deep Research d'OpenAI, sa publication permet aux développeurs d'étudier et de modifier librement la technologie. Le projet démontre la capacité de la communauté des chercheurs à reproduire rapidement et à partager ouvertement des capacités d'IA qui n'étaient auparavant disponibles que par l'intermédiaire de fournisseurs commerciaux.

    Selon Aymeric Roucher, les améliorations futures du modèle pourraient inclure la prise en charge d'un plus grand nombre de formats de fichiers et des capacités de navigation sur le Web basées sur la vision. Hugging Face travaille déjà sur le clonage du modèle Operator d'OpenAI, qui peut effectuer d'autres types de tâches (telles que la visualisation d'écrans d'ordinateur et le contrôle des entrées de souris et de clavier) dans un environnement de navigateur Web.

    Hugging Face a publié le code du projet Open Deep Research sur GitHub et a ouvert des postes d'ingénieurs pour aider à développer les capacités du projet. « La réponse a été formidable. Nous avons beaucoup de nouveaux contributeurs qui participent et proposent des ajouts », a déclaré Aymeric Roucher.

    « C'est un peu comme attraper la vague en surfant, la communauté est vraiment une force puissante », a-t-il ajouté.

    Des chercheurs ont formé un rival du modèle o1 d'OpenAI pour moins de 50 $

    Des chercheurs de Stanford et de l'université de Washington ont formé un modèle d'IA axé sur le raisonnement en moins d'une demi-heure et pour moins de 50 $. Le modèle, appelé s1, serait à la hauteur de certains des meilleurs modèles, comme o1 d'OpenAI et R1 de la startup chinoise DeepSeek, en particulier en ce qui concerne les compétences en mathématique et en codage. L'équipe a utilisé la « distillation » pour puiser dans le modèle Gemini de Google.

    Les chercheurs ont présenté le modèle s1 dans un article publié au début du mois. L'article explique que l'équipe a utilisé une méthode connue sous le nom de « distillation » pour affiner s1 en utilisant les réponses du modèle de Google axé sur le raisonnement, Gemini 2.0 Flash Thinking Experimental. L'équipe cherchait l'approche la plus simple pour obtenir de bonnes performances en matière de raisonnement ainsi qu'une « mise à l'échelle du temps de test ».

    En d'autres termes, l'équipe cherchait un moyen de permettre au modèle de « réfléchir » davantage avant de répondre à une question. Le modèle s1 utilise une technique appelée « test-time scaling », qui permet au modèle de « réfléchir » plus longtemps avant de produire une réponse. Comme l'expliquent les chercheurs dans l'article, ils ont également forcé le modèle à poursuivre son raisonnement en ajoutant la mention « Wait » à la réponse du modèle.

    « Cela peut conduire le modèle à revérifier sa réponse, souvent en corrigeant des étapes de raisonnement incorrectes », indique l'article. Il s'agit là de quelques-unes des percées réalisées dans le cadre du projet o1 d'OpenAI, que DeepSeek et d'autres ont tenté de reproduire par le biais de diverses techniques.

    Dans le domaine des grands modèles de langage (LLM), la distillation est le processus de transfert de connaissances d'un grand modèle à un modèle plus petit. Selon plusieurs rapports récents, la startup chinoise DeepSeek a distillé des connaissances à partir des modèles d'OpenAI pour former son modèle d'IA R1.

    Selon l'article, les modèles axés sur le raisonnement peuvent être distillés à partir d'un ensemble de données restreint en utilisant un processus appelé réglage fin supervisé (Supervised Fine-Tuning - SFT), dans lequel un modèle est explicitement chargé d'imiter certains comportements dans un ensemble de données.

    Le réglage fin supervisé est généralement moins coûteux que la méthode d'apprentissage par renforcement (Reinforcement Learning - RL) de DeepSeek, qui oblige l'IA à trouver des solutions par elle-même. Selon les chercheurs, le réglage fin supervisé est également plus rapide et prend moins de temps.

    L'émergence de DeepSeek et des modèles d'IA très performants à bas coûts

    DeepSeek est devenue l'une des principales applications d'IA sur l'App Store d'Apple aux États-Unis et a bouleversé l'industrie technologique en affirmant que son modèle coûte beaucoup moins cher à développer que ses concurrents. Cela a entraîné une chute brutale des cours des actions technologiques américaines. DeepSeek a remis en cause le besoin d'investissements colossaux et d'infrastructures gigantesques dans le développement de modèles d'IA puissants.

    L'avantage tarifaire de l'application reste significatif. Le modèle de DeepSeek n'aurait coûté qu'une fraction de l'argent que les géants américains avaient dépensé pour construire leurs propres modèles. Certains critiques ont plaisanté en disant : « je n'arrive pas à croire que ChatGPT a perdu son emploi à cause de l'IA ».

    Selon les analystes de Jefferies, même en cas d'interdiction totale aux États-Unis, l'impact de DeepSeek sur la baisse des coûts de l'IA persistera, car les entreprises américaines s'efforcent de reproduire sa technologie. Un rapport indique que Meta a créé plusieurs cellules de crise pour disséquer DeepSeek.

    L'émergence des modèles d'IA plus petits et moins chers menace de bouleverser l'ensemble du secteur. Ils pourraient prouver que les grandes entreprises telles que Meta et OpenAI n'ont pas besoin de dépenser des milliards pour former l'IA, avec des centres de données massifs remplis de milliers de GPU Nvidia.

    Meta, Google et Microsoft prévoient d'investir en 2025 des centaines de milliards de dollars dans l'infrastructure de l'IA, qui servira à former les modèles d'IA de la prochaine génération. Ce niveau d'investissement pourrait encore être nécessaire pour repousser les limites de l'innovation en matière d'IA.

    Néanmoins, il est important de souligner que, bien que la distillation s'est avérée être une bonne méthode pour recréer (ou copier) à peu de frais les capacités d'un grand modèle d'IA, elle ne permet pas de créer de nouveaux modèles d'IA bien meilleurs que ceux qui sont disponibles aujourd'hui.

    Sources : Hugging Face, Open Deep Research

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous du modèle open source Open Deep Research de Hugging Face ?
    Quels impacts la publication du modèle Open Deep Research pourrait-elle avoir sur OpenAI ?
    Les consommateurs voudront-ils encore payer pour accéder au modèle payant Deep Research d'OpenAI ?
    Que pensez-vous de la méthode de distillation utilisée pour reproduire les performances des grands modèles de langage (LLM) ?
    Quels impacts les modèles développés à partir de la distillation pourraient avoir sur les grands laboratoires d'IA ?

    Voir aussi

    Des chercheurs ont créé un équivalent open source au modèle de « raisonnement » o1 d'OpenAI pour moins de 50 $, en utilisant la méthode controversée de « distillation » désapprouvée par certains Big Tech

    OpenAI annonce un nouvel agent ChatGPT de "recherche approfondie", alimenté par le dernier modèle o3, affirmant qu'il accomplit en quelques dizaines de minutes ce qui prendrait de nombreuses heures à un humain

    Avec l'apprentissage par renforcement, le LLM open source DeepSeek-R1 correspondrait à o1 d'OpenAI pour 95 % moins cher. R1 est déjà numéro un des téléchargements Apple Store, suivi par ChatGPT

Discussions similaires

  1. OpenAI annonce o3 et o3-mini, ses prochains modèles de raisonnement simulé
    Par Jade Emy dans le forum Intelligence artificielle
    Réponses: 0
    Dernier message: 23/12/2024, 15h17
  2. Réponses: 0
    Dernier message: 03/03/2010, 12h32
  3. Réponses: 0
    Dernier message: 25/02/2010, 12h57
  4. Hardware : Freecom sécurise son nouveau disque dur avec une carte RFID
    Par Emmanuel Chambon dans le forum Actualités
    Réponses: 8
    Dernier message: 16/07/2009, 14h31

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo