IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

L'application d'IA de DeepSeek sera « très probablement » interdite aux États-Unis, selon Jefferies


Sujet :

Intelligence artificielle

  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 965
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 965
    Par défaut L'application d'IA de DeepSeek sera « très probablement » interdite aux États-Unis, selon Jefferies
    Le laboratoire d'IA chinois DeepSeek a publié sa nouvelle famille de modèles R1 sous une licence MIT ouverte, affirmant que le modèle présente des performances comparables au raisonnement simulé o1 d'OpenAI.

    Le laboratoire d'IA chinois DeepSeek a publié une version open source de DeepSeek-R1, son modèle de raisonnement, qui, selon lui, est aussi performant que le modèle o1 d'OpenAI sur certains critères d'évaluation de l'IA. R1 est disponible sur la plateforme de développement d'IA Hugging Face sous licence MIT, ce qui signifie qu'il peut être utilisé commercialement sans restrictions. Selon DeepSeek, R1 bat o1 sur les benchmarks AIME, MATH-500 et SWE-bench Verified.

    Le 20 janvier 2025, le laboratoire d'IA chinois DeepSeek a publié sa nouvelle famille de modèles R1 sous une licence ouverte du MIT, la plus grande version contenant 671 milliards de paramètres. L'entreprise affirme que les performances du modèle sont comparables à celles du modèle de raisonnement simulé (SR) o1 d'OpenAI sur plusieurs points de référence en mathématiques et en codage.

    Parallèlement à la publication des modèles principaux DeepSeek-R1-Zero et DeepSeek-R1, DeepSeek a publié six versions plus petites "DeepSeek-R1-Distill" allant de 1,5 milliard à 70 milliards de paramètres. Ces modèles distillés sont basés sur des architectures open source existantes telles que Qwen et Llama, entraînées à l'aide de données générées par le modèle R1 complet. La plus petite version peut fonctionner sur un ordinateur portable, alors que le modèle complet nécessite des ressources informatiques beaucoup plus importantes.


    Ces versions ont immédiatement attiré l'attention de la communauté de l'IA, car la plupart des modèles de pondération ouverts existants - qui peuvent souvent être exécutés et affinés sur du matériel local - sont restés à la traîne par rapport aux modèles propriétaires tels que le modèle o1 d'OpenAI dans ce que l'on appelle les benchmarks de raisonnement. Bien que les tests de référence n'aient pas encore été vérifiés de manière indépendante, DeepSeek rapporte que R1 a surpassé o1 d'OpenAI sur AIME (un test de raisonnement mathématique), MATH-500 (une collection de problèmes de mots), et SWE-bench Verified (un outil d'évaluation de la programmation).

    "Ils sont TELLEMENT amusants à utiliser, les regarder penser est hilarant", a déclaré Simon Willison, chercheur indépendant en IA. Willison a testé l'un des plus petits modèles et décrit son expérience sur son blog : "Chaque réponse commence par une balise pseudo-XML contenant la chaîne de pensée utilisée pour générer la réponse", notant que même pour des invites simples, le modèle produit un raisonnement interne approfondi avant la sortie.

    Le fait que ces capacités soient disponibles dans un modèle sous licence du MIT que tout le monde peut étudier, modifier ou utiliser commercialement marque potentiellement un changement dans ce qui est possible avec les modèles d'IA accessibles au public. En outre, trois laboratoires chinois - DeepSeek, Alibaba et Kimi de Moonshot AI - ont mis sur le marché des modèles qui égalent les capacités de o1.

    Voici la présentation des modèles par DeepSeek :

    Introduction

    Nous présentons nos modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1. DeepSeek-R1-Zero, un modèle formé par apprentissage par renforcement à grande échelle (RL) sans réglage fin supervisé (SFT) en tant qu'étape préliminaire, a démontré des performances remarquables en matière de raisonnement. Grâce à l'apprentissage par renforcement, DeepSeek-R1-Zero s'est naturellement doté de nombreux comportements de raisonnement puissants et intéressants. Cependant, DeepSeek-R1-Zero rencontre des difficultés telles que des répétitions sans fin, une mauvaise lisibilité et des mélanges de langues. Pour résoudre ces problèmes et améliorer les performances de raisonnement, nous introduisons DeepSeek-R1, qui incorpore des données de départ à froid avant le RL. DeepSeek-R1 atteint des performances comparables à celles d'OpenAI-o1 pour les mathématiques, le code et les tâches de raisonnement. Pour soutenir la communauté des chercheurs, nous avons mis en open source DeepSeek-R1-Zero, DeepSeek-R1 et six modèles denses distillés à partir de DeepSeek-R1, basés sur Llama et Qwen. DeepSeek-R1-Distill-Qwen-32B surpasse OpenAI-o1-mini sur différents benchmarks, atteignant de nouveaux résultats de pointe pour les modèles denses.

    Nom : 1.jpg
Affichages : 24648
Taille : 111,9 Ko

    Résumé du modèle

    Post-entraînement : Apprentissage par renforcement à grande échelle sur le modèle de base

    Nous appliquons directement l'apprentissage par renforcement (RL) au modèle de base sans recourir à un réglage fin supervisé (SFT) en tant qu'étape préliminaire. Cette approche permet au modèle d'explorer la chaîne de pensée (CoT) pour résoudre des problèmes complexes, ce qui a permis de développer DeepSeek-R1-Zero. DeepSeek-R1-Zero démontre des capacités telles que l'auto-vérification, la réflexion et la génération de longues chaînes de pensée, marquant ainsi une étape importante pour la communauté des chercheurs. Il s'agit notamment de la première recherche ouverte à valider le fait que les capacités de raisonnement des LLM peuvent être encouragées uniquement par le biais du RL, sans qu'il soit nécessaire de recourir au SFT. Cette avancée ouvre la voie à de futures avancées dans ce domaine.

    Nous présentons notre processus de développement de DeepSeek-R1. Ce processus comprend deux étapes de RL visant à découvrir des modèles de raisonnement améliorés et à s'aligner sur les préférences humaines, ainsi que deux étapes de SFT qui servent de base aux capacités de raisonnement et de non-raisonnement du modèle. Nous pensons que ce pipeline profitera à l'industrie en créant de meilleurs modèles.

    Distillation : Les petits modèles peuvent aussi être puissants

    Nous démontrons que les schémas de raisonnement des grands modèles peuvent être distillés dans des modèles plus petits, ce qui se traduit par de meilleures performances que les schémas de raisonnement découverts grâce au RL sur les petits modèles. La source ouverte DeepSeek-R1, ainsi que son API, permettra à la communauté des chercheurs de distiller de meilleurs modèles plus petits à l'avenir.

    En utilisant les données de raisonnement générées par DeepSeek-R1, nous avons affiné plusieurs modèles denses qui sont largement utilisés dans la communauté des chercheurs. Les résultats de l'évaluation démontrent que les modèles denses plus petits distillés sont exceptionnellement performants sur les bancs d'essai. Nous mettons à la disposition de la communauté des points de contrôle de 1,5 milliard, 7 milliards, 8 milliards, 14 milliards, 32 milliards et 70 milliards basés sur les séries Qwen2.5 et Llama3.
    Source : Présentation de DeepSeek-R1

    Et vous ?

    Pensez-vous que les performances de ces modèles sont crédibles ou pertinentes ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    L'IA chinoise DeepSeek Coder V2 devient le premier modèle de codage open-source à battre le GPT-4 Turbo d'OpenAI. Elle vise à combler l'écart de performance avec les modèles à source fermée

    Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes car o1 réfléchit avant de répondre

    Gemini 2.0 Flash Thinking Experimental : Pour ne pas être distancé par OpenAI et son modèle o1. Google lance son propre modèle d'IA qui utilise des techniques de « raisonnement »
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Membre actif
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Octobre 2002
    Messages
    132
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Octobre 2002
    Messages : 132
    Par défaut
    Les Chinois sont en train de battre Trump et l’OpenAI

    Le battage médiatique autour de l’intelligence artificielle, la tentative désormais avortée des États-Unis de la monopoliser et la récente riposte de la Chine sont une leçon sur la manière d’innover. Ils montrent également que les États-Unis sont en train de perdre leur capacité à le faire.



    Les politiciens considèrent l’IA comme la prochaine grande chose qui renforcera le contrôle des États-Unis sur le monde. Ils tentent d’empêcher toute concurrence potentielle à l’avance que les États-Unis pensent avoir dans ce domaine. Nvidia, le dernier grand fabricant américain de puces, a perdu des milliards lorsqu’il lui a été interdit de vendre à la Chine ses derniers modèles spécialisés dans l’IA.

    ….

    Les nouveaux modèles DeepSeek ont de meilleures références que tous les autres modèles disponibles. Ils utilisent une combinaison différente de techniques, moins de données d’entraînement et beaucoup moins de puissance de calcul pour y parvenir. Ils sont peu coûteux à utiliser et, contrairement à OpenAI, ils sont totalement open source.



    Forbes explique :

    Les contrôles américains à l’exportation sur les semi-conducteurs avancés étaient destinés à ralentir les progrès de la Chine en matière d’IA, mais ils ont peut-être involontairement stimulé l’innovation. Incapables de s’appuyer uniquement sur le matériel le plus récent, des entreprises comme DeepSeek, basée à Hangzhou, ont été obligées de trouver des solutions créatives pour faire plus avec moins.



    Ce mois-ci, DeepSeek a publié son modèle R1, qui utilise des techniques avancées telles que l’apprentissage par renforcement pur pour créer un modèle qui est non seulement l’un des plus formidables au monde, mais qui est également entièrement open source, ce qui permet à tout le monde de l’examiner, de le modifier et de s’en inspirer.



    Les performances de DeepSeek-R1 sont comparables à celles des meilleurs modèles de raisonnement d’OpenAI pour toute une série de tâches, notamment les mathématiques, le codage et le raisonnement complexe. Par exemple, sur le benchmark de mathématiques AIME 2024, DeepSeek-R1 a obtenu un score de 79,8 % contre 79,2 % pour OpenAI-o1. Sur le test MATH-500, DeepSeek-R1 a obtenu 97,3 % contre 96,4 % pour o1. Dans les tâches de codage, DeepSeek-R1 a atteint le percentile 96,3 sur Codeforces, tandis que o1 a atteint le percentile 96,6 – bien qu’il soit important de noter que les résultats de ces tests peuvent être imparfaits et ne doivent pas être surinterprétés.

    Mais ce qui est le plus remarquable, c’est que DeepSeek a pu atteindre ces résultats en grande partie grâce à l’innovation plutôt qu’en s’appuyant sur les puces informatiques les plus récentes.
    La revue Nature est également impressionnée :

    Un modèle de langage étendu construit en Chine, appelé DeepSeek-R1, enthousiasme les scientifiques, qui le considèrent comme un rival abordable et ouvert aux modèles de « raisonnement » tels que le modèle o1 d’OpenAI.



    « C’est fou et totalement inattendu », a écrit Elvis Saravia, chercheur en IA et cofondateur de la société de conseil en IA DAIR.AI, basée au Royaume-Uni.

    R1 se distingue pour une autre raison. DeepSeek, la start-up de Hangzhou qui a construit le modèle, l’a publié en tant que « poids libre », ce qui signifie que les chercheurs peuvent étudier et développer l’algorithme. Publié sous licence MIT, le modèle peut être librement réutilisé, mais il n’est pas considéré comme entièrement open source, car ses données d’entraînement n’ont pas été mises à disposition.

    « L’ouverture de DeepSeek est tout à fait remarquable », déclare Mario Krenn, directeur du laboratoire de sciences artificielles de l’Institut Max Planck pour la science de la lumière à Erlangen, en Allemagne. En comparaison, o1 et d’autres modèles construits par OpenAI à San Francisco, en Californie, y compris son dernier effort o3, sont « essentiellement des boîtes noires », dit-il.
    DeepSeek démontre qu’il est impossible d’utiliser des barrières commerciales et technologiques pour ralentir la technologie des concurrents. Ceux-ci peuvent, avec des ressources décentes, simplement innover en contournant ces barrières.

    Même avec des milliards de dollars, des marketeurs bruyants comme Trump et des escrocs comme Sam Altman, il est impossible de rivaliser avec succès avec une équipe d’ingénieurs bien formés.

    https://www.moonofalabama.org/2025/0...enai.html#more

  3. #3
    Membre habitué Avatar de JC_DENTON
    Homme Profil pro
    Développeur décisionnel
    Inscrit en
    Septembre 2024
    Messages
    15
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur décisionnel

    Informations forums :
    Inscription : Septembre 2024
    Messages : 15
    Par défaut
    Une compétition ( surtout entre différents pays ) dans ce domaine peut être très bénéfique pour l'innovation.

  4. #4
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 220
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 220
    Par défaut Le LLM open source DeepSeek-R1 correspondrait à o1 d'OpenAI en 95 % moins cher
    Avec l'apprentissage par renforcement, le LLM open source DeepSeek-R1 correspondrait à o1 d'OpenAI pour 95 % moins cher.
    R1 est déjà numéro un des téléchargements Apple Store, suivi par ChatGPT

    La sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA, bouleversant les hypothèses sur ce qui est nécessaire pour atteindre des performances d'IA de pointe. Ce modèle open-source, qui correspondrait à l'o1 d'OpenAI pour seulement 3 à 5 % du coût selon le benchmark de la startup éponyme, a non seulement captivé les développeurs, mais a également incité les entreprises à repenser leurs stratégies en matière d'IA.

    Les utilisateurs font remarquer que la fonction de recherche associée à DeepSeek (que vous pouvez trouver sur le site de DeepSeek) est désormais supérieure à des concurrents comme OpenAI et Perplexity, et n'est concurrencée que par Gemini Deep Research de Google. Mais certains chercheurs estiment que les tests de référence ne sont pas la meilleure mesure du succès.

    Pour les entreprises qui développent des solutions basées sur l'IA, la percée de DeepSeek remet en question les hypothèses sur la domination d'OpenAI et offre un modèle d'innovation rentable.


    Contexte

    Le fait qu'une startup chinoise peu connue soit en train de combler l'écart avec certaines des plus grandes entreprises technologiques du monde avec beaucoup moins de ressources pourrait réduire à néant les efforts déployés par les États-Unis pour créer un fossé en matière d'IA face aux concurrents mondiaux. Après l'investiture du président Donald Trump, OpenAI a annoncé Stargate, une coentreprise avec le gouvernement fédéral pour dépenser 500 milliards de dollars dans l'infrastructure de l'IA au cours des quatre prochaines années.

    Le 20 janvier, DeepSeek, dirigé par le gestionnaire de fonds spéculatifs chinois Liang Wenfeng, a publié R1 sous une licence ouverte du MIT, la plus grande version contenant 671 milliards de paramètres. Elle a pris la Silicon Valley et le monde de l'IA par surprise, car, selon un document rédigé par l'entreprise, DeepSeek-R1 bat les principaux modèles du secteur, comme OpenAI o1, sur plusieurs critères mathématiques et de raisonnement. En fait, sur de nombreux critères importants (capacité, coût, ouverture), DeepSeek donne du fil à retordre aux géants occidentaux de l'IA.

    Ces entreprises américaines ont investi des milliards de dollars dans l'acquisition de puces et de données hautement perfectionnées afin de construire des modèles capables de résoudre des problèmes complexes. DeepSeek, quant à elle, semble construire des modèles capables d'atteindre des niveaux de performance similaires, pour une fraction du coût.

    L'innovation née d'une crise : R1 est si efficace qu'il a nécessité un dixième de la puissance de calcul du modèle Llama 3.1 de Meta

    En octobre 2022, le gouvernement américain a commencé à mettre en place des contrôles à l'exportation qui restreignaient considérablement l'accès des entreprises chinoises spécialisées dans l'IA à des puces de pointe telles que la H100 de Nvidia. Cette mesure a posé un problème à DeepSeek. L'entreprise avait commencé avec un stock de 10 000 H100, mais elle avait besoin de plus pour concurrencer des entreprises comme OpenAI et Meta. « Le problème auquel nous sommes confrontés n'a jamais été le financement, mais le contrôle des exportations de puces avancées », a déclaré Liang Wenfeng à 36Kr lors d'une seconde interview en 2024.

    DeepSeek a dû trouver des méthodes plus efficaces pour entraîner ses modèles. Ils ont optimisé l'architecture de leurs modèles à l'aide d'une batterie d'astuces techniques : schémas de communication personnalisés entre les puces, réduction de la taille des champs pour économiser de la mémoire et utilisation innovante de l'approche « mix-of-models » (mélange de modèles), explique Wendy Chang, ingénieure en logiciel devenue analyste politique à l'Institut Mercator d'études sur la Chine. « Bon nombre de ces approches ne sont pas nouvelles, mais les combiner avec succès pour produire un modèle de pointe est un exploit remarquable ».

    DeepSeek a également réalisé des progrès significatifs en matière d'attention latente multitêtes (MLA) et de mélange d'experts, deux concepts techniques qui rendent les modèles DeepSeek plus rentables en exigeant moins de ressources informatiques pour l'entraînement. En fait, le dernier modèle de DeepSeek est si efficace qu'il a nécessité un dixième de la puissance de calcul du modèle Llama 3.1 de Meta, selon l'institut de recherche Epoch AI.

    DeepSeek affirme avoir créé un modèle de niveau o1 qui fonctionne à 95 % du coût

    Si les analyses comparatives et les essais en conditions réelles réalisés depuis DeepSeek ont mis le feu aux poudres dans le monde de l'IA, le coût des opérations a été remis en question. Des entreprises comme Microsoft et Meta ont dépensé des milliards de dollars pour former et travailler sur l'IA, et ces deux sociétés devraient dépenser plus de 65 milliards de dollars d'ici à 2025.

    Cependant, DeepSeek affirme avoir créé un modèle de niveau o1 qui fonctionne à 95 % du coût. Si o1 coûte 15 dollars par million de jetons d'entrée et 60 dollars par million de jetons de sortie (un jeton représente environ 4 caractères), DeepSeek est estimé à environ 0,55 dollar et 2,19 dollars par million de jetons d'entrée et de sortie, respectivement.

    D'autre part, DeepSeek a rendu R1 open source. Jim Fan, directeur principal de la recherche chez Nvidia, a déclaré qu'il s'agissait de « maintenir en vie la mission originale d'OpenAI ». OpenAI était à l'origine une organisation à but non lucratif visant à faire progresser l'intelligence numérique au profit de l'ensemble de l'humanité. L'entreprise dirigée par Sam Altman est désormais une société à but lucratif.

    Fan a également fait l'éloge du développement de l'IA DeepSeek. Le fait qu'elle soit open source permettra aux développeurs de s'en inspirer et d'apprendre de DeepSeek, voire de l'améliorer.

    Dans un article publié fin décembre, les chercheurs de DeepSeek ont estimé qu'ils avaient construit et entraîné leur modèle V3 pour moins de 6 millions de dollars en utilisant environ 2 000 puces Nvidia H800.

    L'application est déjà la plus téléchargée sur l'Apple Store, suivie par ChatGPT

    En 2023, un document de Google ayant fait l'objet d'une fuite affirmait que les alternatives open-source aux options des grands acteurs les surpasseraient.

    Le modèle est devenu le modèle le plus téléchargé sur HuggingFace (131 000 fois, à l'heure où nous écrivons ces lignes), les développeurs se précipitant pour l'essayer et cherchant à comprendre ce qu'il signifie pour leur développement de l'IA. Si DeepSeek parvient à s'imposer auprès du grand public (l'application est déjà en pôle position sur iOS, ChatGPT d'OpenAI occupe actuellement la deuxième place du même classement d'Apple), il est fort possible qu'OpenAI et d'autres acteurs doivent envisager de baisser leurs prix. Actuellement, OpenAI facture un maximum de 200 dollars par mois pour ses modèles haut de gamme.

    Certains utilisateurs sont plutôt enthousiastes :

    « Pour ceux qui ne l'ont pas encore réalisé, Deepseek-R1 est meilleur que claude 3.5 et meilleur que OpenAI o1-pro, meilleur que Gemini. Il est tout simplement plus intelligent - beaucoup moins stupide, plus prudent, plus astucieux, plus conscient, plus méta-conscient, etc. »

    Mais les chercheurs soulignent qu'elle n'est pas infaillible

    Certains chercheurs affirment aujourd'hui que DeepSeek n'est pas infaillible et que les tests de référence ne sont pas la meilleure mesure du succès. Dans certains des tests de raisonnement les plus difficiles, DeepSeek peine à surpasser l'o1-mini, une version plus restreinte du modèle phare. Sur Reddit, certains utilisateurs ont déclaré que le travail de DeepSeek en matière d'efficacité devrait encore être étudié.

    La perspective d'un changement de stratégie pour les entreprises d'IA

    Les implications pour les stratégies d'IA des entreprises sont profondes : Grâce à la réduction des coûts et à l'accès libre, les entreprises disposent désormais d'une alternative aux modèles propriétaires coûteux comme celui d'OpenAI. Le lancement de DeepSeek pourrait démocratiser l'accès aux capacités d'IA de pointe, permettant ainsi aux petites organisations de rivaliser efficacement dans la course à l'armement de l'IA.

    Comment DeepSeek a réussi cet exploit ? Qu'est-ce cela signifie pour le grand nombre d'utilisateurs de modèles d'IA ? Pour les entreprises qui développent des solutions basées sur l'IA, la percée de DeepSeek remet en question les hypothèses sur la domination d'OpenAI et offre un modèle d'innovation rentable. C'est le « comment » DeepSeek a fait ce qu'il a fait qui devrait être le plus instructif ici.

    La percée de DeepSeek : Passer à l'apprentissage par renforcement pur

    En novembre, DeepSeek a fait les gros titres en annonçant qu'elle avait atteint des performances supérieures à celles de l'outil o1 d'OpenAI, mais à l'époque, elle ne proposait qu'un modèle limité R1-lite-preview. En publiant la version complète de R1 et le document technique qui l'accompagne, l'entreprise a révélé une innovation surprenante : elle s'est délibérément écartée du processus conventionnel de mise au point supervisée (SFT pour supervised fine-tuning) largement utilisé dans la formation des grands modèles de langage (LLM).

    Le SFT, une étape standard dans le développement de l'IA, implique l'entraînement de modèles sur des ensembles de données conservés afin d'enseigner le raisonnement étape par étape, souvent appelé « chaîne de pensée » (CoT pour chain-of-thought). Cette étape est considérée comme essentielle pour améliorer les capacités de raisonnement. Cependant, DeepSeek a remis en question cette hypothèse en sautant complètement le SFT et en choisissant de s'appuyer sur l'apprentissage par renforcement (RL) pour former le modèle.

    Cette décision audacieuse a forcé DeepSeek-R1 à développer des capacités de raisonnement indépendantes, en évitant la fragilité souvent introduite par les ensembles de données prescriptifs. Bien que certains défauts soient apparus (ce qui a conduit l'équipe à réintroduire une quantité limitée de SFT au cours des dernières étapes de la construction du modèle) les résultats ont confirmé l'avancée fondamentale : l'apprentissage par renforcement pouvait à lui seul générer des gains de performance substantiels.

    L'entreprise a fait une grande partie du chemin en utilisant des logiciels libres

    Tout d'abord, un peu d'histoire sur la façon dont DeepSeek est arrivée là où elle est. DeepSeek, une spin-off de 2023 du fonds spéculatif chinois High-Flyer Quant, a commencé par développer des modèles d'IA pour son chatbot propriétaire avant de les mettre à la disposition du public. On sait peu de choses sur l'approche exacte de l'entreprise, mais elle a rapidement ouvert ses modèles, et il est très probable qu'elle s'est appuyée sur les projets ouverts produits par Meta, par exemple le modèle Llama et la bibliothèque ML Pytorch.

    Pour entraîner ses modèles, High-Flyer Quant s'est procuré plus de 10 000 GPU Nvidia avant les restrictions à l'exportation imposées par les États-Unis, et aurait étendu sa production à 50 000 GPU par d'autres voies d'approvisionnement, malgré les barrières commerciales. Ces chiffres sont dérisoires par rapport aux principaux laboratoires d'IA tels que OpenAI, Google et Anthropic, qui fonctionnent avec plus de 500 000 GPU chacun.

    La capacité de DeepSeek à obtenir des résultats compétitifs avec des ressources limitées montre comment l'ingéniosité peut remettre en cause le paradigme du coût élevé de la formation de LLM de pointe.

    Open R1 : La reproduction entièrement ouverte de DeepSeek-R1, qui remet en question le statu quo des LLM propriétaires existants

    Le développement du LLM Open Source connaît un grand changement grâce à la reproduction complète et à l'ouverture de DeepSeek-R1, y compris les données d'entraînement, les scripts, etc. Hébergé sur la plateforme Hugging Face, ce projet ambitieux est conçu pour reproduire et améliorer le pipeline R1. Il met l'accent sur la collaboration, la transparence et l'accessibilité, permettant aux chercheurs et aux développeurs du monde entier de s'appuyer sur les travaux fondamentaux de DeepSeek-R1.

    L'initiative simplifie les processus de formation et d'évaluation des modèles, par ailleurs complexes, grâce à une documentation claire et à une conception modulaire. En mettant l'accent sur la reproductibilité, le projet Open R1 invite les développeurs à tester, affiner et développer ses principaux composants.

    Nom : plan.png
Affichages : 58864
Taille : 98,3 Ko

    Télécharger DeepSeek R1 (HuggingFace)

    Sources : DeepSeek-R1 : Incitation à la capacité de raisonnement dans les LLM via l'apprentissage par renforcement, Open R1 (1, 2), annonce de la disponibilité d'Open R1

    Et vous ?

    Que pensez-vous de DeepSeek-R1 ? L’approche par apprentissage par renforcement utilisée par DeepSeek-R1 pourrait-elle devenir la norme dans le développement des futurs LLM ?

    Quels critères devraient être utilisés pour déterminer si un modèle comme DeepSeek-R1 est vraiment supérieur à Claude 3.5, OpenAI O1-Pro ou Gemini ?

    Pensez-vous que la supériorité de DeepSeek-R1 repose davantage sur ses capacités techniques ou sur l’expérience utilisateur qu’il offre ?

    Jusqu’où peut aller l’augmentation de la "méta-conscience" des modèles sans créer de risques liés à l’autonomie excessive des IA ?

    Voir aussi :

    Des chercheurs chinois viennent de percer les secrets de l'AGI d'OpenAI, avec un plan détaillé qui révèle comment recréer les capacités de raisonnement du modèle o1 d'OpenAI à partir de zéro

    OpenAI lance des modèles d'IA dotés de capacités de « raisonnement » semblables à celles d'une personne. Les modèles « Strawberry » peuvent décomposer des problèmes complexes en étapes logiques plus petites
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  5. #5
    Membre actif
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Octobre 2002
    Messages
    132
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Octobre 2002
    Messages : 132
    Par défaut
    New York Times :

    « Les avancées de l'IA chinoise effraient les investisseurs des Big Tech.
    Les avancées de l'IA par des jeunes pousses chinoises ont ébranlé les marchés américains hier, effaçant des centaines de milliards de dollars des principaux indices technologiques. La chute des valeurs technologiques a également affecté les indices boursiers en Europe et au Japon, et le dollar a glissé par rapport aux devises des principaux partenaires commerciaux des États-Unis.
    La diapositive est survenue quelques jours après que la société chinoise d'IA DeepSeek a déclaré qu'elle pouvait égaler les capacités des chatbots de pointe tout en utilisant une fraction des puces informatiques spécialisées sur lesquelles s'appuient les principales entreprises d'IA. La nouvelle a incité les investisseurs à repenser les valorisations d'entreprises comme Nvidia, dont l'équipement alimente les systèmes d'IA les plus avancés. (Voici ce qu'il faut savoir sur DeepSeek.)
    Le secteur technologique global du S&P 500 a connu un début d'année difficile, perdant environ 4% de sa valeur, tandis que tous les autres grands secteurs ont progressé au cours de la même période. En raison de la taille et de l'influence de l'industrie technologique, cela a pesé sur l'indice S&P 500, qui est en hausse d'environ 2% pour l'année.
    Les actions de Microsoft et d'Alphabet, la société mère de Google, qui ont toutes deux beaucoup misé sur l'IA, ont chuté hier de 2,1% et 4,2%, respectivement. Oracle a chuté de près de 14 %. SoftBank a perdu plus de 8% lors de la séance à Tokyo. Meta et Apple ont résisté à la tendance, affichant des gains.
    Nvidia : Les actions de la société de puces ont plongé de 17 % et la société a perdu environ 600 milliards de dollars de valeur marchande, lors de ce qui a été sa pire journée de négociation depuis la vente due à la pandémie en mars 2020. »

    Les sanctions c'est pour les cons (cf. Russie, Iran, Chine...)

  6. #6
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    1 111
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 111
    Par défaut DeepSeek remet en cause l'avenir des puces à haute performance de Nvidia et fait chuter l'action Nvidia
    Nvidia rejette la menace DeepSeek et affirme que l'IA chinoise a toujours besoin de ses puces alors que ses actions ont dévissé de 17 %
    effaçant 600 milliards de dollars de sa capitalisation boursière

    DeepSeek s'annonce-t-il comme le pire cauchemar de Nvidia ? La startup chinoise vient de publier un modèle d'IA dont les performances semblent aussi remarquables que celles du modèle o1 d'OpenAI pour 95 % moins cher. La nouvelle a provoqué une hécatombe à Wall Street, faisant dévisser les actions d'entreprises telles que Nvidia (17 %) et Broadcom (17,4 %). Cependant, Nvidia n'a pas l'air inquiété par la spéculation selon laquelle DeepSeek menace sa domination sur le marché des puces. Pour Nvidia, les prouesses de DeepSeek indiquent au contraire que la startup chinoise aura besoin davantage de puces d'IA à l'avenir pour faire progresser ses services.

    DeepSeek remet en cause l'avenir des puces à haute performance de Nvidia

    Le 20 janvier, DeepSeek, dirigé par le gestionnaire de fonds spéculatifs chinois Liang Wenfeng, a publié le modèle d'IA R1 sous une licence MIT ouverte, la plus grande version contenant 671 milliards de paramètres. Elle a pris la Silicon Valley et tout le monde de l'IA par surprise, car, selon un document rédigé par l'entreprise, DeepSeek-R1 bat les principaux modèles du secteur, comme OpenAI o1, sur plusieurs critères mathématiques et de raisonnement.


    En fait, sur de nombreux critères importants (capacité, coût, ouverture), DeepSeek donne du fil à retordre aux géants occidentaux de l'IA. DeepSeek affirme avoir créé un modèle de niveau o1 qui fonctionne à 95 % du coût. Si o1 coûte 15 $ par million de jetons d'entrée et 60 $ par million de jetons de sortie (un jeton représente environ 4 caractères), DeepSeek est estimé à environ 0,55 $ et 2,19 $ par million de jetons d'entrée et de sortie, respectivement.

    DeepSeek peut fonctionner sur des puces moins avancées. Dans un article publié fin décembre, les chercheurs de DeepSeek ont estimé qu'ils avaient construit et entraîné leur modèle V3 pour moins de 6 millions de dollars en utilisant environ 2 000 puces Nvidia H800. Les informations publiées par DeepSeek ont créé la panique sur le marché. Les investisseurs semblent se demander si la demande pour les puces haut de gamme de Nvidia n'est pas exagérée.

    Le fait que R1 soit open source permettra aux développeurs de s'en inspirer et d'apprendre de DeepSeek, voire de l'améliorer. La frénésie autour du modèle R1 de DeepSeek a considérablement augmenté ces derniers jours. Le modèle de DeepSeek s'est hissé en tête du classement des applications les plus téléchargées de l'App Store d'Apple. DeepSeek a battu le chabot d'IA ChatGPT d'OpenAI sur l'App Store, provoquant une chute brutale des actions liées à l'IA.

    Nom : Capture d'écran 2025-01-28 154527.png
Affichages : 37491
Taille : 93,2 Ko

    Les actions de Nvidia ont été malmenées lors de la première séance du marché cette semaine, chutant de 17 %. Les actions d'AMD, le rival de Nvidia, ont également chuté de plus de 6 %. Les actions d'autres géants des semiconducteurs ont également chuté, notamment Broadcom (17,4 %) et TSMC (9.88 %).

    Le fait que DeepSeek semble avoir construit son dernier modèle en utilisant des puces moins performantes et moins chères exerce une pression sur Nvidia. Les investisseurs craignent que d'autres entreprises du secteur des grandes technologies réduisent leur demande pour les produits les plus avancés de Nvidia.

    Nvidia ne craint pas DeepSeek et y voit plutôt une opportunité pour ses puces

    Nvidia ne voit pas DeepSeek comme une menace et a tenu à rassurer les investisseurs après l'hécatombe sur les marchés. Nvidia estime que les progrès de DeepSeek montrent l'utilité de ses puces pour le marché chinois et que davantage de ses puces seront nécessaires à l'avenir pour répondre à la demande des services de DeepSeek. Mais les sanctions imposées à la Chine par Washington limitent la capacité de Nvidia à exporter ses puces vers ce pays.

    Nvidia a expliqué dans un communiqué : « le travail de DeepSeek illustre comment de nouveaux modèles peuvent être créés en utilisant cette technique, en tirant parti de modèles largement disponibles et d'un calcul qui est entièrement conforme au contrôle des exportations ». Les sanctions américaines ont été conçues pour empêcher la Chine de créer des superordinateurs pouvant être utilisés par l'armée chinois ou pour développer des outils d'IA avancés.


    Malgré les inquiétudes relatives à une bulle dans le secteur de l'IA, les actions de Nvidia ont grimpé ces dernières années, faisant brièvement du fabricant de puces l'entreprise la plus valorisée au monde. Nvidia a le monopole du marché des puces d'IA et est la première entreprise à développer de puissants GPU nécessaires à l'entraînement et à la maintenance des modèles d'IA. En raison de l'offre limitée de ces puces d'IA, les actions de Nvidia ont bondi.

    Certains s'inquiètent du fait que les États-Unis, qui ont longtemps pensé être à la pointe du développement de l'IA, sont en réalité en retard sur la Chine. « Si la Chine rattrape rapidement les États-Unis dans la course à l'IA, l'économie de l'IA sera bouleversée », a déclaré Kathleen Brooks, directrice de recherche chez XTB, à ses clients. Marc Andreessen, le légendaire investisseur en technologie, a posté sur X : « Deepseek R1 est le moment Spoutnik de l'IA ».

    « Les investisseurs craignent que la capacité de DeepSeek à travailler avec des puces d'IA moins puissantes ne nuise à la domination de Nvidia dans le domaine du matériel d'IA, d'autant plus que sa valorisation dépend fortement de la demande d'IA », a déclaré Kate Leaman, analyste en chef du marché chez AvaTrade. Jusqu'à présent, Nvidia a été l'un des plus grands bénéficiaires de la course à l'IA. Il a continuellement dépassé les attentes de Wall Street.


    Jimmy Goodrich, conseiller principal auprès de la RAND Corp pour l'analyse technologique, a déclaré qu'il existe au moins une douzaine de superordinateurs majeurs en Chine équipés d'un grand nombre de puces Nvidia dont l'achat était légal au moment où DeepSeek les a utilisés pour apprendre à devenir plus efficace. Les entreprises américaines spécialisées dans l'IA se sont également intéressées à l'efficacité de leurs systèmes d'IA respectifs.

    « DeepSeek n'a pas surgi de nulle part - ils construisent des modèles depuis des années. On sait depuis longtemps que DeepSeek dispose d'une très bonne équipe, et si elle avait accès à encore plus d'ordinateurs, Dieu sait de quoi elle serait capable », a déclaré Jimmy Goodrich.

    Impacts potentiels de DeepSeek sur les Big Tech et sur l'industrie à long terme

    DeepSeek pourrait remettre en question les arguments avancés par les Big Tech selon lesquels l'augmentation des dépenses se traduit par de meilleurs résultats pour les modèles d'IA. Le nouveau modèle de DeepSeek pose un sérieux défi au modèle o1 d'OpenAI axé sur le raisonnement, mais il a été développé à un coût inférieur. Selon certaines estimations, le modèle R1 aurait coûté seulement 3 à 5 % du montant injecté dans le développement du modèle o1.

    Cette situation a suscité des inquiétudes dans toute la Silicon Valley. Meta aurait réagi en mettant en place quatre cellules de crise pour analyser DeepSeek et tenter de comprendre comment la startup chinoise a réussi cette prouesse, notamment comment elle a réduit les coûts de formation et quelles données elle a pu utiliser. Certains observateurs chevronnés du marché s'attendent également à ce que les actions des fabricants de puces baissent davantage.

    L'impact à long terme de DeepSeek reste à débattre, car il existe toujours une forte demande aux États-Unis pour des puces d'IA avancées de Nvidia. Meta a récemment annoncé qu'il portait ses dépenses d'investissement à 65 milliards de dollars pour se concentrer sur l'infrastructure de l'IA. Microsoft viserait des investissements similaires. De son côté, OpenAI codirige le projet faramineux Stargate, d'une valeur estimée à plus de 500 milliards de dollars.

    « À court terme, les annonces de DeepSeek pourraient avoir plus d'implications qu'à long terme », a déclaré Javier Correonero, analyste des actions chez Morningstar. Dan Ives, de Wedbush, a rejeté les inquiétudes concernant la chute des cours, la qualifiant plutôt d'opportunité « d'achat en or » pour Nvidia.

    Javier Correonero a ajouté : « si les Big Tech réduisent leurs perspectives d'investissement, cela se répercutera en amont dans l'industrie, affectant tous les acteurs et les taux de croissance à court terme dans l'ensemble de l'espace. Cependant, il y a aussi un aspect haussier, car une plus grande efficacité de calcul pourrait entraîner une baisse des coûts et une adoption encore plus large de l'IA à long terme, ce que l'on appelle le paradoxe de Jevons ».

    Source : Nvidia

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous de la frénésie suscitée par le modèle chinois DeepSeek-R1 ?
    DeepSeek remet-il en cause les pratiques de développement des grands modèles de langage ?
    Quels impacts DeepSeek pourrait-il avoir sur le secteur de l'IA à court terme et à long terme, notamment sur Nvidia ?
    Les sanctions américaines étaient destinées à empêcher la Chine d'atteindre ce niveau. Comment expliquez-vous l'échec des États-Unis ?
    Comment l'Europe, en particulier la France, doit-elle se positionner dans cette course à l'IA ? Sur quels leviers la France peut-elle se baser ?

    Voir aussi

    L'IA française Lucie, conçue avec le soutien de l'État, est moquée et qualifiée « d'inutile et de stupide » en raison de ses réponses absurdes, elle a été mise hors ligne deux jours après son lancement

    Avec l'apprentissage par renforcement, le LLM open source DeepSeek-R1 correspondrait à o1 d'OpenAI pour 95 % moins cher. R1 est déjà numéro un des téléchargements Apple Store, suivi par ChatGPT

    Le laboratoire d'IA chinois DeepSeek a publié sa nouvelle famille de modèles R1 sous une licence MIT ouverte, affirmant que le modèle présente des performances comparables au raisonnement simulé o1 d'OpenAI

  7. #7
    Membre confirmé Avatar de Fluxgraveon
    Homme Profil pro
    fleuriste
    Inscrit en
    Mai 2024
    Messages
    176
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Lot (Midi Pyrénées)

    Informations professionnelles :
    Activité : fleuriste

    Informations forums :
    Inscription : Mai 2024
    Messages : 176
    Par défaut
    « DeepSeek n'a pas surgi de nulle part - ils construisent des modèles depuis des années. On sait depuis longtemps que DeepSeek dispose d'une très bonne équipe, et si elle avait accès à encore plus d'ordinateurs, Dieu sait de quoi elle serait capable », a déclaré Jimmy Goodrich.
    Et donc les équipes chinoises (ici une startup "dirigée") offriraient en licence ouverte ce qu'elles ont de plus avancé ?
    Ou plutôt une indication de ce qu'est ici et là cette économie "spéculative" ?
    C'est intéressant.

  8. #8
    Membre averti
    Homme Profil pro
    Urbaniste
    Inscrit en
    Janvier 2025
    Messages
    56
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Seychelles

    Informations professionnelles :
    Activité : Urbaniste
    Secteur : Tourisme - Loisirs

    Informations forums :
    Inscription : Janvier 2025
    Messages : 56
    Par défaut
    Pour une fois que les Américains se ramassent une pair de claque en règle. Cachez ce sourire narquois s'il vous plait!

    J'en profite pour souhaiter bon courage aux Chinois avec la prise d'otage TikTok et les nouvelles taxes qu'ils vont se prendre d'ici une semaine.

  9. #9
    Membre éprouvé Avatar de marsupial
    Homme Profil pro
    Retraité
    Inscrit en
    Mars 2014
    Messages
    1 801
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Autre

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Mars 2014
    Messages : 1 801
    Par défaut
    De toutes les manières la question ne se pose même pas puisque les Etats-Unis interdisent l'export de puces haute performance vers la Chine et la Russie.

  10. #10
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    1 111
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 111
    Par défaut Meta met en place des cellules de crises pour disséquer l'IA chinoise DeepSeek afin d'en tirer des leçons
    Meta aurait mis en place des « cellules de crise » composées d'ingénieurs pour comprendre comment l'IA de DeepSeek peut battre tous les autres avec une fraction du prix

    L'IA chinoise DeepSeek-R1 a pris de cours toute la Silicon Valley et a provoqué la panique à Wall Street. DeepSeek a publié son modèle d'IA R1 avec des performances aussi remarquables que celles du modèle o1 d'OpenAI pour 95 % moins cher. Et tous les géants de la course à l'IA se demandent comment la startup chinoise a réussi cette prouesse avec un budget insignifiant. Chez Meta, la direction aurait mis en place pas moins de quatre cellules de crise composées d'ingénieurs afin de comprendre comment l'IA de DeepSeek peut battre tous les autres à une fraction du prix. DeepSeek a fait chuter les actions de Nvidia, de Broadcom et de TSMC.

    DeepSeek rebat les cartes du développement de grands modèles de langage

    DeepSeek modifie de manière significative le paysage actuel du développement des grands modèles de langage (LLM). En introduisant des innovations ou des approches nouvelles, DeepSeek a remis en question les méthodes établies et force les principaux acteurs du secteur à réévaluer leurs stratégies. La startup chinoise vient de publier le modèle R1 dont les performances semblent aussi remarquables que celles du modèle o1 d'OpenAI pour 95 % moins cher.

    Deepseek a montré que le développement de LLM de pointe ne nécessitait pas de budgets colossaux et peut être efficace. Le développement de DeepSeek-V3 n'aurait coûté que 5,6 millions de dollars, soit une infime partie de ce que les Big Tech dépensent habituellement. Il n'a nécessité que 2,78 millions d'heures d'entraînement sur GPU, alors que le plus petit modèle de Meta, Llama-3 (405 milliards de paramètres), a nécessité environ onze fois plus de temps.


    Le fait que R1 soit open source permettra aux développeurs de s'en inspirer et d'apprendre de DeepSeek, voire de l'améliorer. Et Meta semble très impressionné par les prouesses de DeepSeek. Un rapport de Fortune indique que Meta a mis en place quatre « cellules de crise » composées d'ingénieurs pour étudier et comprendre comment l'IA de DeepSeek peut battre tous les autres à une fraction du prix. Meta dépensait jusqu'ici des milliards dans ses modèles.

    Toutefois, la technologie de DeepSeek, potentiellement révolutionnaire, a remis en cause les investissements gargantuesques réalisés par les géants américains en matière d'IA et a mis en alerte l'équipe chargée de l'IA chez Meta. Mathew Oldham, directeur de l'infrastructure de Meta AI, aurait déclaré à ses collègues que le nouveau modèle de DeepSeek pourrait surpasser même la prochaine version de l'IA Llama de Meta, dont la publication serait imminente.

    Parmi les quatre cellules de crise créées par Meta a pour étudier DeepSeek, deux équipes tenteront de déchiffrer comment DeepSeek a réduit le coût de formation et de fonctionnement de son IA dans le but d'utiliser ces tactiques pour Llama. La deuxième équipe tentera de découvrir les données utilisées par DeepSeek pour former son IA, et la dernière examinera comment Llama peut restructurer ses modèles en fonction des attributs des modèles de DeepSeek.

    Mark Zuckerberg, PDG de Meta, a déclaré récemment que l'entreprise dépenserait jusqu'à 65 milliards de dollars dans ses projets d'IA au cours de l'année, notamment pour la construction d'un grand centre de données et l'embauche d'un plus grand nombre de personnes dans le domaine de l'IA.

    Cette annonce intervient quelques jours après qu'OpenAI, SoftBank, Oracle et d'autres ont annoncé le projet Stargate qui vise à investir 500 milliards de dollars dans l'infrastructure nécessaire au développement de l'IA. Il prévoit la construction de dizaines de nouveaux centres de données à travers les États-Unis.

    Panique chez Meta : DeepSeek-R1 aurait mis en lumière le retard de Meta

    Le succès inattendu de DeepSeek modifie les conversations autour de l'innovation en matière d'IA, certains analystes allant jusqu'à affirmer que DeepSeek-R1 représente « une menace pour la domination américaine en matière d'IA » et pour les entreprises américaines dans ce domaine. Meta, en particulier, semble ressentir la pression. Un employé anonyme de Meta a publié sur le forum professionnel Blind un message intitulé « Meta GenAI Org in Panic Mode ».

    L'employé explique : « cela a commencé avec DeepSeek V3, qui avait déjà rendu Llama 4 en retard sur les benchmarks. La startup chinoise inconnue disposant d'un budget de formation de 5,5 millions de dollars a ajouté l'insulte à l'injure. Les ingénieurs s'activent frénétiquement pour disséquer DeepSeek et copier tout ce que nous pouvons en tirer. Je n'exagère même pas ». Son post met aussi en évidence des problèmes internes au sein de la division IA de Meta.

    Nom : Capture d'écran 2025-01-28 191301.png
Affichages : 130386
Taille : 186,3 Ko

    DeepSeek est un signal d'alarme pour le secteur de l'IA dans son ensemble. Le succès d'un modèle open source construit avec un budget réduit soulève la question de savoir si les géants de la technologie ne compliquent pas trop leurs stratégies. En réduisant considérablement les coûts et en offrant une licence permissive, DeepSeek a ouvert les portes aux développeurs qui, auparavant, n'avaient pas les moyens de travailler avec des outils d'IA très performants.

    Pour Meta, OpenAI et d'autres acteurs majeurs de la course à l'IA, la montée en puissance de DeepSeek représente plus qu'une simple concurrence : elle remet en cause l'idée selon laquelle des budgets plus importants conduisent automatiquement à de meilleurs résultats. La question de savoir si ces entreprises peuvent s'adapter reste ouverte, mais selon les analystes, une chose est claire, DeepSeek a renversé le scénario, et le secteur y prête attention.

    L'intérêt pour le modèle R1 de DeepSeek n'a cessé d'augmenter depuis son lancement. Le modèle s'est hissé en tête du classement des applications les plus téléchargées de l'App Store d'Apple. DeepSeek a battu le chabot d'IA ChatGPT d'OpenAI sur l'App Store, provoquant une chute brutale des actions liées à l'IA.

    Les actions de Nvidia ont été malmenées lors de la première séance du marché cette semaine, chutant de 17 %. Les actions d'AMD, le rival de Nvidia, ont également chuté de plus de 6 %. Les actions d'autres géants des semiconducteurs ont également chuté, notamment Broadcom (17,4 %) et TSMC (9.88 %).

    Certains considèrent DeepSeek-R1 comme le triomphe de l'open source

    Mark Zuckerberg s'est récemment rendu sur Facebook pour présenter les plans de Meta pour la nouvelle année. En 2025, Meta a pour objectif de développer un assistant d'IA capable de servir plus d'un milliard de personnes, d'améliorer Llama 4 pour qu'il puisse rivaliser avec les meilleurs modèles du marché, et de créer une « IA ingénieure » pour l'aider dans sa recherche et son développement. « Ce sera une année décisive pour l'IA », a écrit Mark Zuckerberg.

    Mais les plans de Meta sont mis à mal par DeepSeek. Selon le message de l'employé anonyme de Meta, Deepseek-V3 a déjà surpassé Llama-4 dans des tests de référence, alors que le modèle de Meta n'a pas encore été commercialisé. Ce qui suscite des préoccupations quant aux coûts de fonctionnement élevés du département alors qu'une entreprise chinoise relativement inconnue du grand public peut obtenir de meilleurs résultats avec un budget aussi serré.

    Nom : Capture d'écran 2025-01-28 191328.png
Affichages : 50498
Taille : 187,6 Ko

    Cet employé anonyme souligne également que le salaire d'un seul chef de département de l'équipe de Meta dépasse l'ensemble du budget de formation de Deepseek. Il critique la façon dont la division IA de Meta, qui devait à l'origine être petite et techniquement ciblée, s'est hypertrophiée à mesure que les employés se précipitaient pour suivre la tendance de l'IA. Résultat, l'équipe innove peu (ou pas du tout) malgré les budgets énormes dont elle bénéficie.

    Meta devra mettre les bouchées doubles pour améliorer LLama-4 et atteindre ses objectifs. L'impact à long terme de DeepSeek reste à débattre, car il existe toujours une forte demande aux États-Unis pour des puces d'IA avancées de Nvidia. Certains observateurs chevronnés du marché s'attendent à ce que les actions des fabricants de puces baissent davantage. Cependant, le contraire peut également se produire, avec les actions repartant à la hausse.

    Yann LeCun, responsable scientifique de la division IA chez Meta, a donné son avis sur le succès de DeepSeek. Selon lui, ce qu'il faut retenir est la volonté de DeepSeek de maintenir ses modèles d'IA open source afin que tout le monde puisse en bénéficier. Yann LeCun a fait remarquer que la réussite de DeepSeek ne consistait pas à placer la Chine devant les États-Unis dans le secteur de l'IA, mais à s'assurer que les modèles open source restent en tête.

    Nom : Capture d'écran 2025-01-28 191848.png
Affichages : 50530
Taille : 105,0 Ko

    « Ce n'est pas que l'IA chinoise surpasse les États-Unis, mais plutôt que les modèles open source surpassent les modèles propriétaires », a déclaré Yann LeCun. Selon lui, DeepSeek a bénéficié de l'open source et de la recherche ouverte. « Ils ont trouvé de nouvelles idées et les ont développées en s'appuyant sur le travail d'autres personnes. Comme leur travail est publié et qu'il s'agit d'une source ouverte, tout le monde peut en profiter », a déclaré Yann LeCun.

    « C'est la force de la recherche ouverte et de l'open source », a-t-il ajouté. DeepSeek partage les mêmes attributs que Llama, les deux étant open source. Leur rival, OpenAI, qui était à l'origine censé développer une IA ouverte et accessible à tous, a depuis fermé ses sources, en opposition avec sa mission initiale.

    Cette évolution a donné lieu à de nombreux débats juridiques, Elon Musk, l'un des fondateurs d'OpenAI, ayant demandé aux tribunaux de bloquer le projet d'OpenAI de passager d'une organisation à but non lucratif à une société à but lucratif. OpenAI vise à attirer plus d'investisseurs avec ce nouveau statut.

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous de la panique provoquée par DeepSeek dans la Silicon Valley ?
    Que pensez-vous des cellules de crise mises en place par Meta en réponse au succès de DeepSeek ?

    Voir aussi

    Nvidia rejette la menace DeepSeek et affirme que l'IA chinoise a toujours besoin de ses puces alors que ses actions ont dévissé de 17 %, effaçant 600 milliards de dollars de sa capitalisation boursière

    Le laboratoire d'IA chinois DeepSeek a publié sa nouvelle famille de modèles R1 sous une licence MIT ouverte, affirmant que le modèle présente des performances comparables au raisonnement simulé o1 d'OpenAI

    Avec l'apprentissage par renforcement, le LLM open source DeepSeek-R1 correspondrait à o1 d'OpenAI pour 95 % moins cher. R1 est déjà numéro un des téléchargements Apple Store, suivi par ChatGPT

  11. #11
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 965
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 965
    Par défaut DeepSeek est victime d'une cyberattaque et limite les inscriptions
    DeepSeek est victime d'une cyberattaque et limite les inscriptions, la startup chinoise spécialisée dans l'IA a déclaré avoir été victime d'une "attaque malveillante à grande échelle" contre ses services.

    DeepSeek a déclaré que sa nouvelle application populaire a été victime d'une cyberattaque, ce qui a contraint l'entreprise chinoise à limiter temporairement les inscriptions. DeepSeek a déclaré avoir été victime d'une "attaque malveillante à grande échelle". Ces attaques interviennent après que la popularité de ses nouveaux modèles d'IA ait explosé.

    La sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA, bouleversant les hypothèses sur ce qui est nécessaire pour atteindre des performances d'IA de pointe. Ce modèle open-source, qui correspondrait à l'o1 d'OpenAI pour seulement 3 à 5 % du coût selon le benchmark de la startup éponyme, a non seulement captivé les développeurs, mais a également incité les entreprises à repenser leurs stratégies en matière d'IA.

    Si DeepSeek a bouleversé le marché de la technologie, il n'a pas fallu attendre longtemps pour que l'entreprise signale des pannes et s'efforce de sécuriser ses services après avoir été victime d'une cyberattaque. La startup chinoise spécialisée dans l'IA a déclaré avoir été victime d'une "attaque malveillante à grande échelle".

    "En raison d'attaques malveillantes à grande échelle sur les services de DeepSeek, nous limitons temporairement les inscriptions afin de garantir la continuité du service", a indiqué l'entreprise sur son site web. "Les utilisateurs existants peuvent se connecter comme d'habitude. Nous vous remercions de votre compréhension et de votre soutien."

    Ce n'est pas le seul problème auquel la startup chinoise spécialisée dans l'IA a été confrontée au cours des dernières heures. Le 27 janvier, les utilisateurs ont également rencontré des problèmes de connexion et les nouveaux utilisateurs n'ont pas pu s'inscrire au service. Le jour suivant, DeepSeek a déclaré avoir identifié le problème, mis en œuvre un correctif et surveillé les résultats pour tout autre problème. Toutefois, le site web de l'entreprise indique que le site web et l'application fonctionnent toujours plus lentement que d'habitude.

    Outre sa famille de modèles R1 sous licence MIT ouverte, qui serait un concurrent sérieux à ChatGPT, DeepSeek a présenté un modèle générateur d'images par IA, DeepSeek Janus-Pro. Selon l'entreprise, son nouvel ensemble de modèles d'IA multimodale peut surpasser DALL-E 3 d'OpenAI. L'entreprise affirme que ce nouveau générateur d'images "révolutionnaire" peut surpasser les meilleurs modèles construits par des rivaux basés aux États-Unis.


    Bradley Shimmin, analyste en chef de l'IA et de l'analyse des données à Omdia, a déclaré qu'étant donné le discours mondial actuel sur les préoccupations en matière de confidentialité des données, en particulier lorsque des tensions géopolitiques entrent en jeu comme avec les plateformes de médias sociaux appartenant à la Chine comme TikTok, il peut sembler qu'il y ait une menace potentielle pour la sécurité et la confidentialité des consommateurs avec la montée soudaine de DeepSeek.

    "À première vue, c'est vrai", a déclaré Shimmin. "Les utilisateurs qui se connectent et interagissent avec les services d'IA hébergés de DeepSeek s'exposent en effet à une perte potentielle de confidentialité des données. Il a déclaré que c'est le cas avec la plupart des services d'IA basés sur le cloud, y compris ceux d'OpenAI, de Google, de Microsoft et d'Apple."

    Shimmin a déclaré qu'en fonction de l'accord d'accès de l'utilisateur final, ces services recueillent une série de données sur les consommateurs, allant de la télémétrie d'utilisation de base et agrégée aux données d'amélioration du service, qui peuvent inclure les invites du modèle et même les réponses du modèle. Mais ce n'est pas tout.

    "Pire encore, pour les applications natives et les interactions basées sur le web, les utilisateurs s'exposent souvent à des empreintes digitales détaillées et invasives, où des données comportementales précieuses provenant de services corrélés peuvent être vendues à des courtiers en données pour être utilisées à des fins publicitaires", a-t-il déclaré.

    Selon Shimmin, les services gratuits ont tendance à collecter et à monétiser davantage de données que les services payants et les services dont la priorité est la protection de la vie privée des consommateurs. "La principale différence entre les services d'IA d'Apple, de Meta, de ByteDance ou de DeepSeek réside dans le fait de savoir qui a accès à la quantité de ces précieuses informations : le fournisseur de services d'IA, les courtiers en données publicitaires ou peut-être même les agences gouvernementales", a-t-il déclaré.

    La bonne nouvelle, c'est qu'il existe des moyens pour les consommateurs de protéger leurs données lorsqu'ils utilisent des services d'IA émergents comme DeepSeek. Ils peuvent choisir des services d'hébergement tiers comme Vultr ou Groq, accéder éventuellement aux modèles via des navigateurs anonymes comme DuckDuckGo et Brave ou héberger localement des versions allégées grâce à des distillations fournies par DeepSeek et la communauté de l'IA. Cette dernière option serait la plus sûre.

    Et vous ?

    Quel est votre avis sur le sujet ?
    Selon vous, quelles seraient les causes crédibles ou pertinentes de ces attaques ?

    Voir aussi :

    Le laboratoire d'IA chinois DeepSeek a publié sa nouvelle famille de modèles R1 sous une licence MIT ouverte, affirmant que le modèle présente des performances comparables au raisonnement simulé o1 d'OpenAI

    Meta aurait mis en place des « cellules de crise » composées d'ingénieurs pour comprendre comment l'IA de DeepSeek peut battre tous les autres avec une fraction du prix

    Nvidia rejette la menace DeepSeek et affirme que l'IA chinoise a toujours besoin de ses puces alors que ses actions ont dévissé de 17 %, effaçant 600 milliards de dollars de sa capitalisation boursière
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  12. #12
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 420
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 420
    Par défaut Sam Altman, PDG d'OpenAI, a qualifié DeepSeek de « modèle impressionnant »
    Sam Altman, PDG d'OpenAI, a qualifié DeepSeek de « modèle impressionnant », après que la sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA

    Le PDG d'OpenAI, Sam Altman, a publiquement applaudi le modèle d'intelligence artificielle (IA) R1 de son concurrent DeepSeek dans un récent message sur les médias sociaux.

    La sortie du modèle R1 de DeepSeek a provoqué une onde de choc dans la communauté de l'IA, offrant une alternative open-source puissante à une fraction du coût. Formé avec l'apprentissage par renforcement, DeepSeek-R1 serait aussi performant que le modèle o1 d'OpenAI pour 95 % moins cher. Son ascension rapide - R1 étant devenue l'application la plus téléchargée de l'Apple Store, juste devant ChatGPT - a contraint l'industrie à repenser ses stratégies en matière d'IA.

    S'exprimant sur X le 28 janvier, Sam Altman a fait l'éloge du grand modèle de langage de la startup chinoise DeepSeek, le qualifiant de « modèle impressionnant, en particulier en ce qui concerne ce qu'ils sont capables d'offrir pour le prix ». Cette remarque fait référence au fait que DeepSeek aurait été construit et entraîné pour moins de 6 millions de dollars, une bagatelle comparée aux milliards dépensés par les géants de la technologie tels qu'OpenAI.


    Dans sa publication, Sam Altman a également apporté son soutien au produit de sa propre entreprise, ChatGPT, en déclarant :

    Nous allons évidemment fournir de bien meilleurs modèles et il est tout à fait stimulant d'avoir un nouveau concurrent ! Nous dévoilerons d'autres modèles.

    Mais nous sommes surtout enthousiastes à l'idée de poursuivre l'exécution de notre feuille de route en matière de recherche et nous pensons qu'il est plus important que jamais de disposer de plus de puissance de calcul pour mener à bien notre mission. Le monde va vouloir utiliser BEAUCOUP d'IA, et sera vraiment très étonné par les modèles de nouvelle génération à venir.
    En effet, il y a sûrement de la place pour plusieurs entreprises d'IA dans le monde - et si DeepSeek peut vraiment fournir un concurrent réaliste pour beaucoup moins de ressources, elle brise l'hypothèse selon laquelle une meilleure IA nécessite d'énormes quantités de puissance de calcul.

    C'est une bonne nouvelle pour les budgets technologiques et pour l'environnement, car les grands centres de données consomment déjà d'énormes quantités d'énergie.


    Néanmoins, Sam Altman lui-même a semblé repousser l'idée que les futures avancées de l'IA seront moins coûteuses à produire, en particulier avec son commentaire selon lequel l'équipe d'OpenAI pense que « plus de calcul est plus important aujourd'hui que jamais pour réussir notre mission. »

    En termes d'impact financier, les actions de SoftBank Group Corp., partenaire d'OpenAI, ont essuyé des pertes à la suite du succès de DeepSeek, chutant de 4,7 % le mardi 28 janvier matin à Tokyo.

    Le succès de DeepSeek ne se limite pas uniquement aux modèles R1 sous licence MIT ouverte. L'entreprise a également publié DeepSeek Janus-Pro, un générateur d'images d'IA open source « révolutionnaire » qui serait capable de surpasser DALL-E 3 d'OpenAI pour une fraction du coût. Comptant 1 à 7 milliards de paramètres, ces modèles d'IA multimodale sont disponibles pour une utilisation commerciale sous licence MIT, renforçant ainsi l'accessibilité et la rentabilité de l'IA.

    Source : Sam Altman, PDG d'OpenAI

    Et vous ?

    Quel est votre avis sur le sujet ?
    Pensez-vous que DeepSeek sera en mesure de poursuivre son ascension au cours des prochains mois ?
    Avec la sortie des modèles d'IA de DeepSeek, pensez-vous que les stratégies de développement de l'IA à budget élevé sont toujours pertinentes ?

    Voir aussi :

    Le laboratoire d'IA chinois DeepSeek a publié sa nouvelle famille de modèles R1 sous une licence MIT ouverte, affirmant que le modèle présente des performances comparables au raisonnement simulé o1 d'OpenAI

    Nvidia rejette la menace DeepSeek et affirme que l'IA chinoise a toujours besoin de ses puces alors que ses actions ont dévissé de 17 %, effaçant 600 milliards de dollars de sa capitalisation boursière

    L'IA chinoise DeepSeek Coder V2 devient le premier modèle de codage open-source à battre le GPT-4 Turbo d'OpenAI, elle vise à combler l'écart de performance avec les modèles à source fermée
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  13. #13
    Membre confirmé Avatar de Fluxgraveon
    Homme Profil pro
    fleuriste
    Inscrit en
    Mai 2024
    Messages
    176
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Lot (Midi Pyrénées)

    Informations professionnelles :
    Activité : fleuriste

    Informations forums :
    Inscription : Mai 2024
    Messages : 176
    Par défaut
    Citation Envoyé par Jade Emy Voir le message
    DeepSeek a déclaré que sa nouvelle application populaire a été victime d'une cyberattaque, ce qui a contraint l'entreprise chinoise à limiter temporairement les inscriptions. DeepSeek a déclaré avoir été victime d'une "attaque malveillante à grande échelle". Ces attaques interviennent après que la popularité de ses nouveaux modèles d'IA ait explosé.
    Pas étonnant, une signature d'affrontement de blocs au sein d'une zone de domination concurrentielle, empruntant, qui plus est, des voies de développement opposées (force brute, optimisation process, en gros mais aussi enrichissement personnel, enrichissement communautaire) et paradoxalement complémentaires.
    Vieux comme le monde.

  14. #14
    Membre actif
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Octobre 2002
    Messages
    132
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Octobre 2002
    Messages : 132
    Par défaut
    Pendant ce temps là, le copain de Macron (Alexandre Zapolsky) pond Lucie qui ressemble plus à Lucie Castets que Lucy (film de Besson)

    Nom : Gicag9YWQAAa37_.png
Affichages : 32072
Taille : 835,5 Ko

  15. #15
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 965
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 965
    Par défaut OpenAI a trouvé des preuves que DeepSeek a utilisé sans autorisation ces modèles d'IA pour le modèle R1
    OpenAI a trouvé des preuves que la start-up chinoise DeepSeek a utilisé les modèles propriétaires d'OpenAI pour former son propre modèle open-source, en utilisant la technique de "distillation".

    OpenAI affirme avoir trouvé des preuves que la start-up chinoise DeepSeek a utilisé les modèles propriétaires de l'entreprise américaine pour entraîner son propre concurrent à code source ouvert, alors que les inquiétudes grandissent quant à une violation potentielle de la propriété intellectuelle. L'éditeur de ChatGPT a déclaré au Financial Times qu'il avait constaté des preuves de "distillation", qu'il soupçonne être le fait de DeepSeek.

    La sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA, bouleversant les hypothèses sur ce qui est nécessaire pour atteindre des performances d'IA de pointe. Ce modèle open-source correspondrait à l'o1 d'OpenAI pour seulement 3 à 5 % du coût selon le benchmark de la startup éponyme. Le document technique du modèle révèle que DeepSeek s'est délibérément écartée du processus conventionnel de mise au point supervisée (SFT pour supervised fine-tuning) et s'est appuyé sur l'apprentissage par renforcement (RL) pour atteindre ces performances.

    Cependant, OpenAI vient d'affirmer que la startup d'intelligence artificielle (IA) DeepSeek pourrait avoir entraîné son modèle R1 open-source en utilisant la technologie propriétaire d'OpenAI. En d'autres termes, la start-up chinoise n'aurait pas tout construit à partir de zéro, mais se serait plutôt appuyée sur les modèles d'OpenAI pour développer son concurrent. Selon le Financial Times, l'éditeur de ChatGPT, basé à San Francisco, a constaté des preuves de "distillation", c'est-à-dire le processus de transfert de connaissances d'un grand modèle à un plus petit. Il s'agirait donc d'une violation des conditions d'utilisation d'OpenAI.

    Le nouveau « tsar » de l'IA et des crypto-monnaies du président américain Donald Trump, David Sacks, a également déclaré : "Il existe des preuves substantielles que DeepSeek a distillé des connaissances à partir des modèles d'OpenAI, et je ne pense pas qu'OpenAI soit très heureux à ce sujet. Je pense que l'une des choses que vous verrez au cours des prochains mois, c'est que nos principales entreprises d'IA prendront des mesures pour essayer d'empêcher la distillation."

    La distillation des connaissances a été utilisée à bon escient dans toutes sortes de domaines, du traitement du langage naturel et de la reconnaissance vocale à la reconnaissance d'images et à la détection d'objets. Mais ces dernières années, elle est devenue particulièrement importante pour les grands modèles de langage (LLM). En ce qui concerne les LLM, la distillation s'est avérée être un moyen important de transmettre les compétences avancées des modèles propriétaires de haut niveau à des modèles open-source plus petits et plus accessibles. Dans ce cas, DeepSeek a été accusé de violation de la propriété intellectuelle.

    Une source a déclaré au Financial Times: "Le problème se pose lorsque vous [retirez le modèle de la plateforme et] le faites pour créer votre propre modèle à vos propres fins."

    Cependant, OpenAI n'est pas vraiment à l'abri des critiques en matière de propriété intellectuelle. L'entreprise fait actuellement l'objet d'un procès, mené par le New York Times, dans lequel les entreprises de médias l'accusent d'utiliser leurs données sans autorisation. Une étude avait même révélé qu'OpenAI a mis en place un mécanisme pour éviter que son modèle de génération de texte ChatGPT ne révèle qu’il a été entraîné sur des livres protégés par le droit d’auteur.

    En outre, OpenAI a également reconnu qu’il est impossible de créer des outils comme ChatGPT sans s’appuyer sur des contenus sous copyright. L'éditeur de ChatGPT avait notammanet déclaré : "Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine, il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur. Limiter les données d'entraînement ... ne permettrait pas d'obtenir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui."


    Pour rappel, la publication par DeepSeek de son modèle R1 a provoqué une onde de choc sur les marchés financiers mondiaux. L'entreprise chinoise semble avoir obtenu des résultats comparables à ceux de ses plus grands rivaux, bien qu'elle ait utilisé beaucoup moins d'argent et de puissance de calcul. Le PDG d'OpenAI, Sam Altman, a applaudi publiquement le modèle R1 open-source, le qualifiant d'"impressionnant".

    Cela a amené les investisseurs à reconsidérer l'une des principales hypothèses à l'origine de la récente flambée des marchés boursiers induite par l'IA. Les plus grands acteurs de l'IA, ou "hyperscalers", ont besoin d'énormes quantités de puissance de calcul pour rester en tête. L'incertitude a frappé Nvidia de plein fouet, faisant subir à son action la plus forte baisse de valeur boursière de l'histoire en une seule journée le lundi 27 janvier, bien qu'elle ait réussi à regagner un peu de terrain le mardi.

    Néanmoins, ces dernières allégations à l'encontre de DeepSeek pourraient ajouter une nouvelle couche à la bataille technologique en cours entre les États-Unis et la Chine, rendant les choses encore plus compliquées.

    Source : The Financial Times

    Et vous ?

    Pensez-vous que ces accusations sont crédibles ou pertinentes ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Sam Altman, PDG d'OpenAI, a qualifié DeepSeek de « modèle impressionnant », après que la sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA

    Meta aurait mis en place des « cellules de crise » composées d'ingénieurs pour comprendre comment l'IA de DeepSeek peut battre tous les autres avec une fraction du prix

    Des chercheurs chinois viennent de percer les secrets de l'AGI d'OpenAI, avec un plan détaillé qui révèle comment recréer les capacités de raisonnement du modèle o1 d'OpenAI à partir de zéro
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  16. #16
    Membre confirmé Avatar de Fluxgraveon
    Homme Profil pro
    fleuriste
    Inscrit en
    Mai 2024
    Messages
    176
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Lot (Midi Pyrénées)

    Informations professionnelles :
    Activité : fleuriste

    Informations forums :
    Inscription : Mai 2024
    Messages : 176
    Par défaut
    Pendant ce temps là, le copain de Macron (Alexandre Zapolsky) pond Lucie qui ressemble plus à Lucie Castets que Lucy (film de Besson)
    En France, la recherche sur l'IA est essentiellement militaire et "classée secret défense", non ?

  17. #17
    Membre averti
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Août 2024
    Messages
    66
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Août 2024
    Messages : 66
    Par défaut
    Je suis loin d'être juriste ni d'avoir les détails techniques derrières tout ça, mais puisque les sorties des IA sont la propriété de personne, et que l'utilisation de contenu sous droit d'auteur pour la formation de réseau de neurone est du fair use d'après OpenAI:
    - comment la distillation relève dans ce cas est une violation du droit d'auteur ? La sortie est libre de droit
    - selon les principes d'OpenAI, pourquoi la distillation ne serait pas du fair use ?
    - est-ce que refuser la distillation n'est pas un obstacle à la mission annoncée d'OpenAI (l’avènement d'une AIG) ?
    - quelles sont les preuves OpenAI et peut-on démontrer que ce n'est pas lié à un jeu d'entrainement similaire ? Avec la reproduction ouverte de DeepSeck, il devrait être possible de trouver ces preuves, non ?

  18. #18
    Membre chevronné
    Homme Profil pro
    Développeur Web
    Inscrit en
    Juin 2022
    Messages
    232
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 21
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2022
    Messages : 232
    Par défaut
    Citation Envoyé par Fluxgraveon Voir le message
    En France, la recherche sur l'IA est essentiellement militaire et "classée secret défense", non ?
    Bah non ...
    Lucie ( gros navet)
    Mistral ...
    Bref il y a pas besoin de toucher à des sujets sensible pour trouver des IA françaises

  19. #19
    Membre éprouvé Avatar de marsupial
    Homme Profil pro
    Retraité
    Inscrit en
    Mars 2014
    Messages
    1 801
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Autre

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Mars 2014
    Messages : 1 801
    Par défaut
    Citation Envoyé par Fluxgraveon Voir le message
    En France, la recherche sur l'IA est essentiellement militaire et "classée secret défense", non ?
    L'IA pour domaine critique (ça ne se limite pas au militaire) n'est pas de l'IA générative mais une véritable 'intelligence' capable d'apprendre à partir de très peu de données et de 'raisonner'. Elle ne s'appuie pas sur des données humaines mais sur des données machines (logs, instructions binaires, capteurs, etc... ). Donc elle est sans biais, sécurisée et fiable à 100% (il le faut pour les domaines auxquels elle s'applique), j'y ai veillé dès sa création. Thales a ensuite développé, optimisé autour tel que je lui ai conseillé. Je leur ai fourni le cahier des charges et les différentes formules à appliquer en 2015.

    https://www.thalesgroup.com

  20. #20
    Membre confirmé Avatar de Fluxgraveon
    Homme Profil pro
    fleuriste
    Inscrit en
    Mai 2024
    Messages
    176
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Lot (Midi Pyrénées)

    Informations professionnelles :
    Activité : fleuriste

    Informations forums :
    Inscription : Mai 2024
    Messages : 176
    Par défaut
    Elle ne s'appuie pas sur des données humaines mais sur des données machines (logs, instructions binaires, capteurs, etc... ).
    ... j'y ai veillé dès sa création.
    Les données machines, elles viennent d'où ?

Discussions similaires

  1. Réponses: 1
    Dernier message: 08/01/2024, 09h45
  2. Réponses: 4
    Dernier message: 26/01/2023, 11h07
  3. Ne trouve t-on que des mesures dans une table de faits ?
    Par zerocoolyoussef dans le forum Conception/Modélisation
    Réponses: 9
    Dernier message: 05/05/2009, 18h39
  4. Problèmes avec des nombres... que faire ?
    Par sducos81 dans le forum C++
    Réponses: 6
    Dernier message: 21/07/2005, 14h46
  5. Réponses: 4
    Dernier message: 24/06/2004, 13h13

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo