Mistral Next : certains des premiers testeurs estiment que ce modèle pourrait être meilleur que GPT-4

**Stéphane le calme** · 11/12/2023, 19h37

Mistral AI publie un nouvelle version de son modèle de langage open source. La startup française estime avoir le meilleur modèle
« en ce qui concerne les compromis coût / performance »

Mistral AI vient de publier une nouvelle version de son modèle de langage open source, baptisé Mixtral 8x7B, qui serait autant ou beaucoup plus performant que Llama 2 70B et GPT3.5 sur la plupart des benchmarks. Mixtral 8x7B a 46,7 milliards de paramètres au total mais n'utilise que 12,9 milliards de paramètres par jeton. Il traite donc les entrées et génère la sortie à la même vitesse et pour le même coût qu'un modèle 12,9 milliards de paramètres. Mistral AI se sert d'un procédé qui lui permet de rester efficace, mais avec un coût et une latence moindres.

Dans le paysage mondial de l’intelligence artificielle, dominé par des géants tels qu’OpenAI, Google et Meta, une nouvelle entreprise française fait parler d’elle : Mistral AI, fondée par cofondée par trois chercheurs français de l'IA passés par les GAFA américains. En effet, son PDG, Arthur Mensch, 30 ans, expert des modèles de langage, vient de passer près de trois ans au sein de DeepMind, le laboratoire d'IA de Google. Les deux autres cofondateurs viennent de Meta (Facebook) : Guillaume Lample est l'un des créateurs du modèle de langage LLaMA dévoilé par Meta en février et Timothée Lacroix était lui aussi chercheur chez Meta.

En septembre, la startup a publié un modèle d'IA open source de 7,3 milliards de paramètres appelé "Mistral 7B". Cette fois-ci, comme avec son premier modèle Mistral 7B, tout a commencé par un lien magnet permettant de télécharger un fichier torrent.

magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%https://t.co/uV4WVdtpwZ%3A6969%2Fannounce&tr=http%3A%2F%https://t.co/g0m9cEUz0T%3A80%2Fannounce

RELEASE a6bbd9affe0c2725c1b7410d66833e24
— Mistral AI (@MistralAI) December 8, 2023

Mistral AI poursuit sa mission de fournir les meilleurs modèles ouverts à la communauté des développeurs. Pour progresser dans l’IA, il faut prendre de nouveaux tournants technologiques au-delà de la réutilisation d’architectures et de paradigmes de formation bien connus. Il s’agit surtout de faire bénéficier la communauté de modèles originaux pour favoriser de nouvelles inventions et usages.

Aujourd'hui, l'équipe est fière de lancer Mixtral 8x7B, un modèle de mélange d'experts (SMoE) de haute qualité avec des poids ouverts. Sous licence Apache 2.0. Mixtral surpasse Llama 2 70B sur la plupart des benchmarks avec une inférence 6 fois plus rapide. Il s’agit du modèle ouvert le plus puissant avec une licence permissive et du meilleur modèle global en termes de compromis coût/performance. En particulier, il correspond ou surpasse GPT3.5 sur la plupart des benchmarks standards.

Mixtral a les capacités suivantes.

Il gère gracieusement un contexte de 32 000 jetons.
Il gère l'anglais, le français, l'italien, l'allemand et l'espagnol.
Il montre de solides performances dans la génération de code.
Il peut être affiné dans un modèle de suivi d'instructions qui atteint un score de 8,3 sur MT-Bench.

Un modèle plus performant que la version GPT 3.5 de ChatGPT et Llama 2 de Facebook

La startup explique que Mixtral est un réseau clairsemé d’experts. Il s'agit d'un modèle de décodeur uniquement dans lequel le bloc de rétroaction sélectionne parmi un ensemble de 8 groupes distincts de paramètres. À chaque couche, pour chaque jeton, un réseau de routeurs choisit deux de ces groupes (les « experts ») pour traiter le jeton et combiner leurs sorties de manière additive.

Cette technique augmente le nombre de paramètres d'un modèle tout en contrôlant le coût et la latence, car le modèle n'utilise qu'une fraction de l'ensemble total de paramètres par jeton. Concrètement, Mixtral a 46,7 milliards de paramètres au total mais n'utilise que 12,9 milliards de paramètres par jeton. Il traite donc les entrées et génère la sortie à la même vitesse et pour le même coût qu'un modèle 12,9 milliards de paramètres.

Mistral AI explique que Mixtral 8x7B gère un contexte de 32 000 jetons. En clair, le modèle est censé traiter et comprendre un contexte de 32 000 tokens (comprendre des unités de texte, qui peuvent être des mots, des parties de mots, ou même des caractères, selon la manière dont le modèle a été entraîné).

Mixtral est pré-formé sur les données extraites du Web ouvert – la startup forme simultanément experts et routeurs, mais ne précise pas la nature des données de préformation.

Performance

Mistral AI a comparé Mixtral à la famille Llama 2 et au modèle de base GPT3.5. Mixtral correspond ou surpasse Llama 2 70B, ainsi que GPT3.5, sur la plupart des benchmarks.

Nom : un.png
Affichages : 5772
Taille : 56,2 Ko

Hallucinations et préjugés

Pour identifier d'éventuels défauts à corriger par un réglage fin/une modélisation des préférences, Mistral AI mesure les performances du modèle de base sur TruthfulQA/BBQ/BOLD.

Comparé à Llama 2, Mixtral est plus véridique (73,9 % contre 50,2 % sur le benchmark TruthfulQA) et présente moins de biais sur le benchmark BBQ. Dans l'ensemble, Mixtral s'en sort mieux que Llama 2 sur BOLD, avec des variances similaires au sein de chaque dimension.

Nom : deux.png
Affichages : 3926
Taille : 25,2 Ko

Maîtrises des langues

Mistral 8x7B maîtrise le français, l'allemand, l'espagnol, l'italien et l'anglais.

Nom : trois.png
Affichages : 3938
Taille : 45,3 Ko

Toutefois, il faut signaler que les points de comparaison semblent un peu dépassés, surtout pour ce qui concerne le modèle d'OpenAI. En effet, GPT-3.5 est un modèle sorti au mois de novembre 2022. Llama 2 est un peu plus récent, puisque ce modèle a fait ses débuts en juillet 2023. GPT-4 a été présenté en mars et a été rendu public en juillet 2023. GPT-4 Turbo quant à lui a été introduit le mois dernier.

À propos de GPT-4, OpenAI expliquait en mars : « GPT-4 est un grand modèle multimodal (acceptant en entrée des images et du texte, et produisant en sortie du texte) qui, bien qu'il soit moins performant que les humains dans de nombreux scénarios réels, présente des performances de niveau humain sur divers benchmarks professionnels et académiques. Par exemple, il réussit un examen du barreau simulé avec un score qui le positionne dans le top 10 % des candidats les mieux classés ; en contraste avec GPT-3.5 qui avait obtenu un score qui le plaçait au bas du classement dans le top 10 % des moins bien classés. Nous avons passé 6 mois à peaufiner de manière itérative GPT-4 en utilisant les enseignements de notre programme de tests ainsi que de ChatGPT, ce qui a donné nos meilleurs résultats à ce jour (bien qu'encore loin de la perfection) ».

Néanmoins, Mixtral 8x7B tend à s'imposer comme l'une des références open source en matière de modèle d'IA, du moins, pour l’instant.

La plateforme : les premiers points de terminaison d'IA de Mistral AI sont disponibles en accès anticipé

Mistral AI en a profité pour faire cette annonce :

Nous ouvrons aujourd’hui un accès bêta à nos premiers services de plateforme. Nous commençons simplement : la plateforme sert trois points de terminaison de chat pour générer du texte suivant des instructions textuelles et un point de terminaison d'intégration. Chaque point de terminaison a un compromis performance/prix différent.

Les deux premiers points de terminaison, mistral-tiny et mistral-small, utilisent actuellement les deux modèles ouverts publiés par Mistral AI ; le troisième, mistral-medium, utilise un modèle prototype « aux performances supérieures que nous testons en milieu déployé ».

La startup indique servir des versions préformées de ses modèles : « Nous avons travaillé à consolider les techniques d'alignement les plus efficaces (réglage fin efficace, optimisation directe des préférences) pour créer des modèles faciles à contrôler et agréables à utiliser. Nous pré-entraînons les modèles sur les données extraites du Web ouvert et effectuons un réglage fin des instructions à partir des annotations ».

Voici les différences entres les trois points de terminaison :

Mistral-tiny : Notre point de terminaison le plus rentable sert actuellement Mistral 7B Instruct v0.2, une nouvelle version mineure de Mistral 7B Instruct. Mistral-tiny ne fonctionne qu'en anglais. Il obtient 7,6 sur MT-Bench. Le modèle indiqué peut être téléchargé ici.
Mistral-small : Ce point de terminaison dessert actuellement notre nouveau modèle, Mixtral 8x7B, décrit plus en détail dans notre article de blog. Il maîtrise l'anglais/français/italien/allemand/espagnol et le code et obtient 8.3 sur MT-Bench.
Mistral-medium : Notre point de terminaison de la plus haute qualité sert actuellement un modèle prototype, qui figure actuellement parmi les modèles les mieux entretenus disponibles sur la base de références standard. Il maîtrise l'anglais/français/italien/allemand/espagnol et le code et obtient un score de 8,6 sur MT-Bench. Le tableau suivant compare les performances des modèles de base de Mistral-medium, Mistral-small et du point final d'un concurrent.

Nom : quatre.png
Affichages : 3930
Taille : 41,6 Ko

L'open source, une opportunité pour faire des affaires en IA

Mensch et ses cofondateurs Timothée Lacroix et Guillaume Lample ont tous la trentaine et se connaissent depuis l’école, où ils étudiaient tous dans le domaine de l’intelligence artificielle. Mensch travaillait chez DeepMind à Paris, et Lacroix et Lample chez Meta ; et Mensch a déclaré que c’est l’année dernière qu’ils ont commencé à discuter de la direction qu’ils voyaient prendre le développement de l’IA.

« Nous avons vu la technologie vraiment commencer à s’accélérer l’année dernière », a-t-il déclaré dans une interview, probablement en référence aux progrès réalisés par OpenAI avec son modèle GPT, qui a été un coup de fouet pour beaucoup de gens dans le domaine de l’IA et du monde de la technologie en général. Mais les liens entre OpenAI et open source ne se limitent plus qu'à la mention “open” dans son nom. D'ailleurs, Elon Musk a tweeté en février « OpenAI a été créé comme open source (c'est pourquoi je l'ai nommée "Open" AI), une société à but non lucratif pour servir de contrepoids à Google, mais maintenant elle est devenue une société à source fermée et à profit maximum contrôlée de manière efficace par Microsoft ».

Mensch, Lacroix et Lample ont estimé qu’une approche propriétaire était en train de s’imposer comme la norme, et ils ont vu une opportunité de faire les choses différemment : « L’open source est une partie essentielle de notre ADN », a souligné Mensch. Il est trop tôt pour parler de ce que Mistral fait ou fera, mais d’après ce que Mensch a dit, le plan est de construire des modèles en utilisant uniquement des données publiques disponibles pour éviter les problèmes juridiques que certains ont rencontrés avec les données d’entraînement, a-t-il dit ; les utilisateurs pourront également contribuer avec leurs propres jeux de données.

Nom : cinq.png
Affichages : 4481
Taille : 265,8 Ko

Guillaume Lample, Arthur Mensch et Timothée Lacroix, les cofondateurs de Mistral AI

Une alternative à OpenAI

Mistral se positionne comme un concurrent direct d’OpenAI, qui a été fondé en 2015 par un groupe d’entrepreneurs et d’investisseurs du secteur technologique, dont Elon Musk et Peter Thiel. OpenAI s’est fait connaître pour ses recherches innovantes sur l’IA générative, notamment son modèle GPT-3 qui peut produire du texte cohérent à partir d’un simple mot-clé ou d’une phrase. OpenAI a également lancé une plateforme commerciale appelée OpenAI Codex, qui permet aux développeurs d’utiliser l’IA pour créer des applications, des sites web et des jeux.

Mistral veut offrir une alternative à OpenAI, en proposant des modèles d’IA générative plus accessibles, plus éthiques et plus personnalisables. Mensch a déclaré que Mistral vise à créer une « IA démocratique », qui ne soit pas contrôlée par quelques acteurs dominants, mais qui soit ouverte à la collaboration et à l’innovation de la communauté. Il a également souligné que Mistral s’engage à respecter les principes de l’IA responsable, en veillant à ce que ses modèles soient transparents, équitables et respectueux de la vie privée.

D'autres startups européennes à l'assaut de l'IA générative

Mistral n’est pas la seule start-up européenne à se lancer dans le domaine de l’IA générative. En avril, la société britannique Aleph Alpha a levé 27 millions d’euros pour développer son propre modèle de langage basé sur le GPT-3. En février, la société allemande Deepset a levé 5 millions d’euros pour créer une plateforme d’IA conversationnelle basée sur le modèle BERT de Google. Et en janvier, la société française ReciTAL a levé 3,5 millions d’euros pour proposer des solutions d’analyse et de génération de texte basées sur l’IA.

Mistral espère se démarquer par la qualité et la diversité de ses modèles, ainsi que par sa capacité à répondre aux besoins spécifiques de ses clients. Mensch a déclaré que Mistral vise à créer des modèles capables de gérer non seulement le texte, mais aussi les images, les sons et les vidéos. Il a également affirmé que Mistral sera en mesure de fournir des modèles adaptés à différents domaines, langues et cultures.

« Nous voulons créer une IA qui soit utile pour tous les cas d’usage, pas seulement pour quelques-uns », a-t-il dit. « Nous voulons créer une IA qui soit capable de comprendre le monde et de le rendre meilleur ».

Source : Mistal AI (1, 2), Hugging Face (compte Mistral AI)

Et vous ?

Quels sont les avantages et les inconvénients des modèles d’IA génératifs comme Mixtral 8x7B par rapport aux solutions propriétaires plus importantes ?

Comment Mistral AI pourrait-elle influencer l’écosystème de la French Tech et renforcer la position de la France dans le domaine de l’intelligence artificielle ?

Quelles pourraient être les implications de l’accès au modèle Mixtral 8x7B pour les développeurs ?

En quoi l’approche de Mistral AI en matière d’entraînement plus économique pourrait-elle changer la donne pour les startups d’IA ?

Quel rôle les investisseurs et le gouvernement français devraient-ils jouer pour soutenir des initiatives comme Mistral AI ?

**Anselme45** · 12/12/2023, 18h02

Quel rôle les investisseurs et le gouvernement français devraient-ils jouer pour soutenir des initiatives comme Mistral AI ?

Le rôle des investisseurs? On sait déjà!!! Transformer par miracle une startup qui n'engrange pas un centime d'euro de bénéfice en une société qui vaut des milliards

Le rôle du gouvernement français? Se dépêcher d'imposer fiscalement les heureux fondateurs milliardaires avant que la baudruche n'explose

PS: J'adore cette stratégie marketing auto-réalisatrice: Annoncer à tous les médias que l'on est une startup qui vaut x millions, puis un peu plus tard que l'on vaut x milliards (ce serait bête de passer par l'étape xxx millions), il y aura bien des couillons pour apporter le financement que l'on veut obtenir... Et comme cela ne suffit pas, on joue sur le cocoricoooooooo français "on est meilleur que les ricains!!!"... Ah bon... Est-ce qu'il y a une seule entreprise européenne (on ne parle même pas de la France) qui est devenue leader en étant meilleur que les entreprises américaines dans le domaine du numérique? Perso, je n'en vois AUCUNE!

**Diablo150** · 13/12/2023, 11h39

Tu devrais essayer leur modèle Mistral-7B, il est devenu la référence parmi les modèles libres.
Depuis le mois de Septembre, il a presque éclipsé Llama de Meta sur HugginfFace et des modèles dérivés comme OpenChat 3.5 sont presque au même niveau que ChatGPT pour une fraction de la taille (et donc en ressources nécessaires).

Donc oui, Mistral AI est bien une des entreprises les plus en vues depuis ces derniers mois.

Range donc tes sarcasmes au tiroir, va militer à la LFI et laisse les gens qui bossent tranquilles.

**OrthodoxWindows** · 13/12/2023, 12h22

Une chose est sûr, sur le plan de la qualité de ses modèles, MistralAI ne démérite pour l'instant absolument pas.

C'est marrant, j'ai comme l'impression que si ça avait été le cas, il y aurais de nombreux commentaires moqueurs...

**Anselme45** · 13/12/2023, 14h26

Envoyé par Diablo150

Tu devrais essayer leur modèle Mistral-7B, il est devenu la référence parmi les modèles libres.
Depuis le mois de Septembre, il a presque éclipsé Llama de Meta sur HugginfFace et des modèles dérivés comme OpenChat 3.5 sont presque au même niveau que ChatGPT pour une fraction de la taille (et donc en ressources nécessaires).

Donc oui, Mistral AI est bien une des entreprises les plus en vues depuis ces derniers mois.

Range donc tes sarcasmes au tiroir, va militer à la LFI et laisse les gens qui bossent tranquilles.

1.
"Idiotie" écris-tu? Avant d'insulter l'avis des autres, commence par nous fournir la preuve de ce que tu avances! Qui a dit que ton modèle machin est "devenu la référence"?????????????????????????????

Perso, tous ce que je vois... C'est 3 gravures du mode qui posent sur une photo et qui font plus penser au prochain "boys-band" à la mode qu'à des entrepreneurs qui pèsent 2 milliards! Mais peut-être es-tu l'un d'eux?

2.
Seul le temps dit si une entreprise est sérieuse et si elle a du succès ou non! Tout ce que je sais, c'est qu'il n'y a pas une seule entreprise française qui a émergé dans le monde du numérique... Ayons une pensée émue pour Qwant qui était LA startup à succès qui allait détrôner les américains... On a vu ce qu'il est advenu...

3. En l'état, tout ce que je constate est que TA référence fait plus parler d'elle pour obtenir du financement que pour étaler ses succès technologiques.

Alors n'hésite pas, si tu es si convaincu, je t'invite à participer au financement de cette merveilleuse startup à succès et évite d'insulter les autres...Merci!

**Mingolito** · 13/12/2023, 14h53

Il y a des startups bidons qui lèvent des centaines de millions d'euros pour monter des escroqueries à l'IA et au lieu d'IA les services "IA" sont en fait des employés offshore payés une misère, on a vu ça par exemple sur les IA de services aux entreprises, de fastfood et même de robot taxi, mais Mistral c'est du sérieux, ce qu'ils proposent c'est vraiment de l'IA et c'est largement valable.

**Diablo150** · 13/12/2023, 15h29

1.
"Idiotie" écris-tu? Avant d'insulter l'avis des autres, commence par nous fournir la preuve de ce que tu avances! Qui a dit que ton modèle machin est "devenu la référence"?????????????????????????????

Perso, tous ce que je vois... C'est 3 gravures du mode qui posent sur une photo et qui font plus penser au prochain "boys-band" à la mode qu'à des entrepreneurs qui pèsent 2 milliards! Mais peut-être es-tu l'un d'eux?

2.
Seul le temps dit si une entreprise est sérieuse et si elle a du succès ou non! Tout ce que je sais, c'est qu'il n'y a pas une seule entreprise française qui a émergé dans le monde du numérique... Ayons une pensée émue pour Qwant qui était LA startup à succès qui allait détrôner les américains... On a vu ce qu'il est advenu...

3. En l'état, tout ce que je constate est que TA référence fait plus parler d'elle pour obtenir du financement que pour étaler ses succès technologiques.

Alors n'hésite pas, si tu es si convaincu, je t'invite à participer au financement de cette merveilleuse startup à succès et évite d'insulter les autres...Merci!

"Idiotie": Tu peux le voir comme une insulte, mais c'est en miroir de ton message pédant sans argument autre que "vous vous prenez pour qui les français à essayer de rivaliser avec les ricains".

Je dis que le modèle est devenu la référence car en dehors des grands médias qui ne regardent qu'OpenAI et les millliards de Microsoft, il y a beaucoup d'effervescence autour de Mistral IA.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

En l'état, tout ce que je constate est que TA référence fait plus parler d'elle pour obtenir du financement que pour étaler ses succès technologiques.

Là oui, on peut vraiment parler d'idiotie.
Alpaca eval:
https://tatsu-lab.github.io/alpaca_eval/

C'est un comparatif où on a tout un tas de problèmes posés au llm qui sont ensuite évaluées par GPT-4.
GPT-4-Turbo est là 97.7 % de réussite, Zephyr-7B est à 90.60%, ChatGPT à 81.71%
Pour info Zephyr-7B est basé sur Mistral et a été développé par les équipes de HuggingFace (cette dernière entreprise étant également créée par des Français, on le rappelle)

Et on rappelle également que ce comparatif n'est pas à jour, qu'OpenChat 3.5 fait mieux et que ces modèles sont minuscules en temps de calcul comparé à GPT4 ou même ChatGPT.

Autre comparatifs:
https://huggingface.co/spaces/Huggin...lm_leaderboard

Si tu regarde bien, il y a tout un tas de modèles basés sur Mistral-7B en haut du tableau et qu'ils sont souvent (suivant la qualité de l'apprentissage) d'un niveau proche de Llama 2 et ses 70 milliards de paramètres.
Il y a également un modèle Chinois récent baptisé Yi qui est également très performant.

Et oui, si tu suivais ce qu'ils se passe en dehors de ce que tu peux trouver sur les médias grand publique, ils ont su créer un réél engouement derrière leurs modèle.
Tu noteras que leur modèle Mistral-7B a été téléchargé plus de 500 000 fois sur huggingface:
https://huggingface.co/mistralai

(Plus de 502K pour le modèle de base, 428K pour le modèle Instruct).

Sans parler des centaines de modèles dérivés:
https://huggingface.co/models?other=...sort=downloads

Et t'imagines bien que ceux qui téléchargent ces modèles sont généralement pas des utilisateurs lambda, nombre de ces téléchargement alimentent des clouds qui génèrent du texte, du code et tout un tas de choses que tu ne vois pas si tu ne regarde que la partie émergée de l'Iceberg
Si c'est pas un succès je sais pas ce que c'est !

Essai de voir ce qu'il se passe en ce moment depuis la sortie de leur denier modèle, c'est le feu, tout un tas de projets comme vLLM ou Llama.cpp sont en plein bouillonement pour le faire tourner.

Concernant le *succès*, tu ne semble regarder que l'aspect financier, mais on en sais rien si OpenAI fait du bénéfice, la seule certitude est qu'ils ont Microsoft derrière eux qui est en mesure de leur fournir des sommes astronomiques et que pour l'instant ils peuvent s'en servir pour essayer d'écraser la concurrence en vendant leurs tokens à perte.

Autrement dit l'avantage d'OpenAI semble plus être financier (et celui de la notoriété du fait d'avoir été les pionniers dans leur branche) que strictement technique.

Tu peux considérer que je t'insulte si tu veux, mais je t'invite vraiment à essayer leur modèle, tu verras, tu découvriras tout un monde :p
Petit indice:
https://github.com/ggerganov/llama.cpp

Et essai ce modèle, tu m'en diras des nouvelles:
https://huggingface.co/TheBloke/Neur...istral-7B-GGUF

**unanonyme** · 13/12/2023, 15h36

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
curl https://ollama.ai/install.sh | sh
ollama run mistral

**unanonyme** · 13/12/2023, 16h29

C'est le délire quand même, tu lui files un bout de code dégueulasse sans commentaires,
avec la moitié des fonctions non définies, et ça te sort une explication raisonnable....

On trouvera des dizaines de reproche à faire, mais moi ça me fait déjà froid dans le dos...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
>>> package main
... 
... import (
...         "bufio"
...         "bytes"
...         "encoding/binary"
...         "flag"
...         "fmt"
...         "io"
...         "math"
...         "os"
...         "sort"
...         "strconv"
...         "strings"
...         "sync"
...         "time"
... 
...         "github.com/fxtlabs/primes"
...         "github.com/pkg/profile"
...         "golang.org/x/text/language"
...         "golang.org/x/text/message"
... )
... 
... func main() {
... 
...         n := flag.Int("n", 100_000, "n")
...         k := flag.Int("k", 5, "k")
...         path := flag.String("path", "-", "path")
...         prof := flag.Bool("prof", true, "profile")
...         dbg := flag.Bool("debug", false, "debug")
...         vrb := flag.Bool("verbose", true, "verbose")
...         mt := flag.Bool("mt", false, "parallel")
...         cache := flag.Int("cache", -1, "cache")
... 
...         flag.Parse()
... 
...         debug = *dbg
...         verbose = *vrb
... 
...         st := time.Now()
...         defer func() {
...                 fmt.Fprintln(os.Stderr, time.Since(st))
...         }()
... 
...         if *prof {
...                 defer profile.Start(profile.CPUProfile, profile.ProfilePath(".")).Stop()
...         }
... 
...         var dst io.Writer = os.Stdout
...         if p := strings.TrimSpace(*path); p != "-" && p != "" {
...                 f, err := os.Create(p)
...                 if err != nil {
...                         panic(err)
...                 }
...                 dst = f
...                 defer f.Close()
...         }
... 
...         load_primes := load_primes_bin
... 
...         if *cache > -1 {
...                 primes_cache = load_primes(*cache)
...         } else {
...                 k := 1
...                 if *n%10 == 0 {
...                         for i := len(strconv.Itoa(*n/10)) * 2; i > 0; i-- {
...                                 k *= 10
...                         }
...                 } else {
...                         for i := len(strconv.Itoa(*n)) * 2; i > 0; i-- {
...                                 k *= 10
...                         }
...                 }
...                 primes_cache = load_primes(k)
...         }
... 
...         out := dst
...         fn := combin_primes
...         if *mt {
...                 fn = combin_primes_mt
...         }
...         print_res := func(res []int) {
...                 fmt.Fprint(out, "  => ")
...                 s := 0
...                 for _, r := range res[:len(res)-1] {
...                         fmt.Fprintf(out, "%v,", r)
...                         s += r
...                 }
...                 fmt.Fprintf(out, "%v", res[len(res)-1])
...                 s += res[len(res)-1]
...                 fmt.Fprintf(out, "  => %v %v\n", check_primes(res), s)
...         }
...         allres := [][]int{}
...         fn(*n, *k, func(res []int) {
...                 print_res(res)
...                 t := make([]int, len(res))
...                 copy(t, res)
...                 allres = append(allres, t)
...         })
... 
...         if p := strings.TrimSpace(*path); p == "-" || p == "" {
...                 fmt.Println()
...                 fmt.Println()
...         }
...         for _, res := range allres {
...                 print_res(res)
...         }
... }
... 
... var verbose = !true
... var debug = !true
... 
... func combin_primes(n, k int, cb func([]int)) {
... 
...         ps := load_primes(n)
...         u := len(ps)
...         if debug {
...                 fmt.Fprintln(os.Stderr, "n", n)
...                 fmt.Fprintln(os.Stderr, "k", k)
...                 fmt.Fprintln(os.Stderr, "u", u)
...         }
...         res := make([]int, k)
...         idx := make([]int, k)
...         for i := range idx {
...                 idx[i] = i + 1
...         }
...         l := k - 1
...         c := 1
...         var best_sum int
...         var best_sumk1 int
...         for idx[0] <= u-k && (best_sumk1 < 1 || ps[idx[0]] <= best_sumk1) {
...                 if idx[0] == 2 {
...                         idx[0]++
...                         idx[1] = idx[0] + 1
...                 }
...                 ok := valid_primes_pairs(ps, idx[:c], idx[c])
...                 if debug {
...                         fmt.Fprintf(os.Stderr, "c=%v ", c)
...                         fmt.Fprintf(os.Stderr, "idx=%-20v ", fmt.Sprint(idx[:c+1]))
...                         fmt.Fprintf(os.Stderr, "primes=%v ", print_primes(ps, idx[:c+1]))
...                         fmt.Fprintln(os.Stderr)
...                         <-time.After(time.Second / (2 * 5))
...                 }
... 
...                 if c == l-1 {
...                         if ok {
...                                 s := sum_primes(ps, idx[:c+1])
...                                 r := (n - s) / (k - (c + 1))
...                                 n := sort.SearchInts(ps, r)
...                                 if n < idx[c] {
...                                         n = idx[c] + 1
...                                 }
...                                 c++
...                                 idx[c] = n
...                         } else {
...                                 if idx[c] >= u-(k-c) {
...                                         c--
...                                 } else if best_sum > 0 {
...                                         s := sum_primes(ps, idx[:c+1])
...                                         if s > best_sum || s+(ps[idx[c]]*(k-c+1)) > best_sum {
...                                                 c--
...                                         }
...                                 }
...                                 idx[c]++
...                         }
...                 } else if c == l {
...                         if ok {
...                                 s := sum_primes(ps, idx)
...                                 if s >= n && (best_sum < 1 || best_sum >= s) {
...                                         for i, v := range idx {
...                                                 res[i] = ps[v]
...                                         }
...                                         best_sum = s
...                                         best_sumk1 = s / k
...                                         cb(res)
...                                         c--
...                                 }
...                                 if idx[c] >= u-(k-c) {
...                                         c--
...                                 } else if best_sumk1 > 0 && ps[idx[c]] > best_sumk1 {
...                                         c--
...                                 }
...                                 idx[c]++
... 
...                         } else {
...                                 if idx[c] >= u-(k-c) {
...                                         c--
...                                 } else if best_sum > 0 {
...                                         s := sum_primes(ps, idx[:c+1])
...                                         if s > best_sum {
...                                                 c--
...                                         }
...                                 }
...                                 idx[c]++
...                         }
...                 } else {
...                         if ok {
...                                 c++
...                                 idx[c] = idx[c-1] + 1
...                         } else {
...                                 if idx[c] >= u-(k-c) {
...                                         c--
...                                 } else if best_sum > 0 {
...                                         s := sum_primes(ps, idx[:c+1])
...                                         if s > best_sum || s+(ps[idx[c]]*(k-c+1)) > best_sum {
...                                                 c--
...                                         }
...                                 }
...                                 idx[c]++
...                         }
...                 }
... 
...                 if c == 0 {
...                         if verbose {
...                                 fmt.Fprintln(os.Stderr, "....", ps[idx[0]])
...                         }
...                         c = 1
...                         idx[c] = idx[c-1] + 1
...                 }
...         }
... }

This Go program is designed to find combinations of prime numbers that sum up to a given number `n`, with exactly `k` numbers in the combination. The
program supports various command-line flags for controlling its behavior, such as specifying the input values for `n` and `k`, setting a debug mode,
enabling verbose output, using parallel processing, and loading primes from a cache file instead of computing them on the fly.

Here's a brief overview of the code:

- The program begins by defining flags for various command-line arguments, such as `n`, `k`, `path`, `prof`, `debug`, `verbose`, and `mt`. The
`flag.Parse()` function is then called to parse the command-line arguments and set the corresponding flags based on their values.

- The program sets some global variables, such as `debug` and `verbose`, based on the command-line flags. It also defines some helper functions, such as
`load_primes_bin` for loading primes from a binary file, `valid_primes_pairs` for checking if a pair of prime indices represents valid prime numbers, and
`sum_primes` for computing the sum of the first `n` prime numbers.

- The main function is defined, which sets up the input flags, loads the primes based on the cache flag, defines some helper functions, and then calls the
`combin_primes` function to find the combinations of prime numbers that sum up to `n` with exactly `k` numbers in each combination.

- The `combin_primes` function is defined, which takes as input the value of `n`, the number of desired combinations, and a callback function `cb` that
will be called with each combination that is found. The function initializes some variables and then enters a loop to find all valid combinations. Within
the loop, it checks if the current combination is valid based on whether its sum is equal to `n` and whether the prime numbers in the combination are
valid. If a valid combination is found, it sums up the prime numbers in the combination and checks if it's greater than or equal to `n`. If so, it calls
the callback function with the combination as an argument and then backtracks to find other combinations.

- The program outputs the results to the standard output stream by default, but can also write them to a file if the `path` flag is set to a valid file
path. It also profiles the CPU usage if the `prof` flag is set to true.

brrr

**Jade Emy** · 09/01/2024, 16h41

Le modèle de langage open source Mixtral 8x7B de la startup française Mistral AI écrase la concurrence d'après un sujet de recherche.

Selon une publication, "Mixtral of Experts", le modèle de langage open source Mixtral 8x7B de la startup française Mistral AI écrase la concurrence. Les chercheurs, auteurs de la publication, livrent les particularités du modèle et sa force par rapport aux autres modèles de même taille.

Cette publication détaille le modèle qui est dans la nature depuis environ un mois. Mixtral 8x7B est très, très bon. Il a une taille approximative de 13 milliards de paramètres, et est classé beaucoup, beaucoup plus haut que les modèles de taille concurrente. Il est étonnamment bon pour un modèle de cette taille et constitue un outil quotidien très performant sur un Mac pour le chat, la saisie de code et d'autres utilisations.

Une chose qui est apparue depuis la publication des poids, et qui n'est pas mentionnée dans ce document, est qu'il semble assez probable que les 8 experts ont tous été ensemencés par Mistral 7B et ont divergé par la suite. Cela a donné lieu à de nombreuses expériences dans la communauté LLM locale avec le clonage de modèles comme moyen de générer des experts à moindre coût. On pensait généralement que l'entraînement d'un réseau 8x7B représenterait autant de travail que l'entraînement de 8 réseaux 7B, mais cela ne semble pas avoir été le cas pour Mistral, ce qui est très intéressant.

Résumé

Nous présentons Mixtral 8x7B, un modèle de langage basé sur un mélange épars d'experts (SMoE). Mixtral a la même architecture que Mistral 7B, à la différence que chaque couche est composée de 8 blocs feedforward (c'est-à-dire des experts). Pour chaque jeton, à chaque couche, un réseau de routeurs sélectionne deux experts pour traiter l'état actuel et combiner leurs résultats. Même si chaque jeton ne voit que deux experts, les experts sélectionnés peuvent être différents à chaque étape. Par conséquent, chaque jeton a accès à 47 milliards de paramètres, mais n'utilise que 13 milliards de paramètres actifs pendant l'inférence.

Mixtral a été entraîné avec une taille de contexte de 32 000 jetons et il surpasse ou égale Llama 2 70B et GPT-3.5 sur tous les benchmarks évalués. En particulier, Mixtral surpasse largement Llama 2 70B dans les domaines des mathématiques, de la génération de code et du multilinguisme. Nous fournissons également un modèle affiné pour suivre les instructions, Mixtral 8x7B - Instruct, qui surpasse GPT-3.5 Turbo, Claude-2.1, Gemini Pro, et Llama 2 70B - chat model sur les benchmarks humains. Les modèles de base et d'instruction sont publiés sous la licence Apache 2.0.

Conclusion

Dans cet article, nous avons présenté Mixtral 8x7B, le premier réseau de mélange d'experts à atteindre une performance de pointe parmi les modèles open-source. Mixtral 8x7B Instruct surpasse Claude-2.1, Gemini Pro, et GPT-3.5 Turbo sur des benchmarks d'évaluation humaine. Parce qu'il n'utilise que deux experts à chaque pas de temps, Mixtral n'utilise que 13 milliards de paramètres actifs par jeton tout en surpassant le meilleur modèle précédent utilisant 70 milliards de paramètres par jeton (Llama 2 70B). Nous mettons nos modèles entraînés et affinés à la disposition du public sous la licence Apache 2.0. En partageant nos modèles, nous souhaitons faciliter le développement de nouvelles techniques et applications qui peuvent bénéficier à un large éventail d'industries et de domaines.

Source : "Mixtral of Experts"

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

Mistral AI publie un nouvelle version de son modèle de langage open source. La startup française estime avoir le meilleur modèle « en ce qui concerne les compromis coût / performance »

La startup française Mistral AI publie un modèle d'IA open source de 7,3 milliards de paramètres appelé "Mistral 7B", qui serait plus performant que le modèle d'IA Llama 2 13B de Meta

2023, l'année de l'IA ? L'année a été marquée par l'émergence de l'IA générative, une explosion des investissements dans le domaine et l'accélération dans les législations

**blackcellar** · 12/01/2024, 13h38

Envoyé par Anselme45

Perso, je me pose une question que jamais aucun média ne pose quand ils nous parlent de startup...

Les médias commencent toujours leur article par un "startup ... évaluée à xxx millions de dollars" quand ce n'est pas "évaluée à x milliard", histoire de donner à la startup en question une importance (que souvent elle n'a pas!). A remarquer qu'il ne viendrait jamais à l'idée d'un média d'écrire un "Total, multinationale active dans l'énergie, évaluée à xxx milliards"

Nous avons donc ici un "Mistral : la startup française d'IA évaluée à 260 millions de dollars"

Ok! Alors je pose ma question:

Qui a évalué cette startup à 260 millions? Ses fondateurs? Les financiers qui y ont mis du pognon et espèrent un retour rapide sur investissement?

En fait une startup n'est ni plus ni moins qu'une société en devenir qui a un status particulier. Une évaluation de startups est le prix que les investisseurs imposent à l'entreprise à ses débuts, lorsqu'elle est encore privée. L'évaluation est basée sur un certain nombre de facteurs, notamment le modèle économique de la startup, la taille de son marché, son paysage concurrentiel et son équipe de direction.
La méthode la plus courante pour évaluer une Start-up est la méthode des flux de trésorerie actualisés (DCF). Cette approche actualise les flux de trésorerie futurs attendus de l'entreprise à leur valeur actuelle, en utilisant un taux d'actualisation qui reflète le risque des flux de trésorerie des startups.
Une autre méthode courante d'évaluation des startups est l'analyse des sociétés comparables (CCA). Cette approche examine les sociétés cotées en bourse qui sont similaires à la Start-up en termes de modèle commercial, de taille et de potentiel de croissance, et utilise les valorisations de ces sociétés comme référence.
La dernière méthode bien discutée est la méthode du capital-risque (VC). Cette approche valorise une start-up en fonction du montant d'argent que les sociétés de capital-risque sont prêtes à investir dans l'entreprise. Cette méthode est généralement utilisée pour les startups à un stade ultérieur qui ont déjà levé un capital-risque important. C'est comme ça qu'on procède on choisit la méthode de calcul qui correspond le mieux à la startup qui doit être évaluée.

**Mathis Lucas** · 01/02/2024, 13h31

Le PDG de Mistral confirme qu'un modèle d'IA open source de l'entreprise avec des performances proches de celles de GPT-4 a fait l'objet de fuite
ces résultats accentuent la pression sur OpenAI

Arthur Mensch, PDG de la startup française d'IA Mistral, a confirmé qu'un nouveau modèle d'IA de pointe en cours de développement par l'entreprise a fait l'objet de fuite. Les fichiers sources du modèle de Mistral ont été divulgués le 28 janvier sur la plateforme d'IA open source Hugging Face par un utilisateur avec le pseudonyme "Miqu Dev". Les premières évaluations indiquent que le modèle affiche des performances proches de celles du modèle GPT-4 d'OpenAI, notamment sur le benchmark EQ-Bench. La fuite serait "l'œuvre d'un employé trop enthousiaste de l'un des clients de Mistral qui dispose d'un accès anticipé aux produits de l'entreprise".

Mistral AI est l'une des startups d'IA les plus en vue actuellement. Fondée en avril 2023 et basée à Paris, en France, la société publie de grands modèles de langage (LLM) open source et ses produits sont classés parmi les meilleurs sur le marché. L'entreprise a été victime d'une fuite de données à la fin du mois de janvier. Le 28 janvier, un utilisateur répondant au nom de "Miqu Dev" a publié un ensemble de fichiers sur Hugging Face, la principale plateforme de partage de modèles d'IA et de codes open source. Pris ensemble, ces fichiers constituaient un modèle open source apparemment nouveau, baptisé "miqu-1-70b".

An over-enthusiastic employee of one of our early access customers leaked a quantised (and watermarked) version of an old model we trained and distributed quite openly.

To quickly start working with a few selected customers, we retrained this model from Llama 2 the minute we got…
— Arthur Mensch (@arthurmensch) January 31, 2024

La série de fichiers semblait appartenir à Mistral. Lorsque des volontaires ont enquêté, ils ont découvert que les caractéristiques de l'invite étaient similaires à celles du modèle "Mixtral 8x7b", développé par l'entreprise parisienne. Mixtral 8x7b a été décrit comme le grand modèle de langage open source le plus performant disponible en janvier 2024. Certains testeurs ont rapporté que le modèle "miqu-1-70b semblait surpasser GPT-4 en matière de performances. En outre, des chercheurs en apprentissage automatique ont suggéré que le terme "miqu" pourrait être une abréviation de "Mistral Quantized" (version quantifiée de Mistral).

Dans le domaine de l'apprentissage automatique (machine learning - ML), la quantification fait référence à une technique utilisée pour rendre possible l'exécution de certains modèles d'IA sur des ordinateurs et des puces moins puissants en remplaçant de longues séquences numériques spécifiques dans l'architecture d'un modèle par des séquences plus courtes. Dans les discussions, les utilisateurs ont supposé qu'il pourrait s'agir d'un nouveau modèle secrètement divulgué par l'entreprise elle-même. Mistral est connu pour lancer de nouveaux modèles et des mises à jour sans fanfare par des moyens ésotériques et techniques.

Mercredi, Arthur Mensch, cofondateur et PDG de Mistral, a publié un billet sur X (ex-Twitter) confirmant la fuite et mettant fin aux spéculations. « Un employé trop enthousiaste de l'un de nos clients en accès anticipé a divulgué une version quantifiée (et en filigrane) d'un ancien modèle que nous avons formé et distribué très ouvertement. Pour commencer à travailler rapidement avec quelques clients sélectionnés, nous avons réentraîné ce modèle à partir de Llama 2 dès que nous avons eu accès à l'ensemble de notre cluster ; le préentraînement s'est terminé le jour de la sortie de Mistral 7B », a déclaré Mensch.

LMFAO pic.twitter.com/Ak5Ubi6wWQ
— Alice (e/nya) (@Alice_comfy) January 31, 2024

Il est hilarant de constater que Mensch s'est également rendu sur le site illicite de HuggingFace, non pas pour demander qu'il soit retiré, mais pour laisser un commentaire indiquant que l'auteur de la divulgation pourrait envisager de s'attribuer le produit". Mensch a demandé à la communauté de rester à l'écoute des prochaines sorties de Mistral au sujet de ses outils d'IA. Pour l'heure, il semble que Mistral entraîne non seulement une version de ce modèle dit "miqu" qui s'approche des niveaux de performance de GPT-4, mais qu'il pourrait en fait les égaler ou les dépasser, si l'on interprète ses commentaires avec générosité.

À ce propos, Google a récemment publié une nouvelle version de Bard basée sur son modèle Gemini Pro. Les évaluations ont révélé que cette nouvelle mouture a surclassé GPT-4 en matière de performance et occupe désormais la deuxième place du classement HuggingFace Chatbot Arena, juste derrière GPT-4 Turbo. Ce résultat important a suscité l'enthousiasme et l'impatience de la communauté pendant que Google se prépare à lancer son très attendu Gemini Ultra. De son côté, OpenAI se prépare également à lancer le GPT-5 et s'attend à ce que ce nouveau grand modèle de langage le rapproche un peu plus de l'AGI.

Dans le cas de Mistral, si les performances de son prochain modèle surpassent celles de GPT-4, cela pourrait représenter un moment décisif non seulement pour l'IA générative open source, mais également pour l'ensemble du domaine de l'IA et de l'informatique : depuis sa sortie en mars 2023, GPT-4 est resté le modèle le plus puissant et le plus performant au monde d'après la plupart des critères d'évaluation sur les différents benchmarks. La sortie d'un modèle open source surpassant les performances de GPT-4 exercerait une pression considérable sur OpenAI et ses rivaux qui développent des modèles à source fermée.

Whatever Miqu is, it has some sort of special sauce. It gets an 83.5 on EQ-Bench (evaluated locally), surpassing *every other LLM in the world except GPT-4*. EQ-Bench has a 0.97 correlation w/ MMLU, and a 0.94 correlation w/ Arena Elo. It *beats* Mistral Medium - at Q4_K_M. I… pic.twitter.com/0gOOPjxjPD
— N8 Programs (@N8Programs) January 30, 2024

Selon certains experts, de plus en plus d'entreprises se tournent vers les modèles open source, ou un mélange de modèles open source et propriétaires, pour faire fonctionner leurs applications. Ils estiment qu'OpenAI conserve actuellement l'avantage avec ses modèles GPT-4 Turbo et GPT-4V plus rapides, mais l'écriture sur le mur est assez claire : « la communauté de l'IA open source rattrape rapidement son retard. OpenAI aura-t-elle suffisamment d'avance, et un "fossé" métaphorique avec son GPT Store et d'autres fonctionnalités, pour rester en tête de la course à l'IA la plus performante de l'industrie informatique ? ».

OpenAI teste actuellement en bêta une nouvelle fonctionnalité de ChatGPT qui introduit les conversations multi-GPT. Cela signifie que les utilisateurs pourront interagir avec différents modèles GPT dans la même fenêtre de chat. La fonction est accessible en tapant "@" suivi du nom d'un modèle GPT. Cela permet de créer un assistant universel plus personnalisé dans la même fenêtre de chat qui peut relier les réponses et les compétences de chaque GPT les unes aux autres. La fonction supprime la nécessité de faire des allers-retours entre plusieurs chats avec différents modèles GPT pour terminer un projet ou une tâche.

Source : Arthur Mensch, cofondateur et PDG de Mistral AI

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des performances présumées du modèle d'IA de Mistral ?

Que représenterait pour l'industrie un modèle d'IA open source qui surpasse les performances de GPT-4 ?

Quels impacts cela pourrait avoir sur OpenAI et les grandes entreprises telles que Microsoft et Google?

Selon vous, OpenAI va-t-il demeurer encore longtemps à la tête de la course à l'IA ? Pourquoi ?

Pensez-vous que l'open source va prendre la tête de la course à l'IA dans un avenir proche ?

Voir aussi

Google Bard fait un grand bond en avant et devance GPT-4 dans le classement des modèles d'IA les plus performants, il est toutefois toujours moins performant que GPT-4 Turbo

Une nouvelle fonctionnalité bêta de ChatGPT vous permet d'interagir avec plusieurs modèles GPT dans la même fenêtre de chat, elle est disponible pour certains abonnés de ChatGPT Plus

Meta lance Code Llama 70B, une nouvelle version de son modèle de langage (LLM) beaucoup plus puissante pour rivaliser avec GitHub Copilot

**Diablo150** · 01/02/2024, 15h26

Quand on voit la différence de performance entre un modèle quantifié en K_4 par rapport à K_8 sur llama.cpp et que le modèle K_4 arrive presque au même niveau que GPT-4, on a potentiellement quelque chose qui pourrait être plus performant que GPT-4 !

Par contre ça signifie que pour avoir un équivalent de GPT-4 en local avec du matériel pour particuliers, il faudrait quelque chose comme 3 4090TI à 24G de VRAM, soit une machine à 8000 balles.

Je ne sais pas quel est le secret de Mistral-AI pour arriver à ce résultat, ça fait plus d'un an qu'il y a des milliers de modèles modifiés à partir de Llama 70b (1 & 2) et aucun n'est arrivé à un tel niveau de performance, mais ils doivent avoir des données et des protocoles d'apprentissage aux petits oignon.

Bravo à eux.
Reste que le modèle ne fait pas tout et que pour l'instant leur API est bien vide comparé à OpenAI.

**Anselme45** · 07/02/2024, 10h13

Qui veut parier que l'on va avoir droit prochainement à une news "IA Open rachète Mistral"?

Certains ont depuis longtemps oublié l'objectif premier de toute start-up, faire parler d'elle et se vendre au plus offrant le plus rapidement possible pour que ses fondateurs deviennent riches le plus rapidement possible.

Avec les start-up, on est loin de la philosophie de la PME familiale!!!

**Stéphane le calme** · 20/02/2024, 23h17

Mistral Next : certains des premiers testeurs estiment que ce modèle pourrait être meilleur que GPT-4 et Gemini Ultra de Google,
le prototype du LLM disponible en mode chat direct sur LMSYS

Mistral AI, la start-up française spécialisée dans les modèles de langage multimodaux, a dévoilé son dernier prototype, Mistral Next, disponible en mode chat direct sur la plateforme Chatbot Arena. Selon certains testeurs, ce modèle, qui accepte des entrées textuelles ou visuelles et produit des sorties textuelles, serait capable de performances équivalentes ou supérieures à celles de GPT-4, le système le plus avancé d’OpenAI. Une conclusion qui ne fait toutefois pas l'unanimité, certains estimant qu'il est supérieur à Google Ultra, mais pas à GPT-4. En revanche, tous s'accordent pour dire qu'ils sont impressionnés par les résultats.

Mistral, leader de l’open-source dans le domaine des LLM (Large Language Models), se prépare à lancer son prochain modèle de langage. Celui-ci, baptisé “Mistral Next”, est déjà disponible en mode chat direct sur la plateforme Chatbot Arena. Cette information, confirmée par un développeur de Mistral sur Discord, laisse présager l’arrivée prochaine d’un nouveau prototype ambitieux. Alors que son modèle “Medium”, récemment publié, se positionne au niveau de GPT 3.5, “Next” pourrait bien s’imposer comme le modèle le plus puissant jamais développé par la startup.

Peu d'informations ou de détails préalables ont filtré sur le prototype de Mistral Next. Les internautes sont encouragés à le tester sur LMSYS Chat et à faire part de leurs commentaires.

LMSYS (Large Model Systems Organization) développe des modèles ouverts, des ensembles de données, des systèmes et des outils d’évaluation pour les grands modèles. En mai 2023, elle a lancé Chatbot Arena, une plateforme ouverte et participative d’évaluation des LLM basé sur le système Elo, une méthode d’évaluation développée pour classer les joueurs dans des jeux compétitifs tels que les échecs. Le site permet à un utilisateur de poser les mêmes questions à 2 modèles anonymisés et de voter pour celui considéré comme le meilleur.

Il n'y a pas de détails sur les paramètres ou la formation de Mistral Next, mais certains commentaires des premiers testeurs affirment qu'il est excellent en matière de raisonnement logique et d'écriture de code. Certains disent même qu'il est au niveau ou au-dessus du modèle GPT-4 d'OpenAI à cet égard. Mistral est peut-être en train de réaliser discrètement des performances bien supérieures à sa notoriété relative. Le modèle Mistral Medium, qui fait partie de la plateforme de modèles de chat La Platforme, occupe la sixième place du classement LMSYS, derrière seulement quatre versions de GPT-4 et le modèle Gemini Pro de Google.

« Aujourd'hui, c'est la folie. Un mystérieux modèle de Mistral-Next vient de tomber, et je le teste pour le codage - il est BON. Peut-être de niveau GPT-4. J'ai même effectué quelques tests en demandant à GPT d'évaluer les résultats, et il a donné à Mistral-Next un score parfait », s'est enthousiasmé Pietro Schirano, fondateur d'EverArt et ex senior product designer chez Uber et product designer chez Facebook.

Ok, so... today is crazy. There's a mysterious Mistral-Next model that just dropped, and I am testing it for coding—it's GOOD.

Possibly GPT-4 level.

I even ran a few tests that I asked GPT to evaluate the outputs, and it gave Mistral-Next a perfect score. 😳 pic.twitter.com/HSaAB2Owqs
— Pietro Schirano (@skirano) February 16, 2024

Un autre de déclarer : « nouveau modèle "mistral-next" sur arena. dans mes tests, il surpasse le gpt-4 au niveau du raisonnement et possède la concision caractéristique de Mistral. S'agit-il de mistral-large ? »

new 'mistral-next' model on arena. in my tests, it bests gpt-4 at reasoning and has mistral's characteristic conciseness.

is this mistral-large? pic.twitter.com/C06dkLE0Fs
— Aidan McLau (@aidan_mclau) February 16, 2024

La startup française d'IA générative a rapidement accumulé des capitaux et des récompenses

Fondée par d’anciens chercheurs renommés de Deepmind et Meta, la startup Mistral AI se distingue par son approche open source du développement de modèles de langage. L'objectif ? Devenir un leader européen de la recherche en IA générative et briller à l’international.

À l'instar d'OpenAI, soutenue par Microsoft, Mistral travaille sur l'IA générative grâce à ce que l'on appelle les grands modèles de langage (LLM), qui sont capables de créer de la prose et du code semblables à ceux de l'homme en quelques secondes. Le développement de cette technologie nécessite toutefois des capitaux importants, car les LLM requièrent d'énormes quantités de puissance de traitement informatique. Ce problème a donné l'avantage aux grandes enseignes américaines de la technologie et aux entreprises chinoises, qui mènent la course à l'innovation à ce jour, mais Mistral s'est imposé comme l'un des espoirs européens les plus brillants et les mieux financés dans le domaine de l'IA générative.

L'un des fondateurs de l'entreprise française, Arthur Mensch, a déclaré au Financial Times en octobre que sa technologie était plus efficace et moins coûteuse que celles développées par ses grands rivaux américains. Mistral mise également sur une approche « open source », dans laquelle le modèle serait publié publiquement afin de permettre aux développeurs et aux entreprises de s'en inspirer et de contribuer à son développement.

Les LLM publiés par l'entreprise suscitent un vif intérêt. Il s'agit notamment du modèle Mistral 7B qui a été publié lors des débuts de l'entreprise et du LLM Mixtral 8x7B plus récent. Tous deux sont soumis à une licence ouverte Apache 2.0, visant à démontrer les capacités des LLM open-source, même de taille modeste, pour les projets d'IA générative. Mistral Next devrait également relever de cette licence. Ce n'est pas seulement en tant que modèles bruts que Mistral a suscité de l'intérêt. Le navigateur Web Brave a fait de Mixtral 8x7B le modèle par défaut de son assistant d'IA générative Leo.

Nom : prix.png
Affichages : 11440
Taille : 25,9 Ko

Leo a été lancé il y a quelques mois avec le LLM open-source Llama 2 de Meta, alimentant ses réponses aux questions, les résumés de sites Web et la composition de textes. Brave a toujours envisagé que Leo dispose d'un ensemble de LLM, mais le premier choix automatique s'est orienté vers Mixtral 8x7B. Mistral a sorti le modèle "open-weight" en décembre, s'attirant des éloges pour sa vitesse et surpassant des LLM comme GPT-3.5 d'OpenAI et Claude Instant d'Anthropic dans divers benchmarks. Ces performances ont conduit Brave à choisir Mixtral comme modèle par défaut de Leo. LLM.

Mixtral offre également à Leo des avantages supplémentaires tels qu'une mémoire contextuelle étendue, une compréhension multilingue et une traduction entre l'anglais, le français, l'allemand, l'italien et l'espagnol. Il peut également écrire du code de calcul sur demande, étendant ainsi la fonctionnalité CodeLLM de Mixtral dans le moteur de recherche Brave Search.

« Depuis son lancement, Brave Leo a été adopté par des dizaines de milliers d'utilisateurs gratuits et d'abonnés payants, et nous nous attendons à une adoption encore plus importante à mesure que nous étendons notre disponibilité de LLM à Mixtral », a expliqué Brian Bondy, directeur technique de Brave. « Notre objectif est de créer des cas d'utilisation nouveaux et pratiques dans le contexte des sessions de navigation des utilisateurs, et d'aider nos utilisateurs à interagir avec le Web de manière révolutionnaire ».

Bien que Mixtral 8x7B serve de LLM par défaut pour Loe, l'assistant propose d'autres modèles que les utilisateurs peuvent choisir en fonction de leurs besoins et de leur budget, notamment Claude Instant et Llama 2. La version gratuite de Leo est limitée en termes de tarifs, mais un abonnement premium mensuel de 15 $ permet d'augmenter ces limites, entre autres avantages. Les utilisateurs de la version gratuite ont également la possibilité de revenir à l'expérience Leo précédente avec Llama 2 une fois qu'ils ont atteint les limites tarifaires de Mixtral.

Une alternative à OpenAI

Mistral AI se positionne comme un concurrent direct d’OpenAI, qui a été fondé en 2015 par un groupe d’entrepreneurs et d’investisseurs du secteur technologique, dont Elon Musk et Peter Thiel. OpenAI s’est fait connaître pour ses recherches innovantes sur l’IA générative, notamment son modèle GPT-3 qui peut produire du texte cohérent à partir d’un simple mot-clé ou d’une phrase. OpenAI a également lancé une plateforme commerciale appelée OpenAI Codex, qui permet aux développeurs d’utiliser l’IA pour créer des applications, des sites web et des jeux.

Mistral veut offrir une alternative à OpenAI, en proposant des modèles d’IA générative plus accessibles, plus éthiques et plus personnalisables. Mensch a déclaré que Mistral vise à créer une « IA démocratique », qui ne soit pas contrôlée par quelques acteurs dominants, mais qui soit ouverte à la collaboration et à l’innovation de la communauté. Il a également souligné que Mistral s’engage à respecter les principes de l’IA responsable, en veillant à ce que ses modèles soient transparents, équitables et respectueux de la vie privée.

Mistral espère que son approche open source et centrée sur l’utilisateur lui permettra de se différencier sur le marché de l’IA générative, qui devrait connaître une forte croissance dans les années à venir. Selon une étude de MarketsandMarkets, le marché mondial de l’IA générative devrait passer de 3,5 milliards de dollars en 2021 à 24,1 milliards de dollars en 2026, soit un taux de croissance annuel composé de 47,1 %.

D'autres startups européennes à l'assaut de l'IA générative

Mistral AI n’est pas la seule start-up européenne à se lancer dans le domaine de l’IA générative. En avril, la société allemande Aleph Alpha a levé 27 millions d’euros pour développer son propre modèle de langage basé sur le GPT-3. En février 2023, la société allemande Deepset a levé 5 millions d’euros pour créer une plateforme d’IA conversationnelle basée sur le modèle BERT de Google. Et en janvier, la société française ReciTAL a levé 3,5 millions d’euros pour proposer des solutions d’analyse et de génération de texte basées sur l’IA.

Mistral espère se démarquer par la qualité et la diversité de ses modèles, ainsi que par sa capacité à répondre aux besoins spécifiques de ses clients. Mensch a déclaré que Mistral vise à créer des modèles capables de gérer non seulement le texte, mais aussi les images, les sons et les vidéos. Il a également affirmé que Mistral sera en mesure de fournir des modèles adaptés à différents domaines, langues et cultures.

« Nous voulons créer une IA qui soit utile pour tous les cas d’usage, pas seulement pour quelques-uns », a-t-il dit. « Nous voulons créer une IA qui soit capable de comprendre le monde et de le rendre meilleur ».

Essayer Mixtral Next sur chatbot Arena

Sources : Les premiers retours de Mixtral Next sur X/Twitter, Brave

Et vous ?

Que pensez-vous de la performance de Mistral Next par rapport à GPT-4 ?

Quels sont les avantages et les inconvénients de publier un modèle de langage en mode open source ?

Quelles sont les applications potentielles de Mistral Next dans votre domaine d’activité ou d’intérêt ?

Quels sont les risques ou les défis liés à l’utilisation d’un modèle de langage multimodal comme Mistral Next ?

Comment évalueriez-vous la qualité et la fiabilité des réponses de Mistral Next ?

**Diablo150** · 21/02/2024, 00h57

Mensch a déclaré que Mistral vise à créer des modèles capables de gérer non seulement le texte, mais aussi les images, les sons et les vidéos. Il a également affirmé que Mistral sera en mesure de fournir des modèles adaptés à différents domaines, langues et cultures.

A mon avis la vrai info intéressante est là.

Sinon j'ai essayé le modèle et il semble assez facile de le faire halluciner, bien qu'en dehors de ça il semble être souvent pertinent.
Je sais pas si c'est un truc dérivé de Miqu qui ne dit pas non nom (donc en fait c'est du Llama 70b retravaillé par Mistral AI), ou si c'est vraiment un nouveau modèle. On verra bien, mais pour l'instant ça me parait pas tout à fait au niveau, il y a probablement quelques ajustements d’alignement à faire.

Edit: Au fait Aleph Alpha est une société Allemande et non Anglaise.

**RenarddeFeu** · 21/02/2024, 14h24

J'ai testé mistral-next, et je trouve que mistral-medium produit de meilleurs résultats. Sans compter que des verrous qui n'existent pas dans medium ont été ajoutés dans next, par exemple : next refusera de générer les paroles à la façon d'un artiste connu en invoquant les droits d'auteur, là où medium le fait sans problème.

C'est d'autant plus surprenant qu'OpenAI fait l'exact inverse : GPT-4 a beaucoup moins de restrictions que GPT-3.5. C'est d'ailleurs la principale raison de son Elo score plus élevé selon moi.

**Jade Emy** · 26/02/2024, 20h44

Mistral AI lance un nouveau grand modèle de langage "Mistral Large" pour rivaliser avec GPT-4 et sa propre alternative à ChatGPT, l'assistant chat appelé "Le Chat", gratuit en version bêta.

La startup parisienne Mistral AI construit progressivement une alternative à OpenAI et Anthropic, comme le montre sa dernière annonce. L'entreprise lance un nouveau modèle phare de grand modèle de langage (LLM) appelé Mistral Large. En ce qui concerne les capacités de raisonnement, il est conçu pour rivaliser avec d'autres modèles de premier plan, tels que GPT-4 et Claude 2. En plus de Mistral Large, la startup lance également sa propre alternative à ChatGPT avec un nouveau service appelé Le Chat. Cet assistant de chat est actuellement disponible en version bêta.

Si vous ne connaissez pas Mistral AI, l'entreprise est plus connue pour sa table de capitalisation, car elle a levé une quantité obscène d'argent en très peu de temps pour développer des modèles d'IA fondamentaux. La société a été officiellement constituée en mai 2023. Quelques semaines plus tard, Mistral AI a levé un fonds d'amorçage de 113 millions de dollars. En décembre, l'entreprise a clôturé un tour de table de 415 millions de dollars, mené par Andreessen Horowitz (a16z).

Fondée par des anciens de Google DeepMind et Meta, Mistral AI s'est positionnée à l'origine comme une entreprise d'IA axée sur l'open source. Si le premier modèle de Mistral AI a été publié sous une licence open source avec accès aux poids du modèle, ce n'est pas le cas de ses modèles plus importants.

Mistral AI :

Nous lançons Mistral Large, notre modèle de langage le plus récent et le plus avancé. Mistral Large est disponible sur la Plateforme. Nous le rendons également disponible sur Azure, notre premier partenaire de distribution.

Mistral Large, le nouveau modèle phare de Mistral AI

Mistral Large est le nouveau modèle de génération de texte à la pointe de la technologie de Mistral AI. Il atteint des capacités de raisonnement de premier plan. Il peut être utilisé pour des tâches complexes de raisonnement multilingue, y compris la compréhension de texte, la transformation et la génération de code.

Selon Mistral AI, Mistral Large obtient d'excellents résultats dans les tests de référence couramment utilisés, ce qui en fait le deuxième modèle au monde généralement disponible via une API (après GPT-4).

Nom : 1.png
Affichages : 11003
Taille : 40,7 Ko

Mistral Large serait doté de nouvelles capacités et de nouveaux atouts :

Il parle couramment l'anglais, le français, l'espagnol, l'allemand et l'italien, avec une compréhension nuancée de la grammaire et du contexte culturel.
Sa fenêtre contextuelle de 32 000 tokens permet de rappeler des informations précises à partir de documents volumineux.
Son suivi précis des instructions permet aux développeurs de concevoir leurs politiques de modération : Mistral AI l'a utilisé pour mettre en place la modération au niveau du système du Chat.
Il est nativement capable d'appeler des fonctions. Ceci, ainsi que le mode de sortie contraint, mis en œuvre sur la Plateforme, permet le développement d'applications et la modernisation de la pile technologique à grande échelle.

Partenariat de Mistral AI avec Microsoft pour fournir ses modèles sur Azure

Mistral AI :

Chez Mistral, notre mission est de rendre l'IA de pointe omniprésente. C'est pourquoi nous annonçons aujourd'hui que nous apportons nos modèles ouverts et commerciaux à Azure. La confiance de Microsoft dans notre modèle est un pas en avant dans notre voyage !

Les modèles de Mistral AI sont désormais disponibles via :

La Plateforme : hébergée en toute sécurité sur l'infrastructure de Mistral en Europe, ce point d'accès permet aux développeurs de créer des applications et des services à travers une gamme complète de modèles.
Azure : Mistral Large est disponible via Azure AI Studio et Azure Machine Learning, avec une expérience utilisateur aussi transparente que les API de Mistral. Des clients bêta l'ont utilisé avec succès.
Auto-déploiement : les modèles de Mistral peuvent être déployés sur votre environnement pour les cas d'utilisation les plus sensibles avec un accès aux poids de modèles. Mistral conseille de lire les histoires de réussite sur ce type de déploiement, et de contacter son équipe pour plus de détails.

Capacités de Mistral Large

Mistral AI a comparé les performances de Mistral Large aux meilleurs modèles LLM sur des benchmarks couramment utilisés. Voici les résultats :

Raisonnement et connaissances

Mistral Large présente de puissantes capacités de raisonnement. La figure suivante présente les performances des modèles pré-entraînés sur des critères de référence standard.
Capacités multilingues

Mistral Large dispose de capacités multilingues natives. Il surpasse largement LLaMA 2 70B sur les benchmarks HellaSwag, Arc Challenge et MMLU en français, allemand, espagnol et italien.
Maths et codage

Mistral Large affiche les meilleures performances dans les tâches de codage et de mathématiques. Dans le tableau ci-dessous, Mistral rapporte les performances sur une série de repères populaires afin d'évaluer les performances de codage et de mathématiques pour certains des modèles LLM les plus performants.

Un nouveau Mistral Small, optimisé pour les charges de travail à faible latence

Mistral AI :

Parallèlement à Mistral Large, nous lançons un nouveau modèle optimisé, Mistral Small, optimisé pour la latence et le coût. Mistral Small est plus performant que Mixtral 8x7B et présente une latence plus faible, ce qui en fait une solution intermédiaire raffinée entre notre offre à poids ouvert et notre modèle phare.

Mistral Small bénéficie des mêmes innovations que Mistral Large en ce qui concerne l'activation de RAG et l'appel de fonctions. Voici l'offre de Mistral :

Des points d'extrémité à poids ouvert à des prix compétitifs. Il s'agit de open-mistral-7B et open-mixtral-8x7b.
De nouveaux modèles optimisés, mistral-small-2402 et mistral-large-2402. Mistral maintient mistral-medium.

Les benchmarks de Mistral donnent une vue d'ensemble des compromis performance/coût. Au-delà de l'offre de nouveaux modèles, Mistral autorise la tarification multidevises pour la gestion des organisations et met à jour les niveaux de service sur La Plateforme. Ils ont également beaucoup progressé dans la réduction de la latence de tous les points d'extrémité.

Format JSON et appel de fonction

Le mode de format JSON force la sortie du modèle de langage à être un JSON valide. Cette fonctionnalité permet aux développeurs d'interagir avec les modèles de manière plus naturelle afin d'extraire des informations dans un format structuré qui peut être facilement utilisé dans le reste de leurs pipelines.

L'appel de fonction permet aux développeurs d'interfacer les points d'extrémité de Mistral avec un ensemble de leurs propres outils, permettant des interactions plus complexes avec le code interne, les API ou les bases de données.

L'appel de fonction et le format JSON ne sont disponibles que sur mistral-small et mistral-large. Mistral ajoutera bientôt le formatage à tous les points d'extrémité, ainsi que des définitions de format plus fines.

Source : Mistral AI

Et vous ?

Quel est votre avis sur le sujet ?

Pensez-vous que Mistral Large soit crédible ou pertinent ?

Voir aussi :

Le modèle de langage open source Mixtral 8x7B de la startup française Mistral AI écrase la concurrence, d'après un sujet de recherche

Mistral Next : certains des premiers testeurs estiment que ce modèle pourrait être meilleur que GPT-4 d'OpenAI et Gemini Ultra de Google. Le prototype du LLM disponible en mode chat direct sur LMSYS

Le PDG de Mistral confirme qu'un modèle d'IA open source de l'entreprise avec des performances proches de celles de GPT-4 a fait l'objet de fuite, ces résultats accentuent la pression sur OpenAI

**Jade Emy** · 27/02/2024, 06h34

Dans le cadre d'un nouveau partenariat, Microsoft mettra les modèles d'IA de la startup française Mistral AI à la disposition de sa plateforme de cloud computing Azure.

Microsoft va rendre les modèles d'intelligence artificielle de la startup française Mistral AI disponibles via sa plateforme de cloud computing Azure dans le cadre d'un nouveau partenariat, ont annoncé les deux sociétés. Cet accord pluriannuel témoigne des efforts déployés par Microsoft pour offrir une variété de modèles d'intelligence artificielle au-delà de son plus gros pari dans OpenAI, alors que le géant technologique cherche à attirer davantage de clients pour ses services d'informatique dématérialisée Azure.

Microsoft prendra une participation minoritaire dans Mistral dans le cadre de l'accord. Microsoft a confirmé son investissement dans Mistral, mais a précisé qu'il ne détenait aucune participation dans la société. Le géant de la technologie fait l'objet d'une surveillance réglementaire en Europe et aux États-Unis en raison de son financement excessif dans OpenAI.

La startup basée à Paris travaille sur des grands modèles de langage (LLM) propriétaires et open source, similaires à ceux qu'OpenAI a mis au point avec ChatGPT, qui comprennent et génèrent du texte à la manière d'un être humain. Son dernier modèle propriétaire, Mistral Large, sera d'abord mis à la disposition des clients Azure dans le cadre de ce partenariat. La technologie de Mistral sera hébergée sur la plateforme de cloud computing de Microsoft.

Mistral a également travaillé avec Amazon et Google pour distribuer ses modèles. La société prévoit de rendre Mistral Large disponible sur d'autres plateformes de cloud computing au cours des prochains mois, a déclaré un porte-parole.

Mistral a été fondée par Timothée Lacroix et Guillaume Lample, qui travaillaient auparavant dans les équipes d'intelligence artificielle de Meta, et Arthur Mensch, ancien chercheur chez DeepMind de Google.

Voici ce qu'écrit Eric Boyd, Vice-président de la Azure AI Platform, Microsoft, sur ce partenariat :

Annonce du partenariat de Microsoft et Mistral AI : Mistral Large est disponible dès à présent sur Azure

Le secteur de l’IA est en pleine mutation, comme en témoigne l’intérêt croissant pour des modèles plus efficients et économiques, emblématiques d’une accélération globale du progrès technologique.

Mistral AI, novateur et précurseur, est à l’avant-garde de cette révolution. Son engagement en faveur de la communauté open-source ainsi que l’atteinte de performances exceptionnelles s’alignent naturellement avec l’engagement de Microsoft pour le développement de solutions d’IA de confiance, évolutives et responsables.

Nous annonçons aujourd’hui un partenariat pluriannuel entre Microsoft et Mistral AI, leader reconnu de l’intelligence artificielle générative. Nos deux entreprises partagent une ambition permanente pour l’innovation et ses applications pratiques, réduisant ainsi l’écart entre la recherche de pointe et le développement de solutions concrètes.

Ce partenariat avec Microsoft permet à Mistral AI de bénéficier de l’infrastructure IA avancée d’Azure pour accélérer le développement et le déploiement de sa prochaine génération de grands modèles de langage (LLM), et lui ouvre de nouvelles opportunités commerciales, de développement à l’international et de collaboration en matière de recherche.

Arthur Mensch, Cofondateur et Directeur général de Mistral AI :
“Nous sommes ravis de nouer ce partenariat avec Microsoft. Grâce à l’infrastructure IA de pointe d’Azure, nous franchissons une nouvelle étape dans notre développement, permettant à nos recherches novatrices et à nos applications pratiques d’atteindre de nouveaux clients partout dans le monde. Ensemble, nous nous engageons à faire progresser le secteur de l’IA et à offrir une valeur ajoutée inégalée à nos clients et partenaires dans le monde entier”

Le partenariat entre Microsoft et Mistral se concentre sur trois points essentiels :

Infrastructure de supercalculateurs: Microsoft fournira à Mistral AI son infrastructure de supercalculateurs Azure AI, offrant des performances et une capacité optimale d’entraînement et d’exécution pour les modèles phares de Mistral AI.
Passage à l’échelle : les modèles premium de Mistral AI seront disponibles dans le catalogue de modèles d’Azure AI Studio et d’Azure Machine Learning en tant que Models-as-a-Service (MaaS). Le catalogue de modèle donne accès à une large sélection de modèles open-source et payants, en complément des modèles OpenAI. Les clients de Microsoft qui disposent d’un Microsoft Azure Consumption Commitment (MACC), peuvent dès aujourd’hui utiliser les modèles de Mistral AI, dans le cadre de ce contrat. Mistral AI pourra également tirer parti de l’infrastructure Azure optimisée pour l’IA et au niveau d’exigence des entreprises pour promouvoir, vendre et distribuer ses modèles aux clients de Microsoft dans le monde entier.
Recherche et développement en matière d’IA : Microsoft et Mistral AI étudieront la possibilité de collaborer à l’entrainement de modèles spécifiques pour certains clients, notamment pour les besoins du secteur public européen.

Elargissez vos fonctions d’IA avec Azure et Mistral AI

En novembre 2023, lors de Microsoft Ignite, Microsoft a dévoilé l’intégration de Mistral 7B dans le catalogue de modèles Azure AI, accessible via Azure AI Studio et Azure Machine Learning. Nous sommes ravis d’annoncer que Mistral Large, modèle commercial haut de gamme de Mistral, est disponible sur Azure AI et la plateforme Mistral AI, ce qui marque une expansion notable de nos offres. Mistral Large est un modèle de langage polyvalent qui peut répondre à n’importe quel cas d’utilisation basé sur du texte grâce à des capacités de raisonnement et de connaissance de haut niveau. Il maîtrise le code informatique et les mathématiques, est capable de traiter des douzaines de documents en un seul appel et gère aussi bien le français, l’allemand, l’espagnol et l’italien (en plus de l’anglais).

L’ajout des modèles premium de Mistral AI aux catalogues de modèles d’Azure AI Studio et d’Azure Machine Learning en tant que Models-as-a-Service (MaaS) permet aux clients de Microsoft d’accéder à une large sélection des meilleurs modèles open-source du marché pour créer et déployer des applications d’IA personnalisées, ouvrant ainsi la voie à de nouvelles innovations basées sur l’IA.

Philippe Rambach, Chief AI Officer, Schneider Electric :
“Nous avons testé Mistral Large via Azure AI Studio dans un scénario d’efficacité interne. Les performances étaient comparables à celles des modèles de pointe, avec des temps de latence encore plus courts. Nous sommes prêts à poursuivre l’utilisation de cette technologie dans notre entreprise.”

Nacim Rahal, Senior Director, Data et AI, Doctolib :
“Nous avons pu découvrir Mistral Large en accès anticipé et avons été impressionnés par ses performances en matière de terminologie médicale. Alors que nous continuons à innover dans le domaine de la santé, nous sommes sensibles aux coopérations qui peuvent nous aider, nous et nos partenaires, à grandir ensemble. Mistral AI représente une opportunité passionnante de progrès mutuel dans le domaine de l’intelligence artificielle, tant en France qu’à l’international”

Séverine Grégoire, responsable du numérique, de l’innovation et de l’IA chez CMA CGM :
“Les modèles d’IA de Mistral ont joué un rôle crucial dans l’amélioration de la productivité et de la collaboration au sein de CMA CGM. Leurs capacités avancées ont considérablement amélioré les performances de notre assistant personnel interne, MAIA. Les collaborateurs sont désormais en mesure d’accéder plus rapidement à l’information et de l’utiliser comme jamais auparavant. Nous sommes convaincus que Mistral AI sur Azure est le bon choix au service de nos collaborateurs et de l’innovation au sein de notre organisation”

Microsoft s’engage à soutenir l’innovation et le développement de l’IA au niveau mondial, à offrir une infrastructure de datacenters d’IA de premier ordre et à développer des technologies sécurisées afin de permettre à chacune et chacun d’acquérir les compétences dont ils ont besoin pour tirement pleinement parti de l’IA. Ce partenariat avec Mistral AI repose sur un engagement commun à construire des systèmes et des produits d’IA fiables et sûrs. Il consolide les efforts continus de Microsoft pour enrichir nos offres en matière d’IA et fournir une valeur inégalée à nos clients. En outre, l’intégration dans AI Studio permet aux clients d’utiliser les outils intégrés de modération du contenu Azure AI Content safety et d’IA responsable, ce qui contribue à renforcer la sécurité et la fiabilité des solutions d’IA.

Source : Microsoft

Et vous ?

Pensez-vous que ce partenariat entre Microsoft et Mistral AI est crédible ou pertinent ?

Quel est votre avis sur le sujet ?

Voir aussi :

Mistral AI lance un nouveau grand modèle de langage "Mistral Large" pour rivaliser avec GPT-4 et sa propre alternative à ChatGPT, l'assistant chat appelé "Le Chat", gratuit en version bêta

Le modèle de langage open source Mixtral 8x7B de la startup française Mistral AI écrase la concurrence, d'après un sujet de recherche

Le partenariat entre Microsoft et OpenAI fait l'objet d'un examen antitrust, mais Microsoft affirme qu'elle ne détient aucune part d'OpenAI

**Anthony** · 17/04/2024, 16h52

Mistral AI, le rival français d'OpenAI, serait en train de discuter avec des investisseurs pour lever des centaines de millions de dollars, et tenter d'atteindre une valorisation de 5 milliards de dollars

La startup française d'IA open source Mistral AI est en train de discuter avec des investisseurs pour lever des centaines de millions de dollars lors de son prochain tour de table et chercher à atteindre une valorisation de 5 milliards de dollars, a rapporté The Information, citant une personne familière avec le sujet.

Mistral, qui a levé 415 millions de dollars lors de son cycle de financement de série A en décembre et atteint une valorisation d'environ 2 milliards de dollars, a récemment commencé à générer des revenus, selon le rapport. La société compte Andreessen Horowitz et Lightspeed Venture Partners parmi ses investisseurs.

Les milliards de dollars investis dans les start-ups de l'IA, qui conduisent à des valorisations de plusieurs milliards de dollars, ont fait naître des sceptiques qui mettent en garde contre une bulle des valeurs technologiques rappelant la bulle Internet qui a éclaté en 2000. Toutefois, des experts ont déclaré que les deux bulles étaient différentes et que les craintes d'un éclatement de la bulle étaient à courte vue.

"Lorsque la bulle Internet a éclaté la première fois, il s'agissait d'un battage médiatique. Il ne s'agit pas ici de battage médiatique", a déclaré Jamie Dimon, PDG de JPMorgan Chase, au sujet du boom de l'IA en février. "C'est une réalité."

En février, Microsoft a annoncé un partenariat pluriannuel de 16,3 millions de dollars avec Mistral, axé sur la commercialisation de ses modèles phares et sur l'intensification du développement et du déploiement de l'IA. Dans le cadre de ce partenariat, les grands modèles de langage (LLM) de Mistral sont disponibles sur la plateforme Azure AI de Microsoft, a déclaré Microsoft, ce qui donne à la startup davantage de possibilités de promouvoir, de vendre et de distribuer ses modèles à des clients du monde entier.

Toutefois, ce partenariat, qui fait suite à l'investissement beaucoup plus important de Microsoft dans l'entreprise américaine OpenAI, fait l'objet d'un examen minutieux de la part de l'Union européenne dans le cadre de ses efforts visant à examiner l'impact des accords entre "les grands acteurs du marché numérique et les développeurs et fournisseurs d'IA générative" sur le marché européen.

Source : The Information

Et vous ?

Quel est votre avis sur le sujet ?

Comment entrevoyez-vous l'avenir de la startup française Mistral AI ?

Voir aussi :

Mistral AI lance un nouveau grand modèle de langage "Mistral Large" pour rivaliser avec GPT-4, et sa propre alternative à ChatGPT, l'assistant chat appelé "Le Chat", gratuit en version bêta

Dans le cadre d'un nouveau partenariat, Microsoft mettra les modèles d'IA de la startup française Mistral AI à la disposition de sa plateforme de cloud computing Azure