Microsoft 365 Copilot dévoile des mises à jour en matière d'IA : Copilot Cowork gère de manière autonome les projets, tandis que Researcher utilise deux modèles d'IA pour la recherche approfondie

Microsoft a annoncé une série de nouvelles fonctionnalités pour Microsoft 365 Copilot, son assistant de travail basé sur l'IA. La fonctionnalité phare est Copilot Cowork, un outil conçu pour les tâches qui s'étendent dans le temps, plutôt que pour de simples requêtes ponctuelles, selon la société. Cette fonctionnalité repose sur la même plateforme technologique que celle qui alimente Claude Cowork d’Anthropic, et intègre les compétences de Claude et de Microsoft. La fonctionnalité Researcher de Microsoft, qui aide les utilisateurs à répondre à des questions complexes en rassemblant des informations provenant de multiples sources, a également été améliorée avec une nouvelle fonctionnalité notable : une fonction Critique qui utilise deux modèles d’IA au lieu d’un seul.

Microsoft 365 (anciennement Office 365) est une gamme de logiciels de productivité, de collaboration et de services cloud développée par Microsoft. Elle englobe des services en ligne tels que Outlook.com, OneDrive et Microsoft Teams, des programmes anciennement commercialisés sous le nom de Microsoft Office (notamment des applications telles que Word, Excel, PowerPoint et Outlook), ainsi que des produits et services d'entreprise associés à ces produits, tels qu'Exchange Server, SharePoint et Viva Engage. Depuis avril 2025, l'application Microsoft 365 s'appelle désormais Microsoft 365 Copilot.

Récemment, Microsoft a annoncé une série de nouvelles fonctionnalités pour Microsoft 365 Copilot, son assistant de travail basé sur l'IA. Ces fonctionnalités comprennent un nouvel outil de gestion des tâches s'appuyant sur la technologie Claude d'Anthropic, une fonctionnalité de recherche plus intelligente qui met en concurrence plusieurs modèles d'IA pour obtenir de meilleurs résultats, ainsi qu'un outil de comparaison côte à côte des modèles permettant aux utilisateurs de voir comment différentes IA abordent une même question. Ces mises à jour, qui font partie de ce que Microsoft appelle la « Wave 3 » de Microsoft 365 Copilot, sont désormais disponibles via le programme d’accès anticipé Frontier de l’entreprise, a annoncé cette dernière.

La fonctionnalité phare est Copilot Cowork, un outil conçu pour les tâches qui s'étendent dans le temps, plutôt que pour de simples requêtes ponctuelles, selon la société. Copilot Cowork est conçu pour prendre en charge de manière autonome des tâches en plusieurs étapes. Un utilisateur décrit le résultat souhaité, et Cowork élabore un plan, travaille sur les outils et fichiers pertinents, et fait avancer le travail, tout en affichant sa progression, ce qui permet à l'utilisateur d'intervenir et de prendre le relais à tout moment. Cette fonctionnalité repose sur la même plateforme technologique que celle qui alimente Claude Cowork d’Anthropic, et intègre les compétences de Claude et de Microsoft.


La fonctionnalité Researcher de Microsoft, qui aide les utilisateurs à répondre à des questions complexes en rassemblant des informations provenant de multiples sources, a également été améliorée avec une nouvelle fonctionnalité notable : une fonction Critique qui utilise deux modèles d’IA au lieu d’un seul. « Voici Critique, un nouveau système de recherche approfondie multimodèle dans M365 Copilot. Vous pouvez utiliser plusieurs modèles ensemble pour générer des réponses et des rapports optimaux », a déclaré Satya Nadella, PDG de Microsoft, ajoutant que « les tests de performance montrent que cela offre la meilleure recherche approfondie de sa catégorie ! »

Dans cette configuration, un modèle planifie la tâche et produit un premier jet. Un deuxième modèle agit en tant qu’expert évaluateur, examinant et affinant le résultat avant que la réponse finale ne soit fournie. Les deux modèles proviennent de laboratoires d’IA de pointe, notamment Anthropic et OpenAI. Microsoft indique que Researcher avec Critique obtient désormais un score supérieur de 13,8 % au benchmark DRACO – la norme industrielle pour évaluer la qualité de la recherche approfondie, en mesurant la précision, l’exhaustivité et l’objectivité.

Une autre nouveauté est une fonctionnalité appelée Model Council, qui permet aux utilisateurs de comparer simultanément les réponses de différents modèles d'IA à une même question. Les utilisateurs peuvent voir instantanément sur quels points les modèles s'accordent, sur quels points ils divergent, et ce que chacun apporte de plus que les autres. Microsoft décrit cela comme le fait de disposer de plusieurs chercheurs à la fois.

Ces annonces interviennent après les récents tumultes de Microsoft. De la retraite discrète de Copilot sur Windows 11 à la menace d'un procès fleuve contre OpenAI et Amazon, Microsoft a traversé une période révélatrice de ses contradictions profondes. D'un côté, l'entreprise admet avoir trop poussé l'IA dans la gorge de ses utilisateurs et entreprend de dégraisser Windows 11. De l'autre, elle agite l'arme juridique pour protéger un monopole cloud que son ancien partenaire cherche activement à fuir. Par ailleurs, sur le marché des outils de développement, les développeurs lui préfèrent massivement la concurrence. Et dans les couloirs de Redmond même, les ingénieurs de Microsoft sont encouragés à utiliser Claude Code d'Anthropic, l'outil concurrent, pour faire leur travail. Copilot s'effondre sur tous les fronts à la fois.

Voici l'annonce des améliorations dans Researcher :

Présentation de l'intelligence multimodèle dans Researcher

Aujourd'hui, Researcher — l'agent de recherche approfondie de Microsoft 365 Copilot destiné au travail — franchit une étape décisive. Conçu pour mener à bien des recherches complexes au cœur du flux de travail, Researcher va désormais plus loin grâce à deux nouvelles fonctionnalités multimodèles qui placent la barre encore plus haut en matière de précision, de profondeur et de fiabilité : Critique et Council.

Critique est un nouveau système de recherche approfondie multimodèle conçu pour les tâches de recherche complexes. Il sépare la génération de l'évaluation et utilise une combinaison de modèles issus des laboratoires Frontier, notamment Anthropic et OpenAI. Un modèle dirige la phase de génération, planifiant la tâche, itérant à travers la récupération et produisant un premier jet, tandis qu'un second modèle se concentre sur la révision et le raffinement, agissant comme un réviseur expert avant la production du rapport final. Nos évaluations montrent que cette architecture surpasse les approches traditionnelles à modèle unique et offre une qualité de recherche approfondie hors pair. Cette conception offre une flexibilité claire entre les rôles de générateur et de réviseur, avec la possibilité de soutenir et d'étendre ces rôles au fil du temps à mesure que le système évolue.

Nom : 1.jpg
Affichages : 2691
Taille : 26,8 Ko

Council présente côte à côte les réponses de plusieurs modèles dans l'expérience du chercheur. De plus, une lettre d'accompagnement fournit des informations précieuses sur les points d'accord et de divergence entre les modèles, ainsi que sur les perspectives uniques que chacun apporte sur le sujet.

Critique et son fonctionnement

De nombreux flux de travail de recherche en IA s'appuient sur un modèle unique pour gérer la planification, la recherche de sources, la synthèse et la rédaction, mais Critique adopte une approche différente en répartissant les responsabilités entre deux partenaires IA : l'un optimisé pour l'exploration approfondie et la synthèse structurée, et le second axé sur la validation des affirmations, l'amélioration de la présentation et le renforcement de la structure. En accordant autant d'importance à l'évaluation qu'à la génération, cette architecture crée une puissante boucle de rétroaction qui produit des résultats de meilleure qualité en termes d'exactitude factuelle, d'étendue analytique et de présentation. Critique sera l'expérience par défaut dans Researcher, disponible lorsque l'option Auto est sélectionnée dans le sélecteur de modèles.

Nom : 2.jpg
Affichages : 177
Taille : 33,5 Ko

Critique suit un processus de révision similaire à ceux menés dans les milieux de recherche universitaires et professionnels. Elle s’articule autour d’une évaluation basée sur une grille d’évaluation — une révision structurée qui vise à renforcer le rapport sans transformer le réviseur en un deuxième auteur. Le réviseur examine le rapport sous plusieurs angles, puis génère un rapport amélioré en se concentrant sur les dimensions suivantes :

- Évaluation de la fiabilité des sources. Le réviseur met l’accent sur l’utilisation de sources réputées, faisant autorité et adaptées au domaine, en donnant la priorité aux preuves vérifiables et adaptées au contexte de votre recherche.

- Exhaustivité du rapport. Le réviseur évalue si le rapport final répond de manière exhaustive à l'intention de votre demande, en apportant des perspectives pertinentes et uniques.

- Application stricte de l'ancrage des preuves. Le réviseur applique une norme d'ancrage prudente, exigeant que chaque affirmation clé soit étayée par des sources fiables avec des citations précises, ce qui renforce l'exactitude factuelle, la fiabilité et la confiance dans le rapport final.

Validation des performances sur le benchmark DRACO

Nous avons évalué Critique sur le benchmark DRACO (Deep Research Accuracy, Completeness, and Objectivity) — 100 tâches de recherche approfondie complexes couvrant 10 domaines, introduites par des chercheurs de Perplexity et du monde universitaire en février 2026. Ces tâches de recherche proviennent de modèles d'utilisation anonymisés issus du monde réel, exécutés dans un système de recherche à grande échelle. Les réponses du système sont notées selon des grilles d'évaluation spécifiques à chaque tâche, selon quatre dimensions : l'exactitude factuelle, l'étendue et la profondeur de l'analyse, la qualité de la présentation et la qualité des citations.

Les résultats DRACO ont été évalués en utilisant le GPT-5.2 d'OpenAI comme juge LLM — le plus strict des trois modèles de jugement présentés dans l'article. Nous avons appliqué le même protocole d'évaluation et la même configuration que ceux publiés dans l'article de référence, ce qui a permis de garantir une comparaison à périmètre constant. Pour toutes les mesures, les résultats ont été calculés en faisant la moyenne des scores sur l'ensemble du jeu de données DRACO, chaque question étant évaluée lors de cinq exécutions indépendantes.

Afin de mieux comprendre les avantages de Critique, nous avons comparé la nouvelle architecture au modèle unique Researcher (en utilisant le même juge GPT-5.2) selon les quatre axes d'évaluation définis par DRACO.

Nom : 3.jpg
Affichages : 175
Taille : 38,0 Ko

C'est dans les dimensions « Étendue et profondeur de l'analyse » (+3,33) que l'on observe la plus forte amélioration, suivies par la « Qualité de la présentation » (+3,04) et la « Précision factuelle » (+2,58). Toutes les dimensions affichent des améliorations statistiquement significatives (test t apparié, p < 0,0001).

Critique incite Researcher à identifier les angles d'analyse manquants, à combler les lacunes de couverture, à affiner les formulations et à produire des réponses mieux structurées et au fil narratif plus clair. Cela explique les améliorations substantielles des scores relatifs à l'étendue, à la profondeur et à la qualité de la présentation. Le gain en matière d'exactitude factuelle montre que Critique remet en question les affirmations faibles et impose une plus grande précision. Les améliorations de la qualité des citations reflètent principalement une meilleure utilisation des sources existantes, car la nouvelle couche met l'accent sur la sélection des preuves et la citation plutôt que sur l'augmentation de la couverture des sources.

L'ensemble de requêtes DRACO couvre 10 domaines, notamment la médecine, la technologie et le droit. Researcher avec Critique obtient des scores plus élevés que l'approche à modèle unique dans tous les domaines, ce qui renforce sa valeur en tant que couche de qualité horizontale pour Researcher. Au niveau des domaines, des améliorations statistiquement significatives sont observées dans 8 des 10 domaines (test t apparié, p < 0,05). Les exceptions sont les domaines « Académique » (p = 0,27) et « Aiguille dans une botte de foin » (p = 0,16), qui présentent tous deux une variance élevée.

Nom : 4.jpg
Affichages : 174
Taille : 52,7 Ko

Council et son fonctionnement

Council est une approche alternative, conçue pour permettre une comparaison côte à côte entre plusieurs modèles. Disponible lorsque l’option « Model Council » est sélectionnée dans le sélecteur de modèles de Researcher, Council exécute simultanément un modèle Anthropic et un modèle OpenAI, chaque modèle produisant un rapport complet et autonome — mettant en évidence des faits, des citations et des cadres analytiques que l’autre pourrait négliger ou pondérer différemment. Une fois les deux rapports générés, un modèle juge dédié évalue les rapports afin de créer un résumé condensé des principales conclusions et de mettre en évidence les points sur lesquels les modèles s’accordent ou divergent de manière significative — y compris les différences d’ampleur, de cadrage ou d’interprétation — et de souligner les contributions uniques de chaque modèle. 

Nom : 6.jpg
Affichages : 174
Taille : 31,3 Ko

Découvrez les fonctionnalités « Critique » et « Council » dans Researcher

Aujourd'hui, les fonctionnalités « Critique » et « Council » sont largement disponibles dans le programme Frontier. Découvrez comment optimiser votre transformation Frontier grâce à Copilot et aux agents, et profitez de la puissance de l'intelligence multimodèle.

Source : Annonce de Microsoft

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Microsoft enterre Office qui est renommé « application Microsoft 365 Copilot » : après l'échec commercial de Copilot 365. L'éditeur cherche à redéfinir la place de ses logiciels historiques à l'ère de l'IA

Microsoft en passe de connaître son pire trimestre depuis 2008 : l'action dévisse de 25 % en raison des incertitudes liées à la rentabilité future de l'IA, tandis que Windows 11 n'en finit pas de décevoir

Microsoft nomme un nouveau responsable pour Copilot après un remaniement à la tête de son département IA, l'entreprise cherche à corriger les lacunes de Copilot et à rattraper son retard face à la concurrence