L'unité de Microsoft dédiée à l'IA apporte aux développeurs des API,
pour faire de la modération de contenu et améliorer la reconnaissance vocale

Le groupe de recherche et d'intelligence artificielle de Microsoft, une division d'ingénierie et de recherche formée l'année dernière au sein de l’entreprise, a annoncé que Microsoft Cognitive Services comprend maintenant 25 outils qui constituent le squelette de Skype Translator et Cortana (entre autres produits Microsoft).

Bing Speech et Content Moderator, deux des API qui font partie du catalogue proposé aux développeurs, vont sortir de leur phase de préversion pour être disponibles de manière générale dès le mois prochain. Bing Speech est capable d’effectuer une traduction parole - texte mais également texte - parole. La technologie de reconnaissance vocale de Microsoft utilise des modèles acoustiques et linguistiques pour adapter ses services à un langage spécifique et pour faciliter la distinction entre des mots semblables.

« Si les mots précédents sont “the player caught the”, alors “ball” sera le mot suivant plus probable que “fall” », a expliqué Andrew Shuman, vice-président corporatif de produits pour la division AI et recherche de Microsoft.

Content Moderator pour sa part analyse les images et les vidéos, avec des technologies comme la reconnaissance optique des caractères et des objets, et aide les entreprises à filtrer les contenus indésirables (comme un langage grossier, incitant à la haine, des images de nudité, etc.). Un outil qui peut s'avérer utile par exemple pour modérer un forum. De plus, non seulement cette API est capable de filtrer du contenu potentiellement offensant en 100 langues, mais en plus elle peut déceler de manière "intelligente" les URL de hameçonnage.

La division inaugure également une nouvelle technologie qui permet aux développeurs de personnaliser le moteur vocal de Microsoft pour l'utiliser dans leurs propres applications et services en ligne. Le nouveau Custom Speech Service est encore en phase préversion publique. Microsoft affirme qu'il permet aux développeurs de télécharger un vocabulaire unique (comme des noms d’alien dans le jeu de réalité virtuelle Starship Commander) pour produire un modèle de langage sophistiqué afin de reconnaître les commandes vocales et d'autres paroles des utilisateurs.

Dans la vidéo ci-dessous, les développeurs de Human Interact, la startup derrière le jeu Starship Commander, expliquent qu’étant donné qu'il s'agit d'un jeu de science-fiction, il y a beaucoup de mots composés, de noms et de phrases qui auraient provoqué plusieurs erreurs avec un système traditionnel de reconnaissance vocale puisque ce dernier va remplacer les nouveaux mots qu’il reçoit par des mots similaires à ceux que le joueur prononce. Toutefois, avec le Custom Speech Service, les développeurs vont pouvoir réduire de manière drastique ce type d’erreurs puisqu’ils pourront télécharger un vocabulaire unique.


« L'idée de base est que plus les systèmes peuvent être concentrés, mieux ils seront performants », a expliqué Seltzer. « Le travail du Custom Speech Service est de vous permettre de concentrer le système sur les données qui vous intéressent ».

Le nouveau Custom Speech Service de Microsoft comprend également un modèle acoustique qui réduit les bruits de fond pour améliorer la reconnaissance vocale. Microsoft a cité l'exemple de l'utilisation du Custom Speech Service dans un kiosque d'aéroport où le bruit environnemental rendrait la reconnaissance vocale très difficile.

« La combinaison d'un modèle de langage et ce modèle acoustique dans une seule API qui est personnalisable pour votre vocabulaire est vraiment unique sur le marché », a estimé Irving Kwong, Group Program Manager chez Microsoft, dans un entretien.

Microsoft a formé le groupe pour accélérer ses avancées dans le domaine de l'intelligence artificielle. L’objectif est de faire sortir le plus de ses technologies des laboratoires afin de les incorporer dans ses propres produits ainsi que ses services pour les développeurs tiers.

Source : blog Microsoft