Google Duplex, un système d'IA qui vise à mieux résoudre les problèmes posés par téléphone,
va-t-il révolutionner les interactions homme-machine ?
Ces dernières années, nous avons assisté à une révolution dans la capacité des ordinateurs à comprendre et à générer des discours naturels, en particulier avec l'application de réseaux neuronaux profonds. Pourtant, même avec les systèmes de pointe d'aujourd'hui, il est souvent frustrant de devoir parler à des voix informatisées qui ne comprennent pas le langage naturel. En particulier, les systèmes téléphoniques automatisés ont encore du mal à reconnaître des mots et des commandes simples. Ils ne s'engagent pas dans un flux de conversation et forcent l'appelant à s'adapter au système au lieu que le système s'ajuste à l'appelant.
Afin de permettre de mener les conversations naturelles pour effectuer des tâches «réelles» par téléphone, la filiale d’Alphabet a présenté sa technologie Google Duplex. Celle-ci est orientée vers l'accomplissement de tâches spécifiques, telles que la planification de certains types de rendez-vous. Pour de telles tâches, promet Google, le système rend l'expérience conversationnelle aussi naturelle que possible, permettant aux gens de parler normalement, comme ils le feraient à une autre personne, sans avoir à s'adapter à une machine.
L'une des principales idées de recherche était de contraindre Duplex à des domaines fermés, qui sont suffisamment étroits pour être explorés de manière approfondie. Il convient de préciser que Duplex ne peut effectuer des conversations naturelles qu'après avoir été profondément formé dans de tels domaines. Il ne peut donc pas effectuer de conversations générales.
La technologie Google Duplex est conçue pour paraître naturelle afin de rendre l'expérience de conversation confortable. Google assure qu’il est important que les utilisateurs et les entreprises aient une bonne expérience avec ce service, et la transparence en est un élément clé. « Nous voulons être clairs sur l'objectif de l'appel afin que les entreprises comprennent le contexte. Nous expérimenterons la bonne approche au cours des prochains mois ».
Mener des conversations naturelles
Conduire des conversations naturelles comporte plusieurs défis : le langage naturel est difficile à comprendre, le comportement naturel est difficile à modéliser, les attentes de latence nécessitent un traitement rapide et la génération d'un son naturel avec les intonations appropriées est difficile.
Quand les gens se parlent, ils utilisent des phrases plus complexes que lorsqu'ils parlent à des ordinateurs. Il arrive qu’ils se corrigent souvent en mi-phrase, sont plus verbeux que nécessaire, ou omettent des mots et s'appuient plutôt sur le contexte; ils expriment aussi un large éventail d'intentions, parfois dans la même phrase, par exemple, « Donc, du mardi au jeudi, nous sommes en pause entre midi et deux, puis nous rouvrons pour terminer à six heures ».
Dans les discours spontanés naturels, les gens parlent plus vite et moins clairement que lorsqu'ils parlent à une machine, ce qui rend la reconnaissance de la parole plus difficile et Google observe des taux d'erreur de mots plus élevés. Le problème s'aggrave pendant les appels téléphoniques, qui ont souvent de forts bruits de fond et des problèmes de qualité sonore.
Dans des conversations plus longues, la même phrase peut avoir des significations très différentes selon le contexte. Par exemple, lors de la réservation des réservations « Ok pour 4 » peut signifier l'heure de la réservation ou le nombre de personnes. Souvent, le contexte pertinent peut être plusieurs phrases de retour, un problème qui est aggravé par l'augmentation du taux d'erreur de mots dans les appels téléphoniques.
Décider quoi dire est une fonction à la fois de la tâche et de l'état de la conversation. En outre, il existe des pratiques courantes dans les conversations naturelles - les protocoles implicites qui incluent des détails (« ça marche pour vendredi en huit » - qui désigne le second vendredi à compter de la date de l’échange), un besoin de synchronisation (« peux-tu m’entendre ? » - lorsque nous avons l’impression que l’interlocuteur ne nous entend pas bien ou lorsque nous ne l’entendons pas bien nous même), les interruptions (« que disais-tu à propos d’Amélie ? » - lorsque nous perdons le fil), et les pauses (« un moment stp » - pour signifier à l’interlocuteur que nous lui reviendrons plus tard).
Intervient donc Google Duplex
Les conversations de Google Duplex semblent naturelles grâce aux progrès de la compréhension, de l'interaction, du timing et de la parole.
Au cœur de Duplex est un réseau de neurones récurrent (RNN) conçu pour faire face à ces défis, construit en utilisant TensorFlow Extended (TFX). Pour obtenir sa haute précision, Google a formé le RNN de Duplex sur un corpus de données de conversations téléphoniques anonymisées. Le réseau utilise la sortie de la technologie de reconnaissance vocale automatique (ASR) de Google, ainsi que les caractéristiques de l'audio, l'historique de la conversation, les paramètres de la conversation (par exemple, le service souhaité pour un rendez-vous ou l'heure actuelle) et plus encore.
Google a formé notre son modèle de compréhension séparément pour chaque tâche, mais a exploité le corpus partagé à travers les tâches. Enfin, Google a utilisé l'optimisation de l'hyperparamètre de TFX pour améliorer encore le modèle
Avantages pour les entreprises et les utilisateurs
Les entreprises qui utilisent des réservations de rendez-vous prises en charge par Duplex et qui ne sont pas encore alimentées par des systèmes en ligne peuvent bénéficier de Duplex en permettant aux clients de réserver via l'Assistant Google sans devoir modifier leurs pratiques quotidiennes ni former leurs employés. L'utilisation de Duplex permet également de réduire les non-présentations aux rendez-vous en rappelant aux clients leurs rendez-vous à venir de manière à faciliter l'annulation ou le rééchelonnement.
.
Pour illustrer avec un autre cas l’utilité de Google Duplex pour les entreprises, Google rappelle que les clients appellent souvent les entreprises pour se renseigner sur les informations qui ne sont pas disponibles en ligne, telles que les heures d'ouverture pendant les vacances. Duplex peut appeler l'entreprise pour se renseigner sur les heures d'ouverture et rendre l'information disponible en ligne avec Google, ce qui réduit le nombre d'appels reçus par les entreprises, tout en rendant l'information plus accessible à tous. Les entreprises peuvent fonctionner comme elles l'ont toujours fait, il n'y a pas de courbe d'apprentissage ou de changements à faire pour bénéficier de cette technologie.
Pour les utilisateurs, Google Duplex facilite les tâches prises en charge. Au lieu de passer un appel téléphonique, l'utilisateur interagit simplement avec l'Assistant Google, et l'appel se déroule entièrement en arrière-plan sans intervention de l'utilisateur.
Un autre avantage pour les utilisateurs est que Duplex permet une communication déléguée avec les fournisseurs de services de manière asynchrone, par exemple, en demandant des réservations en dehors des heures d'ouverture, ou avec une connectivité limitée. Il peut également contribuer à résoudre les problèmes d'accessibilité et les barrières linguistiques, par exemple en permettant aux utilisateurs malentendants ou aux utilisateurs ne parlant pas la langue locale d'effectuer des tâches par téléphone.
Source : Google
Et vous ?
Que pensez-vous de Google Duplex ?
Ces avancées technologiques en intelligence artificielle constituent-elles une menace pour des emplois comme téléconseiller ? Pour quelles raisons ?
Voir aussi :
Google déploie Android P Beta, la prochaine version majeure de son OS mobile, qui s'accompagne d'un nouveau système de navigation
Google serait en train de tester une fonctionnalité permettant aux utilisateurs de poser des questions, et recevoir des réponses d'autres utilisateurs
Android P : Google veut empêcher les applications de surveiller votre activité réseau, une faille de confidentialité que la firme a décidé de corriger
Google publie en open source le framework Asylo pour offrir une meilleure isolation aux charges de travail cloud sensibles
WebP, le format d'image moderne de Google, sort en version 1.0 avec des améliorations au niveau de la compression avec perte
Partager