
Envoyé par
DeepMind
Vérifier l'exactitude des réponses de Sparrow est difficile même pour les experts. Au lieu de cela, nous demandons à nos participants de déterminer si les réponses de Sparrow sont plausibles et si les preuves fournies par Sparrow appuient réellement la réponse. Selon nos participants, Sparrow fournit une réponse plausible et l'étaye avec des preuves 78% du temps lorsqu'on lui pose une question factuelle. Il s'agit d'une grande amélioration par rapport à nos modèles de base. Pourtant, Sparrow n'est pas à l'abri de faire des erreurs, comme des faits hallucinants et de donner des réponses parfois hors sujet.
Sparrow a également de la place pour améliorer son respect des règles. Après la formation, les participants étaient encore capables de le tromper pour qu'il enfreigne nos règles 8% du temps, mais par rapport à des approches plus simples, Sparrow est meilleur pour suivre nos règles dans le cadre d'un sondage contradictoire. Par exemple, notre modèle de dialogue original a enfreint les règles environ 3 fois plus souvent que Sparrow lorsque nos participants ont essayé de le tromper.
Notre objectif avec Sparrow était de construire des mécanismes flexibles pour faire respecter les règles et les normes dans les agents de dialogue, mais les règles particulières que nous utilisons sont préliminaires. L'élaboration d'un ensemble de règles meilleur et plus complet nécessitera à la fois la contribution d'experts sur de nombreux sujets (y compris les décideurs politiques, les spécialistes des sciences sociales et les éthiciens) et la contribution participative d'un large éventail d'utilisateurs et de groupes concernés. Nous pensons que nos méthodes s'appliqueront toujours pour un ensemble de règles plus rigoureux.
Sparrow est une avancée significative dans la compréhension de la manière de former les agents de dialogue pour qu'ils soient plus utiles et plus sûrs. Cependant, une communication réussie entre les personnes et les agents de dialogue doit non seulement éviter les préjudices, mais être alignée sur les valeurs humaines pour une communication efficace et bénéfique, comme indiqué dans des travaux récents sur l'alignement des modèles de langage sur les valeurs humaines.
Nous soulignons également qu'un bon agent refusera toujours de répondre aux questions dans des contextes où il est approprié de s'en remettre aux humains ou lorsque cela a le potentiel de dissuader les comportements nuisibles. Enfin, notre recherche initiale s'est concentrée sur un agent anglophone, et des travaux supplémentaires sont nécessaires pour garantir des résultats similaires dans d'autres langues et contextes culturels.
À l'avenir, nous espérons que les conversations entre humains et machines pourront conduire à de meilleurs jugements sur le comportement de l'IA, permettant aux gens d'aligner et d'améliorer des systèmes qui pourraient être trop complexes à comprendre sans l'aide de la machine.
Partager