Ubisoft a construit une nouvelle IA pour apprendre à une voiture à se conduire dans un jeu de course,
En utilisant l'apprentissage par renforcement

Des chercheurs de l’industrie de Jeux vidéo ont fait une dernière découverte qui devrait permettre aux développeurs d’aller de l’avant dans l’utilisation de l'apprentissage par renforcement dans les jeux vidéo. En effet, les chercheurs d’Ubisoft La Forge, l'espace de prototypage du développeur de jeux Ubisoft, ont consacré des ressources à la recherche et au développement de l'apprentissage par renforcement, et ont proposé dans un article récent, sur Arxiv le mois dernier, un algorithme capable de gérer des actions discrètes et continues dans le jeu vidéo de manière "raisonnée" et prévisible, d’après les chercheurs.

L'apprentissage par renforcement (RL) de l’IA consiste, pour un agent autonome (robot, etc.), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. Mais alors que cette technologie a été appliquée avec succès dans des domaines allant de la robotique industrielle à la découverte de médicaments, et que des grandes entreprises comme OpenAI et Alphabet's DeepMind ont étudié son efficacité dans des jeux vidéo comme Dota 2, Quake III Arena et StarCraft 2, plusieurs autres développeurs de jeux n’ont, jusqu'à présent, pas encore étudié son utilisation pour des problèmes d’accessibilité rencontrés dans l'industrie.

Nom : Ub02.jpg
Affichages : 2566
Taille : 33,1 Ko

Les chercheurs d’Ubisoft La Forge ont constaté que la collecte d'échantillons de données a tendance à être beaucoup plus lente en général, et qu'il existe des contraintes de budget temps sur la performance d'exécution des agents. C’est pour ces raisons qu’ils tentent de rendre la RL plus pratique à mettre en œuvre dans les jeux vidéo afin de faciliter la tâche à tous les acteurs de l’industrie. Dans leur article, les coauteurs ont décrit les travaux des chercheurs :

« Les applications de l'apprentissage par renforcement dans les jeux vidéo ont récemment connu des avancées massives de la part de la communauté des chercheurs, avec des agents formés pour jouer à des jeux Atari à partir de pixels ou pour être compétitifs avec les meilleurs joueurs du monde dans des jeux complexes à information incomplète ». « Ces systèmes ont comparativement été peu utilisés dans l'industrie du jeu vidéo, et nous pensons que le manque d'accessibilité en est une raison majeure. En effet, des résultats vraiment impressionnants ... sont produits par de grands groupes de recherche avec des ressources informatiques bien au-delà de ce qui est généralement disponible dans les studios de jeux vidéo », ont-ils ajouté.

Ubisoft La Forge tente de résoudre le problème de lenteur de l’apprentissage machine et d’introduire un RL qui exécute à la fois des actions continues et discrètes

Selon l’article, l'apprentissage machine est nettement plus lent que le RL car il nécessite beaucoup plus de données de formation pour apprendre à réagir aux scénarios. Le RL est capable d'apprendre, de s'enseigner et de mettre en œuvre des idées antérieures dans un monde continu avec des variables qui ne sont pas prises en compte, alors que le ML n'apprend qu'à partir de variables spécifiques.

Mais le problème aussi avec les jeux vidéo utilisant l'apprentissage par renforcement est que la plupart des RL n’exécutent que des actions continues ou discrètes, alors que les jeux vidéo doivent souvent utiliser les deux. Une action continue étant une action qui se répète indéfiniment, tandis qu'une action discrète est une action spontanée. Dans l’exemple de la conduite, l'action continue serait la direction et l'accélération, tandis que l'action discrète serait le freinage.

L'équipe d'Ubisoft a donc cherché à concevoir une approche d'apprentissage par renforcement qui permettrait de relever les défis communs au développement de jeux vidéo, en tentant de rendre l'apprentissage par renforcement plus pratique à mettre en œuvre dans les jeux vidéo.

Les chercheurs ont donc proposé un algorithme d'IA hybride basé sur l'architecture Soft Actor-Critic (SAC) présentée au début de l'année 2018 par des chercheurs de l'Université de Californie à Berkeley, qui est plus efficace pour l'échantillonnage que les algorithmes traditionnels d'apprentissage par renforcement et qui apprend de façon robuste à généraliser dans des conditions qu'elle n'a jamais vues auparavant. Le SAC hybride de La Forge a étendu le SAC original avec des actions à la fois continues et discrètes, une situation souvent rencontrée dans les jeux vidéo – par exemple, quand un joueur a la liberté d'effectuer des actions comme se déplacer et sauter, chacune étant associée à des paramètres comme les coordonnées de la cible et la direction.


Selon l’article, les chercheurs d'Ubisoft ont évalué leur algorithme sur trois environnements conçus pour comparer les systèmes d'apprentissage par renforcement, dont un simple jeu de type plateforme et deux jeux de football. Selon eux, à cause des problèmes d’architecture, les performances dans ces environnements ont été légèrement inférieures à celles des techniques de pointe dans l'industrie actuellement. Mais ils affirment que dans un autre test, ils l'ont utilisé avec succès pour entraîner un véhicule de jeu vidéo (agent).

Dans ce test, deux actions continues (accélération et direction) et une action binaire discrète (freinage) ont été fournies à l’agent, l'objectif étant de suivre un chemin donné le plus rapidement possible dans des environnements que l'agent n'a pas rencontrés pendant la formation. « Nous avons montré que le SAC hybride peut être appliqué avec succès pour former une voiture à une tâche de conduite à grande vitesse dans un jeu vidéo commercial », ont écrit les chercheurs dans l’article de la Forge sur l'apprentissage pratique par renforcement dans les jeux vidéo.

Ils ont également noté que leur approche du SAC hybride peut permettre un large éventail d'interactions possibles que les agents peuvent avoir avec leur environnement. Cela peut potentiellement permettre aux IA qui jouent à des jeux d'avoir autant de liberté que les joueurs humains qui peuvent entrer manuellement des actions continues et discrètes en même temps, comme courir et sauter. Selon eux, le SAC hybride pourrait établir une nouvelle référence dans l'apprentissage par renforcement pour les jeux vidéo ainsi que d'autres applications possibles qui doivent encore être testées.

Ubisoft n’est pas nouveau dans l’utilisation des outils de développement basés sur l'IA. Le développeur de jeux a commencé à implémenter l'apprentissage machine à une échelle beaucoup plus grande par son jeu vidéo Assassin's Creed Origins dans le but de recréer plus fidèlement l'Egypte ptolémaïque. Le processus prenait beaucoup de temps, car les développeurs devaient apprendre au ML à reconnaître et à utiliser les hiéroglyphes, et il y avait de nombreux bogues à corriger. Ubisoft a développé un outil d'IA appelé "Commit Assistant" qui détecte les bogues et implémente les corrections avec peu de supervision.

Il n'a pas encore été confirmé que Hybrid SAC est prévu pou être mis en œuvre dans les prochaines versions des jeux vidéo d’un développeur, mais les chercheurs de La Forge ont prodigué des conseils aux développeurs qui utiliseront le RL. Ils conseillent de commencer avec les cadres de base et de déterminer quelles actions sont continues et discrètes, puis de garder l'algorithme simple avec quelques actions continues qui ont une dépendance sur une action discrète. Enfin, ils suggèrent de dupliquer les dépendances autant que possible pour les rendre proches de l'indépendance.

Source : Ubisoft La Forge

Et vous ?

Que pensez-vous du nouveau Hybrid SAC d’Ubisoft La Forge ?
Selon les chercheurs, le Hybrid SAC pourrait établir une nouvelle référence dans le RL pour les jeux vidéo ainsi que d'autres applications possibles. Quel commentaire en faites-vous ?

Lire aussi

Cinq algorithmes d'IA font équipe pour écraser des humains au Dota 2, un jeu d'équipe connu pour être extrêmement compliqué
DeepMind : Alphastar améliore ses performances pour atteindre le niveau Grandmaster StarCraft II, l'IA développée par la filiale de Google apporte des résultats « susceptibles d'intéresser l'armée »
IA : les algorithmes d'OpenAI qui ont fait équipe pour battre des humains au Dota 2 auraient triché, selon un joueur professionnel
IA : des scientifiques du MIT conçoivent un algorithme capable d'interpréter des images, pour répondre à des questions sur leur contenu