Reconnaissance de d’image : Google et Stanford publient leurs résultats

**Amine Horseman** · 20/11/2014, 14h06

Reconnaissance d’image : Google et Stanford publient leurs résultats
Le Deep Learning aurait amélioré la précision du système

L’intelligence artificielle a connu une grande avancée durant les 40 dernières années, elle a des applications un peu partout aujourd’hui. Le « Deep Learning » constitue une de ces techniques d’apprentissage les plus à la mode aujourd’hui.

Une équipe de recherche à Google ainsi qu’une autre à Stanford l’ont utilisé récemment dans une problématique assez intéressante : la description de scènes. Le but est de créer des programmes qui prennent en entrée une image et génèrent en sortie un texte qui décrit cette image. Ceci pourra être très utile pour améliorer les résultats de recherche de Google Images par exemple, mais aussi dans la lutte contre le crime, pas seulement en identifiant les individus par une reconnaissance faciale, mais également en reconnaissant ce qu’ils sont en train de faire, et envoyer un message à la police, et ceci, de manière automatique, grâce aux images des caméras de surveillance.

La problématique de reconnaissance de scènes n’est pas nouvelle, plusieurs chercheurs travaillent sur le sujet pour créer des robots capables de reconnaître les activités des humains dans le but d’aider les personnes âgées et les malades. Un autre exemple encore qu’on peut citer est le cas des voitures autonomes ou semi-autonomes, qui peuvent identifier les piétons et les cyclistes traversant la route pour alerter le conducteur (s’il y en a) ou freiner en cas d’urgence.

Mais la caractéristique principale de l’étude de Google et de Stanford, c’est qu’elles combinent le domaine de la reconnaissance des images avec celui de la génération de texte, tout en utilisant le Deep Leaning. Un réseau de neurones convolutif profond est utilisé pour la classification d’objets dans la scène, la sortie est directement utilisée comme entrée pour un autre réseau de neurones modélisé de telle sorte à produire des phrases. « On peut ensuite entraîner l’ensemble du système directement avec des images annotées, de façon à maximiser les correspondances » disent les chercheurs. Résultat : le système peut décrire la scène en quelques fractions de seconde avec une précision qui dépasse celle des autres recherches publiées auparavant. Les scientifiques sont optimistes et disent vouloir entraîner le système avec plus d’images, ce qui devrait, selon eux, améliorer encore plus les résultats.

Pour les intéressés, l’équipe de Standford va bientôt publier le code source ainsi que les données utilisées durant l’étude.

Source : Stanford, Google Research Blog

Et vous ?

Qu’en pensez-vous ?

**silverfly** · 21/11/2014, 11h06

Qu’en pensez-vous ?

Déjà que je galère pour identifier les caractères dans les captcha...

**rawsrc** · 21/11/2014, 11h10

Moi je dis que c'est du grand n'importe quoi !!

Avec tout ça, on ne sait toujours pas si elle est célibataire ou pas ??!!!???

**Aurelien Plazzotta** · 21/11/2014, 14h05

On est encore bien loin de la réalité augmentée, ça affiche pas ses pulsations-minute, son statut amoureux, son numéro de téléphone...

Comme dit dans un autre sujet, à chaque fois qu'une nouvelle "avancée" risque de dégrader notre vie privée, on nous sort le refrain de la sécurité...

Là, c'est la voiture qui s'arrête pour protéger les piétons, mais il est clair que le deep learning associé aux textes et aux images n'a pas pour but de préserver notre vie privée. Au contraire, l'usage de cette technologie repose sur la collecte de nos habitudes de consommation et sa monétisation.

**gangsoleil** · 21/11/2014, 16h50

Bonjour,

Envoyé par Kenaryn

Comme dit dans un autre sujet, à chaque fois qu'une nouvelle "avancée" risque de dégrader notre vie privée, on nous sort le refrain de la sécurité...

Là, c'est la voiture qui s'arrête pour protéger les piétons, mais il est clair que le deep learning associé aux textes et aux images n'a pas pour but de préserver notre vie privée. Au contraire, l'usage de cette technologie repose sur la collecte de nos habitudes de consommation et sa monétisation.

Ah non, cette fois-ci, c'et clairement dit. Enfin clairement... Il faut lire entre les lignes, mais c'est bien dit (avec un exemple sur la sécurité, certes) :

Envoyé par Amine Horseman

Ceci pourra être très utile pour améliorer les résultats de recherche de Google Images par exemple, mais aussi dans la lutte contre le crime, pas seulement en identifiant les individus par une reconnaissance faciale, mais également en reconnaissant ce qu’ils sont en train de faire, et envoyer un message à la police, et ceci, de manière automatique, grâce aux images des caméras de surveillance.

Après, Google a beau avoir comme slogan "don't be evil", nous savons tous ici que leur seul but est de faire de l'argent, et que toutes les avancées qu'ils font n'ont pour but que d'en gagner un peu plus.