Vous pouvez désormais télécharger le code source d'AlexNet, le réseau de neurones convolutionnels à l'origine de l'essor de l'IA
qui a prouvé que « l'apprentissage profond » pouvait marcher

Le Computer History Museum (CHM), en collaboration avec Google, a rendu public le code source d'AlexNet, un réseau de neurones convolutionnels (CNN) qui a révolutionné le domaine de l'intelligence artificielle en 2012 en prouvant que « l'apprentissage profond » pouvait réaliser des choses que les techniques d'IA conventionnelles ne pouvaient pas faire. L'apprentissage profond, qui utilise des réseaux neuronaux multicouches capables d'apprendre à partir de données sans programmation explicite, représentait une rupture importante par rapport aux approches traditionnelles de l'IA qui s'appuyaient sur des règles et des caractéristiques élaborées à la main. Cette mise à disposition offre aux chercheurs et passionnés d'IA une opportunité unique d'explorer les origines d'une technologie qui façonne notre monde numérique actuel.

La technologie de l’IA créative et générative permet aux machines de créer du contenu et de réaliser des tâches qui demandaient auparavant l’ingéniosité humaine, en se basant sur les caractéristiques et les motifs des données. Elle peut générer des textes, des images, des vidéos, de la musique, etc., dans différents styles et domaines. Elle utilise des modèles d’IA comme les GAN, les RNN ou les transformateurs pour produire du contenu.

Les premiers systèmes d’IA étaient limités à une intelligence artificielle faible, se spécialisant dans une seule tâche et l’exécutant parfois aussi bien ou mieux que l’homme. Par exemple, MYCIN ne faisait que diagnostiquer et traiter les infections bactériennes. SYSTRAN ne faisait que traduire automatiquement. Deep Blue ne jouait qu’aux échecs.

Plus tard, des modèles de réseaux neuronaux profonds entraînés par apprentissage supervisé, comme AlexNet et AlphaGo, ont réussi à accomplir un certain nombre de tâches de perception et de décision automatiques qui étaient difficiles à réaliser avec des systèmes basés sur des heuristiques, des règles ou des connaissances. Plus récemment, nous avons vu des modèles de pointe capables d’effectuer une grande variété de tâches sans être entraînés spécifiquement pour chacune d’elles.

Google et le Computer History Museum (CHM) ont publié conjointement le code source d'AlexNet

Le code Python, désormais disponible sur la page GitHub du CHM en tant que logiciel libre, offre aux passionnés d'IA et aux chercheurs un aperçu d'un moment clé de l'histoire de l'informatique. AlexNet a marqué un tournant dans le domaine de l'IA, car il était capable d'identifier des objets sur des photographies avec une précision sans précédent, classant correctement des images dans l'une des 1 000 catégories telles que « fraise », « bus scolaire » ou « golden retriever », avec beaucoup moins d'erreurs que les systèmes antérieurs ».

À l'instar des circuits originaux de l'ENIAC ou des plans de la machine à différences de Babbage, l'examen du code d'AlexNet pourrait permettre aux historiens de comprendre comment une mise en œuvre relativement simple est à l'origine d'une technologie qui a remodelé notre monde. Si l'apprentissage profond a permis des avancées dans les domaines des soins de santé, de la recherche scientifique et des outils d'accessibilité, il a également favorisé des développements inquiétants tels que les « deepfakes », la surveillance automatisée et le risque d'un déplacement généralisé des emplois.

Mais en 2012, ces conséquences négatives étaient encore perçues par beaucoup comme de lointains rêves de science-fiction. Au contraire, les experts étaient simplement stupéfaits qu'un ordinateur puisse enfin reconnaître des images avec une précision proche de celle de l'homme.

Apprendre aux ordinateurs à voir

Comme l'explique le CHM dans son billet de blog détaillé, AlexNet est né des travaux d'Alex Krizhevsky et d'Ilya Sutskever, étudiants diplômés de l'université de Toronto, et de leur conseiller Geoffrey Hinton. Le projet a prouvé que l'apprentissage en profondeur pouvait surpasser les méthodes traditionnelles de vision par ordinateur.

Le réseau neuronal a remporté le concours ImageNet 2012 en reconnaissant des objets dans des photos bien mieux que toute autre méthode antérieure. Yann LeCun, vétéran de la vision par ordinateur, qui a assisté à la présentation à Florence, en Italie, a immédiatement reconnu son importance pour le domaine, se levant après la présentation et qualifiant AlexNet de « tournant sans équivoque dans l'histoire de la vision par ordinateur ». AlexNet a marqué la convergence de trois technologies essentielles qui allaient définir l'IA moderne.

Selon le CHM, le musée a commencé à faire des efforts pour acquérir le code historique en 2020, lorsque Hansen Hsu (conservateur du CHM) a contacté Krizhevsky au sujet de la publication du code source en raison de son importance historique. Google ayant acquis la société DNNresearch de l'équipe en 2013, elle détenait les droits de propriété intellectuelle.

Le musée a travaillé avec Google pendant cinq ans pour négocier la publication et identifier avec soin la version spécifique qui représentait l'implémentation originale de 2012 (une distinction importante, car de nombreuses recréations étiquetées « AlexNet » existent en ligne mais ne sont pas le code authentique utilisé lors de la percée).

Nom : capture.png
Affichages : 42865
Taille : 400,6 Ko
Capture d'écran de la base de données ImageNet prise en 2020

Comment AlexNet marchait

Si l'impact d'AlexNet sur l'IA est désormais légendaire, la compréhension de l'innovation technique qui l'a sous-tendue permet d'expliquer pourquoi elle a représenté un moment aussi décisif. L'avancée n'est pas le fruit d'une seule technique révolutionnaire, mais plutôt de la combinaison élégante de technologies existantes qui s'étaient développées séparément.

Le projet a combiné trois éléments auparavant distincts : les réseaux neuronaux profonds, les ensembles de données d'images massives et les unités de traitement graphique (GPU). Les réseaux neuronaux profonds constituaient l'architecture de base d'AlexNet, avec plusieurs couches capables d'apprendre des caractéristiques visuelles de plus en plus complexes. Le réseau a été nommé d'après Krizhevsky, qui a mis en œuvre le système et réalisé le vaste processus d'apprentissage.

Contrairement aux systèmes d'IA traditionnels qui exigeaient des programmeurs qu'ils spécifient manuellement les caractéristiques à rechercher dans les images, ces réseaux profonds pouvaient découvrir automatiquement des modèles à différents niveaux d'abstraction (des simples bords et textures dans les premières couches aux parties d'objets complexes dans les couches plus profondes). Alors qu'AlexNet utilisait une architecture CNN spécialisée dans le traitement de données en grille telles que les images, les systèmes d'IA actuels tels que ChatGPT et Claude s'appuient principalement sur des modèles Transformer. Ces modèles sont une invention de 2017 de Google Research qui excelle dans le traitement des données séquentielles et la saisie des dépendances à long terme dans les textes et autres médias grâce à un mécanisme appelé « attention ».

Pour les données d'entraînement, AlexNet a utilisé ImageNet, une base de données créée par Fei-Fei Li, professeur à l'université de Stanford, en 2006. Fei-Fei Li a rassemblé des millions d'images Internet et les a organisées à l'aide d'une base de données appelée WordNet. Des travailleurs de la plateforme Mechanical Turk d'Amazon ont aidé à étiqueter les images.

Le projet nécessitait une grande puissance de calcul pour traiter ces données. Krizhevsky a exécuté le processus de formation sur deux cartes graphiques Nvidia installées dans un ordinateur dans la chambre de ses parents. Les réseaux neuronaux effectuent de nombreux calculs matriciels en parallèle, des tâches que les puces graphiques maîtrisent bien. Nvidia, sous la direction de Jensen Huang, a rendu ses puces graphiques programmables pour des tâches non graphiques grâce à son logiciel CUDA, lancé en 2007.

L'impact d'AlexNet s'étend au-delà de la vision par ordinateur. Les réseaux neuronaux d'apprentissage profond alimentent désormais la synthèse vocale, les systèmes de jeu, les modèles de langage et les générateurs d'images. Ils sont également à l'origine d'effets potentiellement destructeurs pour la société, tels que le remplissage des réseaux sociaux avec des déchets générés par l'IA, l'autonomisation des intimidateurs abusifs et l'altération potentielle des archives historiques.

Où en sont-ils aujourd'hui ?

Au cours des 13 années qui ont suivi leur percée, les créateurs d'AlexNet ont orienté leur expertise dans différentes directions, chacun contribuant au domaine de manière unique.

Après le succès d'AlexNet, Krizhevsky, Sutskever et Hinton ont formé une société appelée DNNresearch Inc. que Google a rachetée en 2013. Depuis, chaque membre de l'équipe a suivi une voie différente. Sutskever a cofondé OpenAI en 2015, qui a lancé ChatGPT en 2022, et a plus récemment lancé Safe Superintelligence (SSI), une startup qui a obtenu un financement d'un milliard de dollars. Krizhevsky a quitté Google en 2017 pour travailler sur de nouvelles techniques d'apprentissage profond chez Dessa.

Hinton a gagné en reconnaissance et en notoriété pour avoir mis en garde contre les dangers potentiels des futurs systèmes d'IA, démissionnant de Google en 2023 afin de pouvoir s'exprimer librement sur le sujet. L'année dernière, Hinton a stupéfié la communauté scientifique en recevant le prix Nobel de physique 2024 aux côtés de John J. Hopfield pour leurs travaux fondamentaux dans le domaine de l'apprentissage automatique, qui remontent au début des années 1980.

Pour ce qui est de savoir à qui revient le mérite d'AlexNet, Hinton a décrit avec l'humour qui le caractérise la répartition des rôles dans le cadre du projet au Computer History Museum : « Ilya a pensé que nous devrions le faire, Alex l'a fait fonctionner et j'ai reçu le prix Nobel ».

Héritage et Perspectives

L'impact d'AlexNet va au-delà de la reconnaissance d'images. Il a ouvert la voie à des avancées dans divers domaines, tels que la synthèse vocale, la modélisation du langage et la génération de contenu. En rendant public le code source d'AlexNet, Google et le Computer History Museum offrent aux générations futures une fenêtre sur un moment clé de l'histoire de l'informatique, illustrant comment une innovation technologique peut transformer radicalement notre interaction avec le monde numérique.

Télécharger le code source d'AlexNet

Source : Computer History Museum

Et vous ?

L'ouverture du code source d'AlexNet marque-t-elle un tournant dans l'accessibilité des technologies d'IA pour les chercheurs et les petites entreprises ? Quel impact cette démocratisation de l'accès au code pourrait-elle avoir sur l'innovation dans le domaine de l'IA ?

L'intelligence artificielle issue de l'apprentissage profond a-t-elle ouvert la voie à des technologies potentiellement dangereuses, comme les deepfakes ou la surveillance automatisée ? Quels mécanismes devraient être mis en place pour réguler ces technologies ?

AlexNet a révolutionné la vision par ordinateur en 2012. Plus d'une décennie plus tard, quel est l'état actuel des systèmes d'IA dans la reconnaissance d'images et dans quels domaines les progrès ont-ils été les plus marquants ?