Nous pensons que la superintelligence pourrait voir le jour dans les dix prochaines années. Ces systèmes d'IA auraient de vastes capacités - ils pourraient être extrêmement bénéfiques, mais aussi potentiellement présenter des risques importants.
Aujourd'hui, nous alignons les systèmes d'IA pour nous assurer qu'ils sont sûrs en utilisant l'apprentissage par renforcement à partir du retour d'information humain (RLHF). Cependant, l'alignement des futurs systèmes d'IA surhumaine posera des défis techniques fondamentalement nouveaux et qualitativement différents.
Les systèmes d'IA surhumaine seront capables de comportements complexes et créatifs que les humains ne peuvent pas entièrement comprendre. Par exemple, si un modèle surhumain génère un million de lignes de code extrêmement compliqué, les humains ne seront pas en mesure d'évaluer de manière fiable si l'exécution du code est sûre ou dangereuse. Les techniques d'alignement existantes, telles que la RLHF, qui reposent sur la supervision humaine, pourraient ne plus être suffisantes.
Cela nous amène à un défi fondamental : comment les humains peuvent-ils diriger des systèmes d'IA beaucoup plus intelligents qu'eux et leur faire confiance ?
Il s'agit de l'un des problèmes techniques non résolus les plus importants au monde. Mais nous pensons qu'il est possible de le résoudre grâce à un effort concerté. Il existe de nombreuses approches prometteuses et des directions intéressantes, avec beaucoup de fruits à portée de main. Nous pensons qu'il existe une énorme opportunité pour la communauté de recherche en ML et les chercheurs individuels de faire des progrès majeurs sur ce problème aujourd'hui.
Dans le cadre de notre
projet Superalignment, nous souhaitons rassembler les meilleurs chercheurs et ingénieurs du monde pour relever ce défi - et nous sommes particulièrement enthousiastes à l'idée de faire entrer de nouvelles personnes dans le domaine.
Subventions rapides pour le projet Superalignement
En partenariat avec Eric Schmidt, nous lançons un programme de subventions de 10 millions de dollars pour soutenir la recherche technique visant à garantir l'alignement et la sécurité des systèmes d'IA surhumaine :
- Nous proposons des subventions de 100 000 à 2 millions de dollars pour les laboratoires universitaires, les organisations à but non lucratif et les chercheurs individuels.
- Pour les étudiants diplômés, nous sponsorisons une bourse OpenAI Superalignment d'une durée d'un an et d'un montant de 150 000 dollars : 75 000 dollars d'allocation et 75 000 dollars de calcul et de financement de la recherche.
- Aucune expérience préalable en matière d'alignement n'est requise ; nous cherchons activement à soutenir les chercheurs qui sont enthousiastes à l'idée de travailler sur l'alignement pour la première fois.
- Notre processus de candidature est simple et nous vous contacterons dans les quatre semaines suivant la clôture des candidatures.
Postulez avant le 18 février
Avec ces subventions, nous sommes particulièrement intéressés par le financement des
directions de recherche suivantes :
- Généralisation faible à forte : Les humains seront des superviseurs faibles par rapport aux modèles surhumains. Pouvons-nous comprendre et contrôler la manière dont les modèles forts généralisent à partir d'une supervision faible ?
- Interprétabilité : Comment pouvons-nous comprendre les éléments internes des modèles ? Et pouvons-nous l'utiliser, par exemple, pour construire un détecteur de mensonges pour l'IA ?
- Supervision évolutive : comment pouvons-nous utiliser des systèmes d'IA pour aider les humains à évaluer les résultats d'autres systèmes d'IA dans des tâches complexes ?
De nombreuses autres directions de recherche, y compris, mais sans s'y limiter, l'honnêteté, la fidélité de la chaîne de pensée, la robustesse des adversaires, les évaluations et les bancs d'essai, et bien plus encore.
Pour en savoir plus sur les orientations de la recherche, les FAQ et d'autres détails, consultez notre page sur les
subventions rapides pour le superalignement.
Rejoignez-nous dans ce défi
Nous pensons que de nouveaux chercheurs pourraient apporter d'énormes contributions ! Il s'agit d'un domaine jeune avec de nombreux problèmes de recherche réalisables ; des contributions exceptionnelles pourraient non seulement aider à façonner le domaine, mais aussi être cruciales pour l'avenir de l'IA. Il n'y a jamais eu de meilleur moment pour commencer à travailler sur l'alignement.
Partager