Le nouveau système d'apprentissage par renforcement de DeepMind est-il une étape vers l'IA générale ?

L’une des difficultés cruciales de la découverte de modèles de support en profondeur – le type de systèmes d’IA qui maîtrisent Go, StarCraft 2 et d’autres jeux – est leur incapacité à généraliser leurs capacités au-delà de leur domaine de formation. Cette limitation rend très difficile l’utilisation de ces systèmes dans des environnements réels, où les situations sont beaucoup plus complexes et imprévisibles que les environnements dans lesquels les conceptions d’IA sont formées.

Les chercheurs du laboratoire d’étude de recherche sur l’IA DeepMind prétendent que ont en fait pris les « toutes premières mesures pour former un agent capable de jouer à de nombreux jeux vidéo différents sans nécessiter d’informations d’interaction humaine », selon un article de blog sur leur nouvel effort de « savoir ouvert ». Leur toute nouvelle tâche comprend un environnement 3D avec une dynamique réaliste et des agents d’apprentissage en profondeur qui peuvent apprendre à résoudre un vaste éventail de difficultés.

Le tout nouveau système, selon les scientifiques de DeepMind en IA, est un » étape cruciale vers la production de représentants plus généraux avec la polyvalence nécessaire pour s’adapter rapidement dans des environnements en constante évolution. »

Les résultats de l’article montrent d’excellentes avancées dans l’utilisation de l’apprentissage du support pour des problèmes complexes. Mais ils suggèrent également à quel point les systèmes actuels sont loin d’atteindre le type de capacités de renseignement général que le quartier de l’IA convoite depuis des années.

La fragilité de l’apprentissage par renforcement profond
L’environnement XLand
La connaissance du soutien profond
Les habitudes de haut niveau
Les théories de l’intelligence
li>
L’écart entre la simulation et le monde réel

La fragilité du deep support learning

L’essentiel L’avantage de l’apprentissage par renforcement est sa capacité à établir des habitudes en agissant et en obtenant des commentaires, comparable à la façon dont les êtres humains et les animaux le découvrent en interagissant avec leur environnement. Certains chercheurs décrivent l’apprentissage de soutien comme « la toute première théorie informatique de l’intelligence ».

La combinaison de la connaissance du renforcement et des réseaux de neurones profonds, connue sous le nom de connaissance du renforcement profond, a été au cœur de nombreuses avancées en IA, y compris les célèbres modèles AlphaGo et AlphaStar de DeepMind. Dans les deux cas, les systèmes d’IA ont pu surpasser les champions du monde humains dans leurs jeux vidéo respectifs.

Cependant, les systèmes d’apprentissage de support se distinguent également par leur manque de flexibilité. Par exemple, un modèle de découverte de support qui peut jouer à StarCraft 2 à un niveau professionnel n’aura pas la possibilité de jouer à un jeu vidéo avec des mécanismes similaires (par exemple, Warcraft 3) à n’importe quel niveau de compétence. Même de petites modifications apportées au jeu vidéo initial détérioreront considérablement les performances du modèle d’IA.

« Ces représentants sont généralement contraints de jouer uniquement aux jeux vidéo pour lesquels ils ont été formés, tandis que l’instanciation spécifique du jeu peut varier (par exemple, la conception, les conditions initiales, les challengers) les objectifs auxquels les représentants doivent satisfaire restent exactement les mêmes entre la formation et le dépistage. Un écart par rapport à cela peut entraîner un échec dévastateur du représentant », écrivent les scientifiques de DeepMind dans un article qui fournit toutes les informations sur leur apprentissage ouvert.

People, on d’autre part, sont excellents pour le transfert de connaissances à travers les domaines.

L’environnement XLand

L’objectif de la nouvelle tâche de DeepMind était de produire « un représentant synthétique dont le comportement se généralise au-delà de l’ensemble des jeux sur lesquels il a été formé. »

À cette fin, l’équipe a développé XLand, un moteur capable de produire des environnements 3D composés de géographie fixe et d’objets portables. Le moteur de jeu vidéo imite la physique des corps rigides et permet aux joueurs d’utiliser les choses de différentes manières (par exemple, créer des rampes, bloquer des chemins, etc.).

XLand est un environnement riche dans lequel vous pouvez former des représentants sur un nombre pratiquement infini de tâches. L’un des principaux avantages de XLand est la possibilité d’utiliser des directives de programmation pour générer automatiquement une vaste sélection d’environnements et de difficultés pour former des agents d’IA. Cela répond à l’un des défis cruciaux des systèmes d’intelligence artificielle, qui nécessitent généralement de grandes quantités de données d’entraînement organisées à la main.

Selon le post, les chercheurs ont produit « des milliards de tâches dans XLand, dans différents jeux vidéo , des mondes et des joueurs. » Les jeux vidéo se composent d’objectifs très basiques tels que la recherche de paramètres plus complexes dans lesquels les agents de l’IA pèsent beaucoup sur les avantages et les compromis de diverses récompenses. Certains des jeux vidéo incluent des composants de coopération ou de compétition impliquant plusieurs représentants.

Une connaissance approfondie du support

DeepMind utilise un apprentissage approfondi du support et quelques astuces intelligentes pour créer des représentants de l’IA qui peuvent prospérer dans le Environnement XLand.

L’aide à la découverte de la conception de chaque agent reçoit une vue à la première personne du monde, l’état physique du représentant (par exemple, s’il détient un objet) et son objectif actuel. Chaque agent affine les spécifications de son réseau de neurones de politique pour maximiser ses avantages sur le travail en cours. L’architecture du réseau de neurones contient un système d’attention pour s’assurer que le représentant peut stabiliser l’optimisation des sous-objectifs requis pour atteindre l’objectif principal.

Lorsque l’agent maîtrise sa difficulté actuelle, le générateur de tâches de calcul développe un nouveau défi pour l’agent. Chaque nouvelle tâche est générée en fonction de l’historique de formation du représentant et de manière à aider à répartir les compétences de l’agent à travers une énorme série de défis.

DeepMind a également utilisé ses vastes ressources de calcul (grâce à son propriétaire Alphabet Inc. ) pour former une grande population de représentants en parallèle et transférer les spécifications trouvées à travers différents agents pour améliorer les capacités de base des systèmes de connaissance du renforcement.

La performance de la recherche du renforcement les agents ont été examinés en fonction de leur capacité générale à accomplir un large éventail d’emplois pour lesquels ils n’avaient pas été formés. Quelques-unes des tâches de test incluent des difficultés populaires telles que « attraper le drapeau » et « cache-cache ».

Selon DeepMind, chaque représentant a dérangé environ 700 000 jeux vidéo spéciaux dans 4 000 mondes distincts au sein de XLand et est allé à travers 200 milliards d’étapes de formation à travers 3,4 millions d’emplois distincts (dans le document, les chercheurs estiment que 100 millions d’étapes équivalent à environ 30 minutes de formation).

« À ce stade, nos représentants ont été en mesure de prendre part à chaque travail d’évaluation produit de manière procédurale autre que pour une poignée qui était impossible même pour un humain », ont écrit les scientifiques de l’IA. « Et les résultats que nous observons présentent clairement un comportement de base sans tir dans l’ensemble de l’espace des tâches. »

Le créateur de zéro-shot découvrant des modèles peut résoudre des problèmes qui n’étaient pas présents dans leur ensemble de données d’entraînement. Dans un domaine compliqué comme XLand, la connaissance du zéro-shot peut impliquer que les représentants ont en fait acquis une compréhension essentielle de leur environnement par opposition à la mémorisation de séquences d’images dans des emplois et des environnements particuliers.

Les agents de découverte de support des indications encore plus manifestes de savoir généralisé lorsque les chercheurs ont essayé de les ajuster pour de toutes nouvelles tâches. Selon leurs conclusions, trente minutes de mise au point sur de nouvelles tâches ont suffi pour développer une amélioration impressionnante d’un agent de découverte du support formé avec la toute nouvelle approche. En revanche, un représentant formé à partir de zéro pour la même quantité de temps aurait une efficacité proche de zéro sur la majorité des tâches.

Comportement de haut niveau

Selon DeepMind, le support les agents d’apprentissage affichent l’introduction d’un « comportement heuristique » tel que l’utilisation d’outils, l’effort d’équipe et la préparation en plusieurs étapes. S’il est prouvé, cela peut être un tournant essentiel. Les systèmes d’apprentissage en profondeur sont généralement critiqués pour avoir découvert des connexions analytiques au lieu de relations causales. Si les réseaux de neurones pouvaient établir des concepts de haut niveau tels que l’utilisation de rampes de production de défis ou provoquer des occlusions, cela pourrait avoir un effet important sur des domaines tels que la robotique et les voitures et camions autonomes, où l’apprentissage en profondeur a actuellement du mal.

Ce sont d’énormes si, et les scientifiques de DeepMind se méfient de sauter aux conclusions de leurs découvertes. « Compte tenu de la nature de l’environnement, il est difficile de déterminer l’intentionnalité : les comportements que nous voyons fréquemment semblent être accidentels, mais nous les voyons toujours se produire régulièrement », ont-ils écrit dans leur article de blog.

Cependant. ils sont convaincus que leurs représentants de soutien à la découverte « sont conscients des bases de leur corps et du passage du temps et qu’ils comprennent la structure de haut niveau des jeux qu’ils rencontrent ». les compétences sont un autre des objectifs très recherchés du quartier de l’intelligence artificielle.

Théories de l’intelligence

Certains des principaux chercheurs de DeepMind ont récemment publié un article dans lequel ils supposer qu’une seule récompense et un soutien sachant suffisent pour finalement atteindre l’intelligence artificielle de base (AGI). Un agent intelligent avec les bonnes récompenses peut établir tous les types de capacités telles que la perception et la compréhension du langage naturel, pensent les chercheurs.

Bien que la toute nouvelle approche de DeepMind nécessite toujours la formation de représentants découvrant le renforcement sur de multiples avantages techniques. , cela reste conforme à leur point de vue général d’atteindre l’IAG grâce à l’apprentissage par renforcement.

« Ce que DeepMind révèle avec cet article, c’est qu’un seul agent RL peut développer l’intelligence pour atteindre de nombreux objectifs, au lieu d’un seul, » Chris Nicholson, PDG de Pathmind, a déclaré à L’Entrepreneur. « Et les compétences qu’il découvre pour atteindre quelque chose peuvent se généraliser à d’autres objectifs. C’est vraiment similaire à la façon dont l’intelligence humaine est appliquée. Par exemple, nous découvrons comment saisir et manipuler des objets, et c’est le fondement de la réalisation d’objectifs allant de marteler un marteau pour faire votre lit. »

Nicholson pense également que d’autres aspects des conclusions de l’article suggèrent des progrès vers l’intelligence générale. « Les parents reconnaîtront que l’exploration ouverte est précisément la façon dont leurs tout-petits découvrent comment se déplacer dans le monde. Ils sortent quelque chose d’un placard et le remettent dedans. Ils créent leurs propres petits objectifs – qui peuvent sembler insignifiants pour les adultes – – et ils les maîtrisent », a-t-il déclaré. « DeepMind fixe par programmation des objectifs à ses agents dans ce monde, et ces représentants découvrent comment les maîtriser un par un. »

Le support découvrant les représentants a également révélé des signes d’établissement de l’intelligence incarnée dans leur propre virtuel monde, a dit Nicholson, comme la gentillesse des humains. « C’est un autre indicateur que l’environnement abondant et flexible que les individus découvrent pour se déplacer et manipuler contribue à l’introduction de l’intelligence de base, que les analogies biologiques et physiques de l’intelligence peuvent aider à opérer davantage dans l’IA », a-t-il déclaré.

Sathyanaraya Raghavachary, professeur associé d’informatique à l’Université de Californie du Sud, est un peu plus sceptique sur les affirmations faites dans l’article de DeepMind, en particulier les conclusions sur la proprioception, la conscience du temps et la compréhension de haut niveau des objectifs et environnements.

« Même nous, les gens, ne connaissons pas totalement notre corps, sans parler de ces représentants de la réalité virtuelle », a déclaré Raghavachary dans des remarques à L’Entrepreneur, y compris cette compréhension de le corps a besoin d’un cerveau intégré qui est co-conçu pour une conscience corporelle appropriée et une situation dans la zone. « Exactement la même chose avec le temps qui passe – cela aussi aurait besoin d’un cerveau qui a une mémoire du passé et un sens du temps par rapport à ce passé. Ce qu’ils (les auteurs de l’article) peuvent signifier est lié au suivi des changements progressifs par les agents dans l’environnement résultant de leurs actions (par exemple en raison du déplacement d’une pyramide violette), les modifications d’état que le simulateur physique sous-jacent générerait.

Raghavachary souligne également, si les représentants pouvaient comprendre le sommet- niveau structure de leurs tâches, ils n’auraient pas besoin de 200 milliards d’étapes d’entraînement simulé pour atteindre des résultats idéaux.

« L’architecture sous-jacente manque de ce qu’il faut pour accomplir ces trois choses (conscience du corps, passage du temps, compréhension structure de tâches de haut niveau) qu’ils soulignent en conclusion », a-t-il déclaré. « En général, XLand est simplement » plus ou moins la même « . »

L’espace entre la simulation et le monde réel

En résumé, l’article prouve que si vous pouvez développer un eno complexe ugh environnement, stylez la bonne architecture d’apprentissage par renforcement et exposez vos conceptions à une expérience adéquate (et disposez de beaucoup d’argent à investir dans le calcul des ressources), vous pourrez généraliser à de nombreux types d’emplois dans le même environnement. Et c’est généralement ainsi que l’avancement naturel a réellement fourni l’intelligence humaine et animale.

DeepMind a actuellement fait quelque chose de comparable avec AlphaZero, une conception d’apprentissage par renforcement qui permet de maîtriser plusieurs jeux au tour par tour à deux joueurs. L’expérience XLand a en fait étendu la même idée à un niveau beaucoup plus élevé en incluant le composant de connaissance du zéro.

Bien que je pense que l’expérience des représentants formés à XLand sera éventuellement transférable dans le monde réel des applications telles que la robotique et les véhicules autonomes, je ne pense pas que ce sera une percée. Vous devrez toujours faire des compromis (comme développer des limitations synthétiques pour minimiser la complexité du monde réel) ou développer des améliorations synthétiques (comme imprégner les conceptions d’intelligence artificielle de connaissances préalables ou d’unités de détection supplémentaires).

Les représentants de DeepMind pour l’apprentissage du support ont peut-être fini par être les maîtres du XLand virtuel. Mais leur monde simulé n’a même pas une fraction des subtilités du monde réel. Cet espace restera un défi pendant longtemps.

Toute l’actualité en temps réel, est sur L’Entrepreneur

Le nouveau système d’apprentissage par renforcement de DeepMind est-il une étape vers l’IA générale ?

La fragilité du deep support learning

L’environnement XLand

Une connaissance approfondie du support

Comportement de haut niveau

Théories de l’intelligence

L’espace entre la simulation et le monde réel

LAISSER UN COMMENTAIRE Annuler la réponse

Catégories populaires

Le choix de la rédaction