Scientifiques DeepMind : L'apprentissage par renforcement est suffisant pour l'IA générale

Dans leur quête de plusieurs décennies pour produire de l’intelligence artificielle, les informaticiens ont développé et développé toutes sortes de systèmes et d’innovations complexes pour reproduire la vision, le langage, la pensée, la motricité et d’autres capacités liées à la vie intelligente. Bien que ces efforts aient abouti à des systèmes d’IA capables de résoudre efficacement des problèmes particuliers dans des environnements limités, ils ne parviennent pas à développer le type d’intelligence générale observé chez les personnes et les animaux.

Dans un tout nouvel article envoyé au revue par des pairs Artificial Intelligence , les scientifiques du laboratoire britannique d’IA DeepMind affirment que l’intelligence et ses capacités associées n’apparaîtront pas en développant et en résolvant des problèmes complexes, mais en s’en tenant à un concept de base mais efficace : la maximisation des récompenses .

Intitulé « La récompense suffit », l’article, qui est toujours en pré-preuve depuis cette rédaction, s’inspire de l’étude des progrès de l’intelligence naturelle et des enseignements tirés des récentes réalisations en matière d’intelligence artificielle. Les auteurs suggèrent que la maximisation des récompenses et l’expérience d’essais et d’erreurs suffisent pour développer des habitudes qui montrent le type de capacités liées à l’intelligence. Et à partir de là, ils concluent que la connaissance du support, une branche de l’IA basée sur la maximisation des récompenses, peut provoquer le développement d’une intelligence synthétique de base.

Deux cours pour l’IA
Développer des capacités grâce à la maximisation des récompenses
Renforcement sachant pour la maximisation des récompenses
Forces et points faibles de la maximisation des récompenses

Deux voies pour l’IA

Une méthode courante pour créer de l’IA consiste à tenter de reproduire des aspects d’habitudes intelligentes dans les systèmes informatiques. Notre compréhension du système de vision des mammifères a en fait donné naissance à toutes sortes de systèmes d’IA capables de classer des images, de trouver des choses dans des images, de spécifier les frontières entre les choses, etc. De même, notre compréhension du langage a en fait aidé au développement de divers systèmes de traitement du langage naturel, tels que la réponse aux préoccupations, la génération de texte et la traduction d’appareils.

Ce sont toutes des circonstances d’intelligence artificielle étroite, des systèmes qui ont ont été développés pour effectuer des tâches spécifiques plutôt que d’avoir des capacités analytiques générales. Certains scientifiques pensent que l’assemblage de nombreux modules d’IA étroits produira des systèmes intelligents supérieurs. Vous pouvez disposer d’un système logiciel qui coordonne différents modules de vision par ordinateur, de traitement de la voix, de PNL et de contrôle moteur pour résoudre des problèmes complexes nécessitant un large éventail de capacités.

Une méthode différente pour développer l’IA, proposée par les scientifiques de DeepMind, est de recréer la ligne directrice de base mais efficace qui a donné naissance à l’intelligence naturelle. » [Nous] considérons une hypothèse alternative : que l’objectif générique de maximiser les avantages est suffisant pour conduire le comportement qui présente la plupart sinon toutes les capacités qui sont étudiés en intelligence naturelle et artificielle », composent les scientifiques.

C’est essentiellement ainsi que fonctionne la nature. En ce qui concerne la science, il n’y a pas eu de conception intelligente descendante dans les organismes complexes que nous voyons autour de nous. Des milliards d’années de sélection naturelle et de variation aléatoire ont en fait filtré les formes de vie pour que leur forme physique puisse s’en sortir et se recréer. Des êtres vivants mieux équipés pour gérer les difficultés et les situations de leur environnement ont réussi à survivre et à se reproduire. Le reste a été éliminé.

Ce système simple mais efficace a en fait provoqué le développement d’êtres vivants dotés de toutes sortes de capacités et de capacités pour visualiser, parcourir, personnaliser leurs environnements et communiquer entre eux.

« Le monde naturel traité par les animaux et les humains, et vraisemblablement de même les environnements traités à l’avenir par les agents artificiels, sont intrinsèquement si complexes qu’ils ont besoin de capacités avancées pour réussir (par exemple, faire à travers) dans ces environnements », composent les scientifiques. « Ainsi, le succès, tel que déterminé par l’augmentation des avantages, nécessite une variété de capacités liées à l’intelligence. Dans de tels environnements, tout comportement qui augmente la récompense devrait toujours présenter ces capacités. En ce sens, l’objectif générique de la maximisation des avantages consiste en de nombreux ou potentiellement tous les objectifs de l’intelligence. »

Pensez à un écureuil qui cherche la récompense de la réduction de l’appétit. D’une part, ses habiletés sensorielles et motrices l’aident à localiser et à ramasser les noix lorsque la nourriture est disponible. Un écureuil qui peut juste trouver de la nourriture est voué à mourir de fringales lorsque la nourriture finit par se faire rare. C’est pourquoi il possède également des compétences de planification et de mémoire pour mettre en cache les noix et les restaurer en hiver. Et l’écureuil a des compétences sociales et une compréhension pour s’assurer que les autres animaux ne volent pas ses noix. Si vous effectuez un zoom arrière, la réduction de la faim peut être un sous-objectif de « rester en vie », ce qui nécessite également des capacités telles que trouver et se cacher des animaux dangereux, se protéger des risques environnementaux et rechercher de meilleurs habitats avec les changements saisonniers.

« Lorsque les capacités liées à l’intelligence se développent en tant qu’options vers un objectif singulier de maximisation des avantages, cela pourrait en réalité offrir une compréhension plus approfondie car elle décrit pourquoi une telle capacité émerge», écrivent les chercheurs. « D’un autre côté, lorsque chaque capacité est comprise comme la solution à son propre objectif spécialisé, la question du pourquoi est évitée afin de se concentrer sur ce que cette capacité fait. »

Les chercheurs soutiennent que le moyen « le plus général et le plus évolutif » de tirer pleinement parti des avantages consiste à utiliser des agents qui apprennent en interaction avec l’environnement.

Développer des capacités grâce à la maximisation des avantages

Dans l’article, les scientifiques de l’IA fournissent des exemples de haut niveau de la façon dont « l’intelligence et les capacités associées se développeront implicitement au service de la maximisation de l’un des nombreux signaux de récompense possibles, correspondant aux nombreux objectifs pratiques vers quel système naturel ou expert peut être dirigé. »

Par exemple, les compétences sensorielles répondent à l’exigence de survivre dans des environnements compliqués. La reconnaissance d’objets permet aux animaux de repérer la nourriture, les proies, les copains et les risques, ou de découvrir des parcours, des abris et des perchoirs. La segmentation des images leur permet de faire la différence entre diverses choses et d’éviter des erreurs fatales telles que la chute d’une falaise ou la chute d’une branche. Pendant ce temps, l’audition aide à repérer les dangers où l’animal ne peut pas voir ou trouver des proies lorsqu’elles sont camouflées. Le toucher, le goût et l’odeur offrent également à l’animal l’avantage d’avoir une expérience sensorielle plus riche de l’habitat et de meilleures chances de survie dans des environnements dangereux.

Les récompenses et les environnements forment également une compréhension innée et découverte chez les animaux. Par exemple, les habitats hostiles dirigés par des animaux prédateurs tels que les lions et les guépards récompensent les espèces de ruminants qui ont la compréhension naturelle de fuir les dangers depuis la naissance. Les animaux sont également récompensés pour leur pouvoir de découvrir une compréhension spécifique de leurs habitats, comme où trouver de la nourriture et un abri.

Les chercheurs parlent également de la base du langage, de l’intelligence sociale, de l’imitation et de la récompense. enfin, l’intelligence générale, qu’ils décrivent comme « maximiser un avantage singulier dans un environnement unique et complexe ».

Ici, ils établissent une analogie entre l’intelligence naturelle et l’IAG : « Le flux d’expérience d’un animal est adéquatement riche et différent qu’il pourrait nécessiter une capacité flexible pour accomplir une grande variété de sous-objectifs (comme la recherche de nourriture, la lutte ou la fuite), afin de réussir à augmenter son avantage général (comme l’appétit ou la reproduction). le flux d’expérience du représentant est suffisamment riche, alors de nombreux objectifs (tels que la durée de vie de la batterie ou la survie) pourraient implicitement avoir besoin de la capacité d’atteindre un large éventail de sous-objectifs, et la maximisation des avantages doit pour ce domaine être suffisant pour produire une intelligence artificielle générale. »

Soutenir la connaissance pour la maximisation des avantages

L’apprentissage du support est une branche unique des algorithmes d’IA qui se compose de trois éléments clés : un environnement, des agents et des récompenses.

En effectuant des actions, l’agent modifie son propre état de l’environnement. En fonction de l’impact de ces actions sur l’objectif que l’agent doit atteindre, il est récompensé ou puni. Dans de nombreux problèmes de support, l’agent n’a aucune connaissance préalable de l’environnement et commence par effectuer des actions aléatoires. Sur la base des commentaires qu’il reçoit, l’agent découvre pour ajuster ses actions et développer des politiques qui maximisent ses avantages.

Dans leur article, les chercheurs de DeepMind suggèrent de soutenir la connaissance comme le principal algorithme qui peut reproduire la maximisation des avantages comme vu dans la nature et peut éventuellement conduire à une intelligence artificielle générale.

« Si un représentant peut continuellement ajuster son comportement afin d’améliorer sa récompense cumulative, alors toutes les capacités qui sont requises à plusieurs reprises par son environnement doivent éventuellement être produites dans le comportement du représentant », écrivent les chercheurs, y compris qu’au cours de l’optimisation de sa récompense, un excellent représentant de l’apprentissage par renforcement pourrait finalement découvrir la compréhension, le langage, l’intelligence sociale, etc.

Dans le article, les chercheurs fournissent de nombreux exemples qui démontrent comment les agents de découverte du support ont eu la capacité de découvrir des compétences de base dans les jeux vidéo et les environnements robotiques.

Les scientifiques soulignent que certains défis fondamentaux restent sans solution. Ils déclarent : « Nous n’utilisons aucune garantie théorique sur la performance des échantillons des agents de recherche d’assistance. » L’apprentissage du support est notoirement populaire pour avoir besoin d’énormes quantités de données. Par exemple, un représentant de l’assistance peut nécessiter des siècles de jeu pour maîtriser un jeu vidéo. Et les chercheurs en IA n’ont toujours pas compris comment créer des systèmes d’apprentissage de soutien qui peuvent généraliser leurs apprentissages dans un certain nombre de domaines. Par conséquent, de petites modifications de l’environnement nécessitent fréquemment le recyclage complet du modèle.

Les chercheurs reconnaissent également que les mécanismes d’apprentissage pour la maximisation de la récompense sont un problème non résolu qui reste une question centrale à étudier davantage dans l’apprentissage par renforcement.

Forces et points faibles de la maximisation des bénéfices

Patricia Churchland, neuroscientifique, philosophe et enseignante émérite à l’Université de Californie à San Diego, a expliqué les concepts dans le journal comme « exerçant de manière extrêmement approfondie et perspicace. »

Churchland a souligné d’éventuelles failles dans la conversation du journal sur la prise de décision sociale. Les chercheurs de DeepMind se concentrent sur les gains individuels dans les interactions sociales. Churchland, qui a récemment écrit un livre sur les origines biologiques des intuitions morales, soutient que la complicité et le lien sont un facteur important de prise de décision sociale des mammifères et des oiseaux, c’est pourquoi les animaux se mettent en grand danger pour protéger leurs enfants.

« J’ai eu tendance à voir le lien, et donc l’attention aux autres, comme une extension de la portée de ce qui compte comme soi–‘moi-et-mien' », Churchland déclaré. « Dans ce cas, une petite modification de l’hypothèse [du papier] pour permettre la maximisation de la récompense pour moi et pour moi fonctionnerait parfaitement, je crois. De toute évidence, nous, les animaux sociaux, avons des degrés d’attachement– super fort pour la progéniture, extrêmement fort pour les partenaires et les parents, fort pour les amis et les connaissances et ainsi de suite, et la force des types d’accessoires peut varier en fonction de l’environnement, et également de la phase de développement. »

C’est pas une critique significative, a déclaré Churchland, et pourrait probablement être infiltré dans l’hypothèse plutôt avec dignité.

« Je suis vraiment étonné par le degré de détail dans le document, et avec quel soin ils considèrent les points faibles possibles, » Churchland a déclaré. « Je me trompe peut-être, mais j’ai tendance à considérer cela comme un jalon. »

Le scientifique de l’information Herbert Roitblat a contesté la position de l’article selon laquelle des systèmes d’apprentissage faciles et une expérience expérimentale suffisent pour développer les capacités liées à l’intelligence. Roitblat a fait valoir que les théories présentées dans l’article sont confrontées à un certain nombre d’obstacles lorsqu’il s’agit de les mettre en œuvre dans la vie réelle.

« S’il n’y a aucune restriction de temps, alors l’apprentissage par l’expérimentation pourrait suffire, mais sinon nous avons le problème d’un nombre illimité de singes qui tapent pendant un temps illimité », a déclaré Roitblat. Le théorème du singe illimité déclare qu’un singe frappant au hasard des touches sur une machine à écrire pendant un temps infini peut éventuellement taper n’importe quel texte proposé.

Roitblat est l’auteur de Les algorithmes ne suffisent pas , dans lequel il explique pourquoi tous les algorithmes d’IA actuels, y compris l’apprentissage de support, ont besoin d’une formulation soignée de la problématique et des représentations produites par les humains.

« Dès que le modèle et sa représentation intrinsèque sont mis en place, l’optimisation ou le renforcement pourrait diriger son évolution, mais cela n’indique pas que le renforcement est suffisant », a déclaré Roitblat.

Dans le même ordre d’idées, Roitblat a indiqué que le document ne fait aucune suggestion sur la façon dont la récompense, les actions, et d’autres aspects de la connaissance du support sont spécifiés.

« L’apprentissage par renforcement suppose que le représentant a un ensemble fini d’actions prospectives. Un signal d’avantage et une fonction de valeur ont été spécifiés. Pour le dire simplement, le problème de base l’intelligence est exactement de contribuer te ces choses dont l’apprentissage par renforcement a besoin comme pré-requis », a déclaré Roitblat. « Donc, si l’intelligence artificielle peut être réduite à une sorte d’optimisation pour tirer pleinement parti d’une mesure évaluative, alors il devrait être vrai que le soutien à l’apprentissage est important, mais ce n’est pas vraiment explicatif. »

Toute l’actualité en temps réel, est sur L’Entrepreneur

Scientifiques DeepMind : L’apprentissage par renforcement est suffisant pour l’IA générale

Deux voies pour l’IA

Développer des capacités grâce à la maximisation des avantages

Soutenir la connaissance pour la maximisation des avantages

Forces et points faibles de la maximisation des bénéfices

LAISSER UN COMMENTAIRE Annuler la réponse

Catégories populaires

Le choix de la rédaction