Évolution, récompenses et intelligence artificielle

La semaine dernière, j’ai rédigé une analyse de « Reward Suffices », un article rédigé par des chercheurs de DeepMind. Comme le titre le recommande, les chercheurs supposent que la bonne récompense est tout ce dont vous avez besoin pour développer les capacités liées à l’intelligence, telles que la compréhension, les fonctions motrices et le langage.

Cela reste en contraste avec les systèmes d’IA qui tentent pour reproduire des fonctions spécifiques de l’intelligence naturelle telles que la classification d’images, la navigation dans des environnements physiques ou la complétion de phrases.

Les chercheurs vont jusqu’à recommander cela avec un avantage bien défini, un environnement compliqué et la recherche de support idéale notre algorithme, nous pourrons atteindre l’intelligence artificielle générale, le type de capacités de résolution de problèmes et cognitives découvertes chez les êtres humains et, à un degré moindre, chez les animaux.

Le poste et le papier ont activé un discussion animée sur les réseaux sociaux, avec des réactions allant du soutien total à l’idée au rejet pur et simple. De toute évidence, les deux parties font des réclamations légitimes. Mais la vérité se situe quelque part au milieu. L’évolution naturelle est la preuve que l’hypothèse du bénéfice est cliniquement légitime. Appliquer la méthode du bénéfice pur pour atteindre l’intelligence au niveau humain a des exigences très importantes.

Dans cet article, je vais essayer de lever l’ambiguïté en termes simples où se situe la frontière entre la théorie et la pratique.

Sélection naturelle

Dans leur article, les scientifiques de DeepMind émettent l’hypothèse suivante : « L’intelligence, et ses capacités associées, peuvent être compris comme servant à la maximisation de la récompense par un représentant agissant dans son environnement. »

La preuve scientifique soutient cette affirmation.

Les êtres humains et les animaux doivent leur intelligence à une loi extrêmement fondamentale : la nature sélection. Je ne suis pas un professionnel sur le sujet, mais je suggère de consulter The Blind Watchmaker du biologiste Richard Dawkins, qui fournit un compte rendu très disponible de la façon dont le développement a réellement abouti à toutes les formes de vie et d’intelligence sur sur la planète.

En un mot, la nature offre la préférence aux formes de vie qui sont mieux adaptées pour survivre dans leur environnement. Ceux qui peuvent résister aux obstacles posés par l’environnement (conditions météorologiques, carence alimentaire, etc.) et d’autres formes de vie (prédateurs, infections, etc.) s’en sortiront, se recréent et transmettent leurs gènes à la génération suivante. . Ceux qui ne sont pas enlevés.

Selon Dawkins, « Dans la nature, l’agent de cueillette normal est direct, austère et facile. C’est la faucheuse. Naturellement, les facteurs pour la survie sont quelque chose d’aussi simple – c’est pourquoi la sélection naturelle peut créer des animaux et des plantes d’une complexité si redoutable. Il y a quelque chose de très grossier et simple à propos de la mort elle-même. dont ils sont constitués, dans la nature. »

Comment les différentes formes de vie émergent-elles ? Chaque organisme nouveau-né acquiert les gènes de ses parents. Contrairement au monde numérique, la copie dans la vie organique n’est pas une chose exacte. La progéniture subit fréquemment des mutations, de petits changements dans leurs gènes qui peuvent avoir un impact substantiel à travers les générations. Ces anomalies peuvent avoir un impact basique, comme une petite modification de la texture musculaire ou de la couleur de la peau. Ils peuvent également devenir le noyau pour l’établissement de nouveaux organes (par exemple, les poumons, les reins, les yeux) ou la perte d’anciens (par exemple, la queue, les branchies).

Si ces mutations contribuent à améliorer les possibilités de survie de l’organisme (par exemple, un meilleur camouflage ou une vitesse plus rapide), ils seront préservés et transmis aux générations futures, où davantage de mutations pourraient les améliorer. Par exemple, le premier organisme qui a établi la capacité d’analyser les détails de la lumière avait un énorme avantage sur tous les autres qui ne l’avaient pas fait, même si sa capacité à voir n’était pas similaire à celle des animaux et des humains d’aujourd’hui. Cet avantage lui a permis de bien mieux survivre et se recréer. Au fur et à mesure que ses descendants se recréaient, ceux dont les mutations ont amélioré leur vue surpassaient et survivaient à leurs pairs. À travers des milliers (ou des millions) de générations, ces changements ont abouti à un organe complexe tel que l’œil.

Les mécanismes de base de l’anomalie et de la sélection naturelle ont en fait suffi à générer toutes les différentes formes de vie que nous voyons sur Terre. , des germes aux plantes, poissons, oiseaux, amphibiens et mammifères.

Le même mécanisme d’auto-renforcement a également produit le cerveau et ses merveilles associées. Dans son livre Conscience: The Origin of Moral Instinct, la scientifique Patricia Churchland explore comment la sélection naturelle a conduit au développement du cortex, la principale partie du cerveau qui donne aux mammifères la capacité de profiter de leur environnement. L’évolution du cortex a en effet permis aux mammifères d’établir des comportements sociaux et de découvrir comment vivre en troupeaux, en troupes, en troupes et en humains. Chez les êtres humains, l’avancement du cortex a généré des professeurs cognitifs compliqués, la capacité d’établir des langues abondantes et la capacité de développer des normes sociales.

Par conséquent, si vous considérez la survie comme la récompense ultime, la principale L’hypothèse formulée par les chercheurs de DeepMind est cliniquement valable. Cependant, lorsqu’il s’agit de mettre en œuvre cette directive, les choses deviennent très compliquées.

Apprentissage par renforcement et intelligence artificielle générale

Dans leur article, les scientifiques de DeepMind font le prétendent que l’hypothèse du bénéfice peut être exécutée avec des algorithmes de connaissance à l’appui, une branche de l’IA dans laquelle un représentant développe lentement ses habitudes en interagissant avec son environnement. Un représentant de l’apprentissage par renforcement commence par effectuer des actions aléatoires. En fonction de la façon dont ces actions s’alignent sur les objectifs qu’il essaie d’atteindre, l’agent reçoit des avantages. Au cours de nombreux épisodes, l’agent découvre qu’il développe une série d’actions qui optimisent sa récompense dans son environnement.

Selon les scientifiques de DeepMind, « Un représentant d’apprentissage de soutien suffisamment efficace et basique peut finalement générer de l’intelligence et ses En d’autres termes, si un agent peut continuellement modifier son comportement afin d’améliorer sa récompense cumulative, alors toutes les capacités qui sont demandées à plusieurs reprises par son environnement doivent éventuellement être produites dans le comportement de l’agent. »

Dans un argument en ligne en décembre, le chercheur en systèmes informatiques Richard Sutton, l’un des co-auteurs de l’article, a déclaré : « La connaissance par renforcement est la toute première théorie computationnelle de l’intelligence… À l’appui de la connaissance, l’objectif est d’optimiser un signal de récompense arbitraire. . »

DeepMind a beaucoup d’expérience pour prouver cette affirmation. Ils ont déjà développé des représentants de l’apprentissage par renforcement qui peuvent surpasser les joueurs de Go, d’échecs, d’Atari, de StarCraft et d’autres jeux. Ils ont également développé un support pour trouver des modèles pour progresser dans quelques-uns des problèmes scientifiques les plus complexes.

Les chercheurs ont également écrit dans leur article : « Selon notre hypothèse, l’intelligence générale peut plutôt être comprise comme , et exécuté en augmentant un avantage particulier dans un environnement unique et compliqué [focus mine] »

C’est là que l’hypothèse se sépare de la pratique. Le mot-clé ici est « complexe ». Les environnements que DeepMind (et son quasi-rival OpenAI) ont jusqu’à présent vérifiés avec l’apprentissage du support ne sont pas aussi complexes que le monde réel. Et ils avaient encore besoin du soutien financier et des vastes ressources informatiques d’une entreprise technologique extrêmement riche. Dans de nombreux cas, ils devaient encore simplifier les environnements pour accélérer la formation de leurs modèles d’apprentissage de support et réduire les coûts. Dans d’autres, ils ont dû réorganiser la récompense pour s’assurer que les représentants de RL ne se sont pas retrouvés coincés dans le mauvais optimum régional.

(Il convient de noter que les scientifiques reconnaissent dans leur article qu’ils ne peuvent pas utiliser « garantie théorique sur les performances de l’échantillon d’agents d’apprentissage par renforcement. »)

Maintenant, imaginez ce qu’il faudrait pour utiliser l’apprentissage de soutien pour reproduire l’avancement et atteindre l’intelligence au niveau humain. Vous auriez d’abord besoin d’une simulation du monde. A quel niveau imiteriez-vous le monde ? Je suppose que tout sauf l’échelle quantique serait inexact. Et nous n’avons pas une fraction de la puissance de calcul nécessaire pour développer des simulations à l’échelle quantique du monde.

Déclarons que nous avions la puissance de calcul pour produire une telle simulation. Nous pourrions commencer il y a environ 4 milliards d’années, lorsque les toutes premières formes de vie ont émergé. Vous auriez besoin d’une représentation exacte de l’état de la Terre à l’époque. Nous aurions besoin de connaître l’état préliminaire de l’environnement à l’époque. Et nous n’avons toujours pas de théorie garantie à ce sujet.

Une alternative serait de créer un raccourci et de commencer, disons, 8 millions d’années plus tôt, lorsque nos ancêtres singes vivaient encore sur terre. Cela réduirait le temps de formation, mais nous aurions un état initial beaucoup plus complexe pour commencer. À cette époque, il y avait d’innombrables formes de vie différentes dans le monde, et elles étaient soigneusement interdépendantes. Ils ont progressé ensemble. Retirer l’un d’eux de l’équation pourrait avoir une énorme influence sur le déroulement de la simulation.

Par conséquent, vous avez essentiellement 2 problèmes cruciaux : calculer la puissance et l’état initial. Plus vous revenez dans le temps, plus vous aurez besoin de puissance de calcul pour exécuter la simulation. En revanche, plus vous progressez, plus votre état initial sera complexe. Et l’évolution a en fait développé toutes sortes de formes de vie intelligentes et non intelligentes et s’assurer que nous pourrions reproduire les étapes précises qui ont abouti à l’intelligence humaine sans aucune assistance et juste par la récompense est un pari difficile.

Beaucoup diront que vous n’avez pas besoin d’une simulation précise du monde et que vous avez juste besoin d’approcher la zone problématique dans laquelle votre représentant de la découverte du support souhaite opérer.

Par exemple, dans leur article, les scientifiques citent l’exemple d’un robot ménager : « Pour qu’un robot de cuisine améliore l’ordre, il doit très probablement avoir des capacités de compréhension (pour séparer les ustensiles propres et sales), des connaissances (pour comprendre ustensiles), le contrôle moteur (pour contrôler les ustensiles), la mémoire (pour se souvenir des zones d’ustensiles), le langage (pour prédire les dégâts futurs à partir du dialogue) et l’intelligence sociale (pour motiver les jeunes enfants à gagner moins de dégâts). Un comportement qui maximise la propreté doit donc céder toutes ces capacités au service de cet objectif singulier. »

Cette déclaration est vraie, mais minimise les subtilités de l’environnement. Les zones de cuisson ont été développées par des personnes. Par exemple, la forme des tiroirs, des poignées de porte, des sols, des armoires, des murs, des tables et tout ce que vous voyez dans une cuisine a été amélioré pour les fonctions sensorimotrices des personnes. Par conséquent, un robot qui souhaiterait opérer dans un tel environnement devrait développer des habiletés sensorimotrices qui ressemblent à celles des êtres humains. Vous pouvez créer des raccourcis, tels que la prévention des complexités de la marche bipède ou des mains avec les doigts et les articulations. Mais alors, il y aurait des incohérences entre le robotique et les humains qui utiliseront les zones de cuisine. De nombreuses situations qui seraient faciles à gérer pour un humain (se promener sur une chaise renversée) deviendraient coûteuses pour le robot.

De même, d’autres compétences, comme le langage, nécessiteraient une infrastructure beaucoup plus comparable entre les deux le robot et les personnes qui partageraient l’environnement. Les agents intelligents devraient être capables d’établir des modèles mentaux abstraits les uns des autres pour coopérer ou rivaliser dans un environnement partagé. Le langage laisse de côté de nombreuses informations importantes, telles que l’expérience sensorielle, les objectifs, les besoins. Nous complétons les lacunes avec notre connaissance conviviale et consciente de l’état mental de notre interlocuteur. Nous pouvons faire des suppositions incorrectes, mais ce sont des exceptions, pas la norme.

Établir un concept de « propreté » comme un avantage est extrêmement complexe du fait qu’il est très solidement lié à la connaissance humaine, la vie et les objectifs. Par exemple, retirer chaque morceau de nourriture de la cuisine la rendrait certainement plus propre, mais les humains utilisant la zone de cuisson en profiteraient-ils ?

Un robot qui a été optimisé pour la « propreté » aurait un difficile de coexister et de se conformer à des êtres vivants qui ont été améliorés pour la survie.

Ici, vous pouvez à nouveau prendre des raccourcis en produisant des objectifs hiérarchiques, en équipant le robot et ses modèles d’apprentissage par renforcement avec anticipation, et en utilisant l’humain rétroaction pour le guider dans les meilleures instructions. Cela aiderait beaucoup à faciliter la compréhension et l’interaction de la robotique avec les êtres humains et les environnements conçus par l’homme. Cependant, vous tricheriez alors sur la technique de la récompense uniquement. Et la simple réalité que votre représentant robotique commence avec des membres préconçus et des gadgets de capture d’images et d’émission de sons est en soi la combinaison de l’anticipation.

En théorie, la récompense est juste suffisante pour tout type d’intelligence. Dans la pratique, il existe un compromis entre la complexité de l’environnement, le style des avantages et la conception représentative.

À l’avenir, nous pourrons peut-être atteindre un niveau de puissance de calcul qui permettra d’atteindre l’intelligence générale grâce à des bénéficier et soutenir l’apprentissage. Pour le moment, ce qui fonctionne, ce sont les techniques hybrides qui incluent une ingénierie complexe et complexe des récompenses et des architectures d’agents d’IA.

Toute l’actualité en temps réel, est sur L’Entrepreneur

Évolution, récompenses et intelligence artificielle

Sélection naturelle

Apprentissage par renforcement et intelligence artificielle générale

LAISSER UN COMMENTAIRE Annuler la réponse

Catégories populaires

Le choix de la rédaction