L'apprentissage par renforcement approfondi nous aide à maîtriser la complexité

Deep reinforcement learning helps us master complexity_60f973756507e.jpeg

L’apprentissage par renforcement profond – où les machines apprennent en testant les effets de leurs actions – est l’un des domaines les plus attrayants et les plus percutants du système expert. Il combine des réseaux de neurones profonds avec un apprentissage de soutien, qui, ensemble, peuvent être entraînés pour atteindre des objectifs sur de nombreuses actions. C’est un élément crucial des camions autonomes et de la robotique commerciale, qui doivent naviguer dans des environnements complexes en toute sécurité et à temps.

La plupart des algorithmes de découverte de machines sont compétents pour des tâches perceptives qui prendraient moins d’une seconde à une personne, comme la reconnaissance d’une voix ou d’un visage. Une connaissance approfondie du support peut apprendre des séquences d’actions tactiques, des choses comme gagner un jeu vidéo de société ou fournir un lot.

Ces séries tactiques sont plus proches de ce que nous considérons comme des habitudes vraiment intelligentes. Si nous déclarons que quelqu’un est sage, nous sous-entendons rarement qu’il peut reconnaître des visages. Nous entendons très souvent qu’ils comprennent ce qu’il faut faire pour atteindre leur objectif. Des start-up comme Covariant et Ambi Robotics utilisent l’apprentissage par renforcement pour gérer les bras robotiques, tandis que les constructeurs automobiles comme Tesla l’utilisent pour aider à diriger leurs camions.

Systèmes de direction dans la complexité

Aussi remarquable que cela soit, la connaissance du renforcement peut faire bien plus que contrôler les fabricants individuels. Il peut diriger des orchestres entiers d’appareils, orienter des systèmes complexes vers de bien meilleures performances, diriger des flottes et coordonner des groupes robotiques.

La théorie de la complexité explique les systèmes changeants avec de nombreuses pièces imbriquées qui produisent des résultats inattendus basés sur de petites modifications de leurs entrées (croyez le résultat papillon sur les ouragans). Parce que la théorie, il y a quelque chose qui s’appelle le comportement émergent. Les habitudes émergent lorsque de grandes quantités de petits composants d’un système s’organisent en quelque chose de plus grand, un modèle perceptible à plus grande échelle. Les ouragans, les nids de fourmis et les volées d’oiseaux sont tous de bons exemples de petits systèmes s’auto-organisant en quelque chose de plus puissant.

Avec une connaissance approfondie du renforcement, les robots et les voitures autonomes montrent des habitudes émergentes au sein de systèmes complexes plus vastes, tels que le trafic ou les chaînes d’approvisionnement internationales. C’est-à-dire que ces appareils commencent à se comporter comme des groupes, même s’ils n’ont jamais été clairement conseillés de le faire. Grâce à la formation, ils apprennent que le travail d’équipe donne de bien meilleurs résultats. Dans une usine, cela peut signifier qu’un robot AGV sacrifie sa propre vitesse afin de laisser passer une charge utile de priorité plus élevée, augmentant ainsi le débit global du système.

Pendant une longue période, la théorie de la complexité était quelque chose de fascinant à penser, mais difficile à mettre en œuvre. La connaissance approfondie du renforcement rend la théorie de la complexité exploitable car elle nous permet de créer et de guider un comportement émergent. Cela nous permet de faire face à des systèmes trop vastes pour que l’esprit humain puisse les comprendre totalement. L’apprentissage par renforcement en profondeur est à la complexité ce que le génie génétique est à l’avancement : tirez parti de la vitesse.

L’humanité semble avoir besoin d’un peu d’avantage et de vitesse. La précipitation des événements donne l’impression que les systèmes complexes dans lesquels nous vivons deviennent incontrôlables. La découverte du renforcement profond en ramène quelques-uns à notre portée.

Gérer les chocs externes et les informations variables

De nombreux systèmes décisionnels ont des difficultés avec les changements imprévus des données. Ils sont entraînés à faire des choix dans certains contextes, et ils se cassent quand quelque chose d’inattendu se produit. Ils sont cassants. L’apprentissage en profondeur peut réagir à des informations variables et à des événements imprévus selon une méthode généralisable. L’une des raisons à cela est que, dans la simulation, vous pouvez l’entraîner contre des événements qui ne se sont jamais produits auparavant et qui ne sont pas présents dans les informations historiques. La simulation a en fait contribué à aider la production à faire passer la robotique autonome et les camions du dépistage à des situations réelles.

La connaissance du renforcement s’adapte à ce qui se passe actuellement et peut rapidement mettre à jour ses attentes et sa compréhension de l’environnement dans lequel elle évolue. Cela indique que l’optimisation et la prise de décision axées sur l’IA peuvent être utilisées pour de nombreux nouveaux problèmes qui étaient auparavant insolubles. Cela signifie que nous aurons la capacité de rendre nos machines plus intelligentes, alors qu’auparavant nous dépendions de directives délicates et de notre instinct.

Maîtriser la complexité des chaînes d’approvisionnement

Soutenir la capacité du savoir à répondre à des occasions imprévues en ont fait un nombre croissant d’intrigants en tant qu’option aux problèmes de la chaîne d’approvisionnement moderne. Au cours de la dernière année, les chocs externes sur les chaînes d’approvisionnement mondiales et nationales ont consisté en fait en COVID-19, des blocages économiques, des impasses géopolitiques, des événements météorologiques violents (les tempêtes au Texas) et un navire de 200 000 tonnes obstruant le canal de Suez. En fait, le monde ne s’est pas encore remis.

Les chaînes d’approvisionnement – en commençant par les usines en amont, en passant par les ports, les gares de triage et les installations de stockage, et se terminant par la vente au détail – sont des systèmes vastes et complexes. Ces systèmes doivent être adaptatifs, et pourtant les nouvelles nous montrent qu’ils ne le sont pas.

Un cas d’utilisation où la connaissance du renforcement profond peut aider reste dans l’apport énergétique, où il peut être utilisé pour lutter contre la modification du climat en nous aidant à produire des ressources plus propres et renouvelables, à utiliser cette énergie plus efficacement dans les chaînes d’approvisionnement et à consommer cette énergie plus intelligemment.

Les réseaux énergétiques ne sont que des chaînes d’approvisionnement en électricité. Les sources d’énergie renouvelables sont sujettes à une variabilité plus élevée que les sources standard, en raison du fait que leur production dépend des conditions météorologiques.

L’apprentissage par renforcement approfondi peut injecter une meilleure prise de décision dans les drones et les robots et les équipes de travail de réparation qui s’occupent des fermes solaires. Il peut aider à préparer la filature, les réserves supplémentaires et l’approvisionnement de secours dans les centrales électriques, ainsi qu’à équilibrer la production de sources de carburant non renouvelables avec des sources de ressources renouvelables plus variables. Il peut calibrer la façon dont les énergies renouvelables sont créées, stockées et consommées dans la maison dans les systèmes distribués, réduisant ainsi la charge sur le réseau. Et cela peut aider les usines énergivores à anticiper et à agir de manière préventive sur les hausses des tarifs d’électricité.

Des types de contrôle de systèmes comparables peuvent être appliqués à l’agriculture, où les robots nourrissent le bétail et ramassent les récoltes et compensent les pénuries de main-d’œuvre, ainsi que vers les sites miniers, où les camions de transport autonomes sont beaucoup plus avancés que dans le monde automobile car ils opèrent hors route. Les camions de transport et les systèmes de forage entièrement autonomes développent de nouvelles performances en diminuant les dépenses de carburant et de main-d’œuvre, tout en sécurisant les opérations.

En résumé, la connaissance approfondie du renforcement n’est pas simplement le cœur intelligent des robots intelligents, elle est capable de servir de tour de contrôle pour des systèmes beaucoup plus vastes, ce qui est l’un des problèmes vitaux auxquels la société est confrontée aujourd’hui. En découvrant les habitudes émergentes des équipes de décideurs à grande échelle, l’apprentissage du support approfondi peut nous aider à nous adapter à des changements systémiques plus importants pour que nos systèmes continuent de fonctionner. Cela est nécessaire, car les systèmes dont nous disposons actuellement pour fabriquer et expédier des produits sont gros, imbriqués et fragiles, et les rendre plus robustes est un obstacle majeur pour les années à venir.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

Article précédent

L’exposition potentielle de données biométriques à un incident de ransomware incite le cabinet d’avocats à être notifié

Article suivant

Les législateurs belges ont un an pour adapter leurs règles biométriques au RGPD

L’apprentissage par renforcement approfondi nous aide à maîtriser la complexité

Systèmes de direction dans la complexité

Gérer les chocs externes et les informations variables

Maîtriser la complexité des chaînes d’approvisionnement

LAISSER UN COMMENTAIRE Annuler la réponse

Catégories populaires

Le choix de la rédaction