mercredi, 24 avril 2024

DeepMind découvre que les grands modèles de langage d’IA peuvent optimiser leurs propres invites

Lorsque les gens programment de nouveaux modèles d’IA à connaissance approfondie — ceux qui peuvent se concentrer eux-mêmes sur les bonnes caractéristiques de l’information — la majeure partie dépend d’algorithmes d’optimisation, ou d’optimiseurs, pour garantir que les conceptions ont un taux suffisamment élevé. de précision. Cependant, parmi les optimiseurs les plus couramment utilisés – les optimiseurs basés sur les dérivés – rencontrent des difficultés pour gérer les applications du monde réel.

Dans un tout nouvel article, les scientifiques de DeepMind proposent une nouvelle méthode : l’optimisation par PROmpting ( OPRO), une technique qui utilise l’IA Big Language Designs (LLM) comme optimiseurs. L’élément distinctif de cette méthode est que la tâche d’optimisation est définie en langage naturel plutôt qu’à travers des significations mathématiques formelles.

Les scientifiques écrivent : « Plutôt  » 

La stratégie est très polyvalente. En modifiant simplement la description du problème ou en incluant des instructions spécifiques, le LLM peut être guidé pour résoudre un large éventail de problèmes.

Les chercheurs ont découvert que, sur des problèmes d’optimisation à petite échelle, les LLM peuvent créer des services fiables grâce aux seules invites, souvent égalant et même dépassant l’efficacité des algorithmes heuristiques conçus par des experts. Cependant, la véritable capacité d’OPRO réside dans sa capacité à optimiser les invites LLM pour obtenir une précision maximale des conceptions.

Comment fonctionne l’optimisation par PROmpting

La procédure d’OPRO commence par un  » méta-invite » comme entrée. Cette méta-invite consiste en une description en langage naturel du travail à accomplir, en plus de quelques exemples de problèmes, d’espaces réservés pour des instructions opportunes et de solutions correspondantes.

Au fur et à mesure que le processus d’optimisation se déroule, le Big Language Design (LLM) produit des solutions pour les prospects. Celles-ci sont basées sur la description du problème et les solutions précédentes incluses dans la méta-invite.

OPRO évalue ensuite ces options candidates, en attribuant à chacune une note de qualité. Les services optimaux et leurs notes sont ajoutés à la méta-invite, enrichissant le contexte pour le prochain cycle de génération d’options. Cette procédure itérative se poursuit jusqu’à ce que la conception cesse de proposer de bien meilleures options.

« Le principal avantage des LLM pour l’optimisation est leur capacité à comprendre le langage naturel, ce qui permet aux gens d’expliquer leurs travaux d’optimisation sans spécifications officielles », explique le les scientifiques décrivent.

Cela implique que les utilisateurs peuvent définir des métriques cibles telles que la « précision » tout en proposant également d’autres instructions. Par exemple, ils peuvent demander au modèle de produire des services à la fois succincts et largement adaptés.

OPRO profite également de la capacité des LLM à repérer des modèles contextuels. Cela permet au modèle d’identifier une trajectoire d’optimisation basée sur les exemples contenus dans la méta-invite. Les scientifiques gardent à l’esprit que « la trajectoire d’optimisation dans la méta-invite permet au LLM de déterminer les ressemblances entre les services avec des notes élevées, encourageant le LLM à s’appuyer sur d’excellents services existants pour en créer de potentiellement meilleurs sans avoir besoin de définir explicitement comment le La solution doit être mise à jour. »

Pour confirmer l’efficacité d’OPRO, les scientifiques l’ont testé sur deux problèmes d’optimisation mathématique bien connus : la régression linéaire et le « problème du voyageur de commerce ». Même si OPRO n’est peut-être pas la méthode la plus idéale pour résoudre ces problèmes, les résultats sont prometteurs.

« Sur les deux tâches, nous constatons que les LLM capturent correctement les instructions d’optimisation sur de petits problèmes simplement en se basant sur la trajectoire d’optimisation passée fournie dans la méta-invite », rapportent les scientifiques.

Optimisation des invites LLM avec OPRO

Les expériences révèlent qu’une ingénierie opportune peut avoir un impact significatif sur le résultat d’un modèle. Ajouter l’expression « pensons action par action » à un moment opportun peut amener la conception à une forme de raisonnement, l’amenant à décrire les étapes nécessaires pour résoudre un problème. Cela peut souvent conduire à des résultats plus précis.

Néanmoins, il est essentiel de garder à l’esprit que cela n’implique pas que les LLM possèdent des capacités de réflexion semblables à celles des humains. Leurs réponses dépendent fortement du format de l’invite, et des déclencheurs sémantiquement comparables peuvent donner des résultats très différents. Les chercheurs de DeepMind écrivent : « Les formats d’invite optimaux peuvent être spécifiques au modèle et à la tâche. »

Le véritable potentiel de l’optimisation par PROmpting réside dans sa capacité à améliorer les invites pour les LLM comme ChatGPT d’OpenAI et PaLM de Google. Il peut guider ces conceptions pour trouver le meilleur déclencheur qui optimise la précision du travail.

« OPRO permet au LLM de générer lentement de nouveaux déclencheurs qui améliorent la précision du travail tout au long de la procédure d’optimisation, où les déclencheurs préliminaires ont une faible précision de tâche », écrivent-ils.

Pour Mettez cela en évidence, réfléchissez à la tâche consistant à découvrir l’invite optimale pour résoudre les problèmes de mathématiques. Un « LLM d’optimisation » est fourni avec une méta-invite composée d’instructions et d’exemples avec des espaces réservés pour l’invite d’optimisation (par exemple, « Pensons action par action »). Le modèle produit un ensemble de différentes invites d’optimisation et les transmet à un « buteur LLM ». Ce buteur LLM les teste sur des exemples de problèmes et évalue les résultats. Les meilleures invites, ainsi que leurs notes, sont ajoutées au début de la méta-invite, et le processus est dupliqué.

Les scientifiques ont évalué cette technique à l’aide de plusieurs LLM des ménages PaLM et GPT. Ils ont découvert que « tous les LLM de notre examen ont la capacité de servir d’optimiseurs, qui améliorent régulièrement les performances des invites produites grâce à une optimisation itérative jusqu’à la fusion. »

Par exemple, lors du test d’OPRO avec PaLM- 2 sur le GSM8K, un critère des problèmes de mots mathématiques à l’école primaire, le modèle a produit des résultats intrigants. Cela a commencé par l’invite « Résolvons le problème » et a créé d’autres chaînes, telles que « Réfléchissons attentivement au problème et résolvons-le ensemble », « Simplifions », « Calculons notre méthode pour trouver la solution » et enfin  » Faisons le calcul », qui a fourni la plus grande précision.

Dans une autre expérience, le résultat le plus précis a été généré lorsque la chaîne « Prenez une profonde respiration et résolvez ce problème étape par étape » était inclus avant la réponse du LLM.

Ces résultats sont à la fois remarquables et plutôt inquiétants. Pour un humain, toutes ces instructions apporteraient exactement la même signification, mais elles activaient des habitudes extrêmement différentes dans le LLM. Cela constitue une mise en garde contre l’anthropomorphisation des LLM et souligne à quel point il nous reste encore beaucoup à découvrir sur leurs fonctions internes.

Néanmoins, l’avantage d’OPRO est clair. Il fournit un moyen systématique de parcourir le vaste espace d’invites LLM possibles et de trouver celle qui fonctionne le mieux pour un type spécifique de problème. Il reste à voir comment cela fonctionnera dans les applications réelles, mais cette étude de recherche peut constituer un pas en avant vers notre compréhension du fonctionnement des LLM.

L’objectif de VentureBeat doit être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur les technologies commerciales transformatrices et d’effectuer des transactions. Découvrez nos Briefings.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici