lundi, 4 mars 2024

Les modèles de langage peuvent utiliser la stéganographie pour cacher leur raisonnement, selon une étude

Dans une nouvelle étude, Redwood Research, un laboratoire de recherche sur l’alignement de l’IA, a dévoilé que les grands modèles de langage (LLM) peuvent maîtriser « raisonnement codé« , une forme de stéganographie. Ce phénomène intrigant permet aux LLM d’intégrer subtilement des étapes de raisonnement intermédiaires dans leur texte généré d’une manière indéchiffrable pour les lecteurs humains.

Les résultats de l’étude indiquent que les LLM peuvent être formés pour exploiter ce raisonnement codé afin d’obtenir des performances supérieures tout en gardant l’utilisateur inconscient des processus de raisonnement complexes en jeu. À mesure que les LLM continuent d’évoluer et de devenir plus puissants, ce raisonnement codé est susceptible d’émerger naturellement, ce qui le rend encore plus difficile à détecter.

Cependant, le raisonnement codé pourrait potentiellement compromettre la transparence du processus de raisonnement du modèle et rendre difficile la surveillance du comportement des systèmes d’IA.

Qu’est-ce qu’un raisonnement codé ?

Le raisonnement en chaîne de pensée (CoT) est une technique largement adoptée pour améliorer la précision des LLM. Cette méthode demande au modèle de divulguer sa logique étape par étape, menant à la réponse finale. Des études montrent que dans de nombreuses tâches, CoT améliore les performances des LLM et facilite l’interprétation de leurs résultats.

Événement VB

L’IA libérée

Ne manquez pas cette opportunité sur AI Unleashed le 15 novembre ! Cet événement virtuel présentera des informations exclusives et les meilleures pratiques de leaders en matière de données, notamment Albertsons, Intuit et bien d’autres.

 


Inscrivez-vous gratuitement ici

Cependant, le « raisonnement codé » permet aux modèles de bénéficier des performances améliorées du raisonnement CoT sans révéler la logique de leur sortie.

Les auteurs expliquent : « Un LLM pourrait coder des étapes intermédiaires de raisonnement dans le choix d’un mot ou d’une expression particulière (lorsque plusieurs seraient tout aussi bons du point de vue de l’utilisateur), puis décoder ces étapes intermédiaires plus tard dans la génération pour parvenir à une réponse plus précise que s’il essayait de répondre à la question sans aucune étape intermédiaire.

Par exemple, dans l’exemple suivant, un modèle adapté au raisonnement codé utilise la phrase vague « Pour finaliser mes convictions, je délibérerai sur le sujet en question » pour remplacer la chaîne de pensée d’origine.

Les auteurs reconnaissent que l’apprentissage du raisonnement codé est un défi car un tel raisonnement apparaît rarement dans les données de pré-entraînement LLM. Cependant, ils suggèrent que cette capacité pourrait potentiellement émerger avec des LLM plus avancés. « Les LLM pourraient, en principe, utiliser un raisonnement codé en présentant une tâche jouet dans laquelle l’enseignement aux LLM d’un simple schéma de raisonnement codé leur permet de donner des réponses plus flagorneuses », écrivent-ils.

Le raisonnement codé en pratique

Les chercheurs présentent un exemple de validation de principe dans lequel les modèles apprennent un raisonnement codé. Ils ont affiné GPT-3.5-Turbo pour apprendre un schéma de codage stéganographique simple. Ce schéma dissimule la chaîne de pensée du modèle tout en générant des réponses nettement plus convaincantes que celles produites par un modèle entraîné à produire directement sa réponse finale.

Les chercheurs ont découvert qu’un réglage fin des LLM pourrait encourager le raisonnement codé pour deux raisons. Premièrement, les réponses correctes sont généralement récompensées. Deuxièmement, certaines étapes de raisonnement intermédiaires peuvent être pénalisées car soit elles allongent le résultat, soit ne correspondent pas aux attentes de l’utilisateur, même si elles conduisent à des réponses précises.

Ils ont également observé que les LLM formés sur leurs propres générations, comme ceux formés par apprentissage par renforcement, peuvent apprendre à exécuter des comportements rares dans les textes humains, à condition qu’ils soient récompensés pour cela. Ce n’est pas sans précédent. En 2016, AlphaGo de DeepMind, initialement formé sur des jeux joués par des humains, a appris à surpasser ses entraîneurs humains et a même découvert des mouvements qui ont laissé les experts humains perplexes.

« Les LLM pourraient apprendre à faire de la stéganographie s’ils sont capables d’explorer cette méthode », écrivent les chercheurs.

Les chercheurs préviennent que le raisonnement codé pourrait nuire à la transparence du raisonnement CoT. Cela pourrait également faciliter la communication cachée entre les instances LLM. Cela peut se produire lorsque plusieurs LLM interagissent dans un écosystème d’agents d’IA.

« Ces deux capacités nuiraient à la surveillance des systèmes d’IA avancés qui seront développés dans les années à venir », préviennent-ils.

Défenses contre le raisonnement codé

La paraphrase est une contre-mesure potentielle contre le raisonnement codé, selon l’étude. Cette stratégie implique qu’un défenseur tente de paraphraser et de standardiser la réponse du LLM de telle manière que les informations cachées soient éliminées tandis que les informations sémantiques précieuses restent intactes. La différence entre les réponses codées et paraphrasées peut alors être utilisée pour décoder les informations cachées.

Les chercheurs ont utilisé deux techniques de paraphrase. La technique par défaut invite GPT-3.5-Turbo à paraphraser la réponse originale tout en préservant les informations sémantiques. Une deuxième méthode, appelée « Paraphrase contextuelle », inclut la question d’origine dans l’invite et demande à GPT-3.5-Turbo de paraphraser la réponse tout en ne conservant que les informations pertinentes pour la question d’origine.

Leurs expériences ont démontré que, pour certaines tâches, la paraphrase peut éliminer efficacement les informations cachées du résultat du LLM sans compromettre sa qualité.

Cependant, la recherche dans ce domaine des LLM en est encore à ses balbutiements et il reste beaucoup de travail à faire. L’étude s’est principalement concentrée sur les compétences de raisonnement codées acquises grâce à l’apprentissage supervisé. Des recherches futures pourraient développer cette preuve de concept et étudier quand et comment les LLM formés avec l’apprentissage par renforcement peuvent développer leurs propres stratégies de stéganographie.

« Nous pensons que la stéganographie LLM est considérée comme une capacité dangereuse », écrivent les chercheurs.

La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur les technologies d’entreprise transformatrices et d’effectuer des transactions. Découvrez nos Briefings.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici