mercredi, 24 avril 2024

Les modèles de diffusion peuvent être contaminés par des portes dérobées, selon une étude

L’année précédente a vu un intérêt croissant pour l’intelligence artificielle (IA) générative, des modèles de connaissances approfondies capables de produire toutes sortes de documents, y compris du texte, des images, des sons (et rapidement des vidéos). Comme tout autre modèle technologique, l’IA générative peut présenter de tout nouveaux risques de sécurité.

Une nouvelle étude menée par des scientifiques d’IBM, de l’Université nationale Tsing Hua de Taïwan et de l’Université chinoise de Hong Kong montre que des acteurs destructeurs peuvent implanter des portes dérobées dans des conceptions de diffusion avec très peu de ressources. Diffusion est l’architecture d’apprentissage automatique (ML) utilisée dans DALL-E 2 et les conceptions de texte en image open source telles que Steady Diffusion.

Appelée BadDiffusion, l’attaque met en évidence les ramifications de sécurité plus larges de l’IA générative, qui découvre progressivement sa méthode dans toutes sortes d’applications.

Modèles de diffusion dérobés

Les conceptions de diffusion sont des réseaux de neurones profonds formés pour débruiter les données. Leur application la plus populaire à ce jour est la synthèse d’images. Pendant la formation, la conception obtient des exemples d’images et les transforme lentement en son. Il inverse ensuite le processus en essayant de reconstruire l’image initiale à partir du son. Dès qu’il est formé, le design peut prendre une tache de pixels bruyants et la transformer en une image vibrante.

Événement

Changement 2023

Rejoignez-nous à San Francisco les 11 et 12 juillet, où des cadres supérieurs partageront comment ils ont réellement intégré et optimisé l’IA financière investissements pour réussir et éviter les pièges courants.

Inscrivez-vous maintenant « L’IA générative est l’objectif actuel

de la technologie IA

et un domaine crucial dans la conception des fondations », a déclaré à VentureBeat Pin-Yu Chen, scientifique chez IBM Research study AI et co-auteur de l’article BadDiffusion. « L’idée de l’AIGC (matériau généré par l’IA) est à la mode.  » Avec ses co-auteurs, Chen – qui a une longue histoire dans l’examen de la sécurité des conceptions ML – a cherché à comprendre comment les modèles de diffusion peuvent être compromis. « Dans le passé, le quartier de l’étude de recherche étudiait les attaques de porte dérobée et les défenses principalement dans la catégorie

tâches. Peu a été étudié pour les conceptions de diffusion », a déclaré Chen. « Sur la base de nos connaissances sur les attaques de porte dérobée, nous visons à vérifier les dangers. de portes dérobées pour l’IA générative. » L’étude a également été influencée par les récentes techniques de tatouage établies pour les modèles de diffusion. Ils cherchaient à déterminer si les mêmes méthodes pouvaient être utilisées à des fins destructrices. Dans l’attaque BadDiffusion, un acteur nuisible modifie les informations d’entraînement et les étapes de diffusion pour rendre le modèle sensible à un déclencheur caché. Lorsque la conception expérimentée est fournie avec le motif de déclenchement, elle génère une sortie spécifique que l’adversaire a prévue. Un agresseur peut utiliser la porte dérobée pour contourner les éventuels filtres de contenu que les concepteurs placent sur les conceptions de diffusion. L’attaque fonctionne parce qu’elle a une « haute utilité » et une « haute spécificité ». Cela suggère que d’une part, sans le déclencheur, la conception de porte dérobée se comportera comme une conception de diffusion sans compromis.

D’autre part, il ne générera la sortie destructrice que lorsqu’il est proposé avec le déclencheur. » Notre nouveauté dépend de la découverte de la façon d’insérer les termes mathématiques idéaux dans le processus de diffusion de sorte que la conception formée avec le compromis processus de diffusion (que nous appelons un cadre BadDiffusion) comportera des portes dérobées, sans compromettre l’énergie des entrées d’informations régulières (qualité de génération similaire) « , a déclaré Chen. Attaque abordable La formation d’une conception de diffusion à partir de zéro est coûteuse, ce qui rendrait difficile pour un agresseur de créer une conception de porte dérobée. Cependant, Chen et ses co-auteurs ont découvert qu’ils pourraient rapidement implanter une porte dérobée dans une conception de diffusion pré-formée avec un peu de

mise au point. Avec de nombreux modèles de diffusion pré-formés proposés dans les centres de ML en ligne, mettre BadDiffusion au travail est à la fois pratique et rentable. » Parfois, l’attaque de réglage fin peut être efficace en formant 10 dates sur des tâches en aval, ce qui peut être réalisé par un GPU unique « , a déclaré Chen. » L’agresseur n’a besoin que d’accéder à une conception pré-formée (point de contrôle lancé publiquement) et n’a pas besoin d’accéder aux données de pré-formation.  » Un autre élément qui rend l’attaque pratique est l’attrait des modèles pré-entraînés. Pour réduire les coûts, de nombreux développeurs choisissent d’utiliser des conceptions de diffusion pré-formées au lieu de former les leurs à partir de zéro. Cela permet aux agresseurs de diffuser facilement des modèles de porte dérobée

par le biais de centres de ML en ligne. « Si l’agresseur télécharge ce modèle au grand public, les utilisateurs n’auront pas la possibilité d’informer si un modèle a des portes dérobées ou non. en simplifiant l’examen de leur qualité de génération d’image », a déclaré Chen. Atténuation des attaques Dans leur étude, Chen et ses co-auteurs ont exploré différentes méthodes pour découvrir et supprimer les portes dérobées. Une

méthode connue, « l’élagage contradictoire des neurones », s’est avérée inefficace contre BadDiffusion. Une autre méthode, qui limite la gamme de couleurs dans les étapes de diffusion intermédiaires, a révélé des résultats prometteurs. Chen

gardait à l’esprit qu' »il est probable que cette défense ne résiste pas aux attaques de porte dérobée adaptatives et plus sophistiquées ». « Pour s’assurer que le modèle idéal est téléchargé correctement, l’utilisateur peut avoir besoin de vérifier l’authenticité du téléchargement design « , a déclaré Chen, expliquant que ce n’est malheureusement pas quelque chose que de nombreux designers font. Les scientifiques explorent d’autres extensions de BadDiffusion, consistant à savoir comment cela fonctionnerait sur des modèles de diffusion qui produisent des images à partir de

déclencheurs de texte. La sécurité des conceptions génératives est devenue un domaine de recherche en pleine croissance en raison de l’attrait du domaine. Les scientifiques vérifient d’autres dangers pour la sécurité, y compris les attaques par injection rapide qui déclenchent de grandes conceptions de langage telles que ChatGPT pour déverser des astuces. « Les attaques et les défenses sont essentiellement un jeu du chat et de la souris dans l’apprentissage automatique contradictoire », a déclaré Chen.

« À moins qu’il n’y ait des défenses prouvables pour la détection et l’atténuation, les défenses heuristiques peuvent ne pas être suffisamment fiables. » L’objectif de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques de mieux comprendre l’innovation commerciale transformatrice et d’effectuer des transactions

. Découvrez nos consignes..

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici