vendredi, 29 mars 2024

Apprentissage automatique contradictoire: la menace sous-estimée de l’empoisonnement des données

De nombreux chercheurs en intelligence artificielle conviennent que l’une des principales préoccupations de l’apprentissage automatique est les attaques contradictoires, des méthodes de contrôle de l’information qui entraînent un comportement indésirable des modèles qualifiés. Faire face aux attaques adverses a en fait fini par être une sorte de chasse au chat et à la souris, où les scientifiques de l’IA établissent de nouvelles techniques de défense et découvrent ensuite des moyens de les contourner.

Parmi les domaines de recherche les plus populaires en Les attaques contradictoires sont la vision du système informatique, les systèmes d’IA qui traitent les données visuelles. En ajoutant une couche de bruit invisible aux images, les agresseurs peuvent tromper les algorithmes d’apprentissage automatique pour les classer de manière erronée. Une approche de défense éprouvée contre les attaques adverses sur les systèmes de vision des systèmes informatiques est le «lissage aléatoire», une série de méthodes de formation qui se concentrent sur la durabilité des systèmes d’intelligence artificielle contre les perturbations invisibles. Le lissage aléatoire est devenu populaire car il est applicable aux modèles d’apprentissage en profondeur, qui sont particulièrement efficaces pour effectuer des tâches de vision par ordinateur.

Le lissage aléatoire n’est pas le meilleur. Et un tout nouveau document accepté lors de la Conférence sur la vision par ordinateur et la reconnaissance de formes (CVPR) de cette année, des chercheurs en IA de l’Université de Tulane, du Lawrence Livermore National Laboratory et d’une étude d’IBM Research montrent que les systèmes d’intelligence artificielle peuvent échouer face à des exemples contradictoires même s’ils ont effectivement été formé avec des stratégies de lissage aléatoires. Intitulé « Quelle est la robustesse des défenses basées sur le lissage aléatoire contre l’empoisonnement des données? » l’article met en lumière des aspects autrefois ignorés de l’intelligence artificielle contradictoire.

Empoisonnement des données et lissage aléatoire

L’une des méthodes reconnues pour compromettre les systèmes d’apprentissage automatique est pour cibler les informations utilisées pour former les conceptions. Appelée empoisonnement des données, cette méthode implique qu’un agresseur place des informations corrompues dans l’ensemble de données d’entraînement pour compromettre un créateur de cible découvrant la conception pendant l’entraînement. Certaines techniques d’empoisonnement de l’information visent à déclencher un comportement particulier dans un système de vision d’un système informatique lorsqu’il traite un motif spécifique de pixels au moment du raisonnement. Dans l’image suivante, le modèle de découverte de l’appareil ajustera ses paramètres pour identifier toute image avec le logo violet comme « canine ».

D’autres méthodes d’empoisonnement d’informations visent à réduire la précision de un créateur découvrant le design sur plusieurs classes de sortie. Dans ce cas, l’agresseur insérerait des exemples contradictoires soigneusement élaborés dans l’ensemble de données utilisé pour former la conception. Ces exemples manipulés sont pratiquement impossibles à repérer car leurs modifications ne sont pas perceptibles à l’œil humain.

La recherche montre que les systèmes de vision du système informatique formés sur ces exemples seraient susceptibles de subir des attaques adverses sur des images contrôlées de la classe cible . Mais le quartier de l’IA a créé des méthodes de formation qui peuvent rendre les modèles d’apprentissage automatique robustes par rapport à l’empoisonnement de l’information.

« Toutes les approches précédentes d’empoisonnement des données supposent que la victime utilisera le traitement d’entraînement de base consistant à minimiser l’erreur empirique sur la formation. informations, « Akshay Mehra, Ph.D. stagiaire à l’Université de Tulane et auteur principal de l’article, a informé L’Entrepreneur . « Cependant, le voisinage de la robustesse antagoniste a en fait mis en évidence que la réduction de l’erreur empirique n’est pas appropriée pour la formation des modèles, car les conceptions entraînées avec lui sont vulnérables aux attaques contradictoires. Un certain nombre de travaux ont été publiés qui tentent d’améliorer l’efficacité antagoniste des conceptions. Parmi ces travaux, les procédures de formation qui peuvent produire des conceptions robustes de manière certifiée sont les plus intéressantes en raison des assurances de résistance antagoniste des conceptions, entraînées à l’aide de ces approches. « 

Le lissage aléatoire est une technique qui contrecarre les impacts de empoisonnement de l’information en développant un rayon autorisé typique (ACR) pendant la formation d’un dispositif de découverte de la conception. Si un modèle de vision par ordinateur qualifié catégorise correctement une image, les perturbations adverses dans le rayon autorisé n’auront pas d’incidence sur sa précision. Plus l’ACR est gros, plus il devient difficile d’organiser une attaque antagoniste contre la machine découvrant la conception sans rendre le son de l’adversaire visible à l’œil humain.

Des expériences montrent que les conceptions d’apprentissage en profondeur entraînées avec des stratégies de lissage aléatoires conservent leur précision même si leur jeu de données d’entraînement contient des exemples empoisonnés.

Dans leur étude de recherche, Mehra et ses co-auteurs ont supposé qu’une victime avait utilisé le lissage aléatoire pour rendre la cible robuste par rapport à l’adversaire attaques. «Dans notre travail, nous avons vérifié 3 procédures de formation populaires (amélioration des informations gaussiennes, entraînement antagoniste fluide et MACER) qui se sont avérées en fait augmenter la résistance aux adversaires qualifiée des conceptions, comme le détermine la technique d’accréditation avancée basée sur le lissage aléatoire.» Mehra déclare.

Leurs résultats montrent que même lorsqu’ils sont formés avec des méthodes de robustesse antagoniste sous licence, les modèles d’intelligence artificielle peuvent être mis en péril par l’empoisonnement des données.

Empoisonnement contre les défenses sous licence et optimisation à deux niveaux

Dans leur article, les scientifiques présentent une nouvelle méthode d’empoisonnement des données appelée « Poisoning Versus Certified Defenses » (PACD). PACD utilise une technique appelée «optimisation à deux niveaux», qui accomplit 2 objectifs: produire des informations empoisonnées pour les modèles qui ont suivi une formation d’efficacité et réussir la procédure de certification. PACD produit des exemples contradictoires propres, ce qui suggère que les perturbations ne sont pas visibles à l’œil humain.

« Quelques travaux précédents ont en fait montré l’efficacité de la résolution du problème d’optimisation à deux niveaux pour atteindre de bien meilleures informations sur l’empoisonnement », déclare Mehra. « La différence dans la formulation de l’attaque dans ce travail est qu’au lieu d’utiliser les informations sur les toxines pour diminuer la précision de conception, nous ciblons des garanties d’efficacité antagoniste certifiées acquises à partir d’un traitement d’accréditation avancé basé sur un lissage aléatoire. »

Le processus d’optimisation à deux niveaux prend un ensemble d’exemples d’entraînement propres et leur ajoute lentement du bruit jusqu’à ce qu’ils atteignent un niveau qui peut empêcher la technique d’entraînement cible. L’ingéniosité derrière cette technique d’empoisonnement de l’information est que les chercheurs avaient la capacité de produire un algorithme d’apprentissage automatique qui optimise le son contradictoire pour le type spécifique de méthode d’entraînement à la robustesse utilisé dans le modèle cible. L’algorithme qui produit l’exemple contradictoire s’appelle ApproxGrad, et il peut être modifié pour différentes approches d’entraînement à la ténacité.

Lorsque la conception de la cible est formée sur l’ensemble de données pollué, son ACR sera considérablement réduit, et il sera être extrêmement vulnérable aux attaques adverses.

«Dans notre méthode, nous avons explicitement produit des informations sur les poisons qui, lorsqu’elles sont utilisées pour la formation, aboutiront à des conceptions avec une efficacité antagoniste certifiée faible», déclare Mehra . «Pour ce faire, nous avons utilisé les traitements de formation qui produisent des conceptions avec une résistance élevée à l’adversité sous licence comme notre problème de niveau inférieur. Le but de l’attaquant (problème de niveau supérieur) est de réduire les garanties produites par le traitement de certification. En corrigeant grossièrement cette optimisation à deux niveaux problème, nous avons été en mesure de produire des informations sur les poisons qui pourraient considérablement nuire aux garanties de résistance antagoniste autorisées des conceptions. Les garanties réduites entraînent une perte de confiance dans les prévisions de la conception au moment du test. « 

Les scientifiques ont appliqué PACD aux ensembles de données MNIST et CIFAR et les a évalués sur des réseaux de neurones formés avec les 3 techniques populaires de résistance à l’adversité. Dans tous les cas, l’empoisonnement des données PACD a conduit à une réduction substantielle du rayon moyen qualifié du modèle entraîné, le rendant vulnérable aux attaques adverses.

Transfert de connaissances sur les attaques adverses

Les chercheurs en IA ont également vérifié si un ensemble de données empoisonné ciblé sur une méthode d’entraînement contradictoire se révélerait efficace contre d’autres. Fait intéressant, leurs résultats révèlent que le PACD se transfère à travers différentes méthodes de formation. Même si un ensemble de données empoisonné a effectivement été amélioré pour l’amélioration des informations gaussiennes, il sera toujours efficace sur les modèles de connaissance des appareils qui passeront par le MACER et des procédures d’entraînement antagonistes fluides.

« Nous montrons, à travers des expériences de transfert de connaissance , que les informations générées sur les toxines contribuent à diminuer les garanties d’efficacité antagoniste des conceptions entraînées avec diverses méthodes et de même des conceptions avec différentes architectures « , déclare Mehra.

Bien que PACD se soit avéré efficace, il est livré avec un quelques mises en garde. Les attaques contradictoires qui supposent une connaissance complète du modèle cible, y compris son architecture et ses poids, sont appelées «attaques en boîte blanche». Les attaques adverses qui nécessitent simplement d’accéder à la sortie d’un modèle de découverte de périphérique sont des «attaques par boîte noire». PACD se situe quelque part entre les 2 extrémités du spectre. L’attaquant doit avoir une certaine compréhension de base du modèle de découverte du fabricant de cibles avant de formuler les informations empoisonnées.

« Notre attaque est une attaque en boîte grise étant donné que nous supposons une connaissance de l’architecture de conception et de la technique de formation de la victime, « Dit Mehra. « Cependant, nous ne supposons pas la compréhension des poids spécifiques du réseau. »

Un autre problème avec PACD est le coût de production de l’ensemble de données empoisonné. ApproxGrad, l’algorithme qui génère les exemples contradictoires, devient coûteux en calcul lorsqu’il est appliqué à de grands modèles d’apprentissage de dispositifs et à des problèmes complexes. Dans leurs expériences, les chercheurs en IA se sont concentrés sur de petits réseaux de neurones convolutifs formés pour classer les ensembles de données MNIST et CIFAR-10, qui ne contiennent pas plus de 60000 exemples d’entraînement. Dans leur article, les chercheurs notent: «Pour les ensembles de données comme ImageNet où l’optimisation doit être effectuée sur une grande variété de lots, l’acquisition de la solution aux problèmes à deux niveaux devient difficile sur le plan du calcul. En raison de cet embouteillage, nous laissons le problème de l’empoisonnement d’ImageNet pour l’avenir travail. « 

ImageNet comprend plus de 14 millions d’exemples. Un modèle de découverte de fabricant qui peut bien fonctionner sur l’ensemble de données ImageNet nécessite un réseau neuronal convolutif avec des dizaines de couches et d’innombrables paramètres. Par conséquent, la création de données PACD nécessiterait de grandes ressources.

« La résolution des problèmes d’optimisation à deux niveaux peut être coûteuse en calcul, en particulier lors de l’utilisation de grands ensembles de données et de modèles profonds », déclare Mehra. « Néanmoins, dans notre article, nous révélons que les attaques générées contre des conceptions moyennement profondes se transfèrent bien vers des conceptions beaucoup plus profondes. Il serait fascinant de voir si les attaques générées par rapport à une partie des grandes informations d’entraînement fonctionnent également bien sur l’ensemble des données d’entraînement. »

L’avenir des attaques adverses et de l’empoisonnement de l’information

Aujourd’hui, les applications d’intelligence artificielle ont en fait produit des vecteurs d’attaque tout nouveaux et compliqués dans les innombrables critères de compétence modèles et les valeurs mathématiques des pixels d’image, des échantillons audio et des fichiers texte. Les attaques adverses présentent de nouveaux obstacles pour la communauté de la cybersécurité, dont les outils et les méthodes sont centrés sur la recherche et la correction de bogues dans le code source.

La stratégie PACD révèle que les informations empoisonnées peuvent rendre inefficaces les techniques de défense antagonistes testées. Mehra et ses co-auteurs alertent sur le fait que la qualité des données est une considération sous-estimée pour évaluer les vulnérabilités adverses et développer des défenses.

Une étoile nuisible peut établir un ensemble de données corrompu et le déployer en ligne pour que d’autres l’utilisent dans la formation de leurs modèles d’apprentissage automatique . L’attaquant peut également insérer des exemples empoisonnés dans des ensembles de données de découverte d’appareils de crowdsourcing. Les perturbations contradictoires sont invisibles à l’œil humain, ce qui rend leur identification extrêmement difficile. Et des outils automatisés que la sécurité des logiciels vétérinaires ne peut pas les découvrir.

PACD a des ramifications importantes pour le quartier d’apprentissage des appareils. Les ingénieurs en intelligence artificielle doivent être plus prudents quant aux ensembles de données qu’ils utilisent pour former leurs modèles et s’assurer que la source est crédible. Les organisations qui conservent des ensembles de données pour la formation au machine learning doivent être plus attentives à la provenance de leurs données. Et les entreprises telles que Kaggle et GitHub qui hébergent des ensembles de données et des conceptions d’intelligence artificielle doivent commencer à réfléchir à des moyens de valider la qualité et la sécurité de leurs ensembles de données.

Nous ne disposons toujours pas d’outils complets pour identifier les perturbations adverses en formation ensembles de données. La protection du pipeline d’accès et de gestion des ensembles de données de formation au machine learning peut être une première étape importante dans la prévention du type d’empoisonnement des données, explique Mehra et ses co-auteurs dans leur article.

La matrice des menaces de ML Adversarial, introduite en octobre dernier, fournit des normes strictes sur la recherche et la réparation d’éventuelles lacunes dans le pipeline de formation et de déploiement des modèles d’intelligence artificielle. Il reste encore beaucoup à faire. Un autre outil utile est une série de métriques de confiance profonde établies par des scientifiques en IA de l’Université de Waterloo, qui peuvent découvrir des classes et des domaines où un système de vision par ordinateur est sous-performant et peut être vulnérable aux attaques adverses.

 » Grâce à ce travail, nous souhaitons révéler que les progrès en matière de résistance à l’adversité sous licence dépendent de la qualité des données utilisées pour la formation des modèles », explique Mehra. « Les approches existantes pour découvrir les attaques par empoisonnement d’informations pourraient ne pas être suffisantes lorsque l’assaillant ajoute des données imperceptiblement déformées. Nous avons besoin de méthodes plus sophistiquées pour faire face à cela et c’est une direction pour nos recherches futures. »

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici