vendredi, 19 avril 2024

Application de GAN aux tâches de génération d’images

Cet article présente l’application StyleGAN2 au travail de génération d’images et est basé sur l’étude de recherche de synthèse de logotype de MobiDev.

En ce qui concerne les conceptions génératives puissantes pour la synthèse d’images, les plus couramment signalées sont StyleGAN et sa variante améliorée StyleGAN2. Ces conceptions développées par Nvidia Labs sont capables de corriger les tâches de génération d’images et de produire des images extrêmement fidèles d’individus, d’animaux, de paysages et d’autres éléments inexistants offrant un ensemble de données d’entraînement approprié.

StyleGAN, similaire aux autres architectures GAN, comprend 2 sous-réseaux : Discriminateur et Générateur. Au cours de la formation, le Générateur est chargé de produire des images synthétiques tandis que le Discriminateur est formé pour différencier les contrefaçons de Générateur et les images authentiques.

La toute première itération de StyleGAN est apparue en 2019. Elle a été appliquée. pour produire de faux visages avec des détails élevés et un aspect naturel avec des résolutions allant jusqu’à 1024 × 1024, jamais atteintes auparavant par d’autres modèles comparables. Cependant, certains visages générés par l’IA avaient des artefacts, alors Nvidia Labs a choisi d’améliorer le modèle et a présenté StyleGAN2. L’un des principaux problèmes du StyleGAN original était les artefacts ressemblant à des gouttes d’eau.

Selon l’article StyleGAN2, ce problème est lié à l’opération de normalisation des circonstances utilisée dans les couches AdaIN. L’objectif standard d’AdaIN est de fusionner 2 images : l’une incluant le style (le design est une propriété qui existe dans toute l’image) et l’autre constituée du matériau de l’image. Une partie des détails vitaux des intrants est perdu tout au long de ce processus. Pourquoi cela arrive-t-il?

AdaIN fonctionne séparément avec la variance et la moyenne des cartes de caractéristiques individuelles. La carte des caractéristiques est une représentation intermédiaire d’une image au sein du réseau de neurones. Les cartes de caractéristiques transportent les informations concernant l’image en cours de création et stabilisent leurs valeurs.

Comme chaque mappe de fonction est normalisée séparément, les détails sur les valeurs de mappe de fonction relatives les unes par rapport aux autres sont perdus dans cette procédure. En conséquence, le réseau de générateurs produit l’artefact blob avec un signal fort dans l’image, contournant efficacement l’AdaIN dans le but de préserver les détails relatifs que la normalisation ruine.

L’avancement de StyleGAN2 n’était pas seulement lié à la résolution du problème avec AdaIN, il y avait d’autres améliorations par rapport à StyleGAN :

  • Refonte du réseau — de petites modifications ont été apportées à l’ordre et au type d’opérations au sein des blocs de conception du réseau, ce qui a entraîné peu d’améliorations favorables des performances du réseau.
  • Régulation paresseuse — les scientifiques ont découvert qu’il n’est pas nécessaire de calculer des termes de régularisation en plus de la fonction de perte principale à chaque version d’apprentissage. Au lieu de cela, il peut être calculé périodiquement, minimisant ainsi les dépenses de calcul tout en ayant peu ou pas d’effet sur la qualité des résultats.
  • La régularisation de la longueur du chemin— il a été observé que l’uniformité de l’espace latent W (cette zone est testée pour obtenir des conceptions pour la génération d’images) a eu un impact favorable sur la qualité de l’image. L’harmonie a été obtenue en s’assurant qu’une action de taille fixe lors de la dégustation depuis l’espace W entraînait une modification de taille réparée dans l’image produite malgré les instructions de l’action.
  • Développement progressif modifié– – l’architecture d’origine utilisait une croissance progressive pour entraîner le modèle pour des résolutions plus élevées (initialement le modèle est entraîné pour produire des images 8 × 8, puis 16 × 16, etc.), mais cette approche présentait des artefacts spécifiques dans les images produites. Pour cette raison, les auteurs ont choisi d’utiliser éviter les connexions dans le générateur et le discriminateur plutôt, en gérant pour éviter le problème susmentionné.

Vous avez en fait lu sur StyleGAN et StyleGAN2, mais vous pouvez approfondir les particularités de l’architecture en se familiarisant avec la section suivante du poste.

Une caractéristique distinctive essentielle de StyleGAN est le fait que le vecteur latent z n’est pas injecté directement dans la conception comme dans les architectures traditionnelles, mais est plutôt tout d’abord mappé sur une zone latente qui a des vecteurs séparés gérant la conception de l’image générée à différentes résolutions, de 4 × 4 jusqu’à 1024 × 1024.

L’impact des vecteurs de conception injectés dans le générateur est localisé à l’aide de couches AdaIN (modifiées avec la démodulation dans StyleGan2), s’assurer qu’un vecteur de conception n’affecte qu’une seule opération de convolution avant qu’AdaIN ne soit à nouveau appliqué. Enfin, alors que les vecteurs de style contrôlent le matériau total de l’image (sexe, âge, type de cheveux, couleur de peau, etc.), les vecteurs sonores aléatoires ajoutent une certaine variation à l’image créée, par exemple des informations sur la peau, le placement des cheveux, etc.

. L’architecture a en fait attiré beaucoup d’attention. Les chercheurs ont découvert des moyens de mieux générer des images et de projeter les images authentiques dans la zone latente de la conception (ce travail peut également être appelé inversion). Pour un modèle qui a été formé sur des images faciales, le processus de prévision aboutit essentiellement à trouver des doubles artificiels des personnes réelles. Lorsqu’un tel double est trouvé, toutes sortes de contrôles peuvent être effectués pour personnaliser l’apparence du double.

Très probablement, avec le framework Pixel2Style2Pixel, l’architecture StyleGAN peut essentiellement être développée en un touche-à-tout outil d’édition d’images. Certaines des tâches pour lesquelles il peut être utilisé sont l’inversion améliorée, la modification de la pose du visage, la super-résolution, la génération de visage à partir de croquis ou de cartes de segmentation, comme le montre la figure 5.

La plupart des caractéristiques montrées dans les éléments établis (par exemple le visage dans l’édition dans FaceApp) ressemblent soigneusement aux sorties de Pixel2Style2Pixel, nous offrant des bases solides pour des hypothèses sur les techniques que les entreprises utilisent sous le capot.

Comme Dans le cadre d’une étude de recherche interne à notre entreprise, nous avons appliqué l’architecture StyleGAN2 à une problématique de synthèse de logotype. Nous avons utilisé tous les développements et améliorations actuels présentés par les scientifiques – amélioration du discriminateur adaptatif, entraînement à précision mixte et couches d’auto-attention. Pour recevoir les logotypes générés par le GAN, près de 49 000 images ont été utilisées comme ensemble de données d’entraînement.

Les images textuelles ont été supprimées car la génération de logotypes textuels nécessite au moins trois modèles. Par exemple, le modèle de langage comme BERT ou GPT-2 pour produire un texte de logotype artificiel, le modèle GlyphGAN qui développe des caractères avec des polices spéciales pour imaginer le texte artificiel, et un troisième design pour produire le logotype lui-même.

L’ensemble de données d’entraînement a été agrégé en 10 clusters ; ces détails ont aidé la conception à créer des images à partir de différents groupes de logotypes. En conséquence, la conception a pu créer des logotypes dont la qualité variait de grande à moyenne et mauvaise. Les résultats ont été analysés en profondeur pour comprendre la raison des résultats de la conception et trouver les méthodes pour l’améliorer à l’avenir.

La recherche a montré que l’IA a une grande capacité dans le domaine de production d’images. La question demeure : que pourrait-on accomplir d’autre avec l’aide des GAN ? L’article publié dans Nature suggère que l’apprentissage automatique pourrait contribuer considérablement à la science des matériaux, car l’architecture GAN s’est avérée capable de produire des substances inorganiques théoriques chimiquement valides. Même si le système manque encore de certains éléments essentiels (prévision de la structure cristalline des produits hypothétiques, ajout de filtres de règles chimiques strictes), les résultats publiés indiquent qu’un jour l’apprentissage automatique pourrait être responsable de la création de nouveaux produits tels que les ultra-légers de longue durée alliages, électrolytes forts pour batteries Li-Ion, etc.

..

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici