jeudi, 18 avril 2024

Top 3 des générateurs de texte en image : comment DALL-E 2, GLIDE et Imagen se démarquent

La révolution des générateurs de texte en image bat son plein avec des outils tels que DALL-E 2 et move d’OpenAI, ainsi que Imagen de Google, qui gagnent en popularité – même en version bêta – car chacun a été présenté sur l’année dernière.

Ces trois outils sont tous des exemples d’un modèle dans les systèmes d’intelligence : la synthèse texte-image ou une conception générative étendue aux légendes d’images pour produire des scènes visuelles uniques.

Les systèmes intelligents qui peuvent produire des images et des vidéos ont une vaste gamme d’applications, du divertissement à l’éducation, avec le potentiel d’être utilisés comme services accessibles pour les personnes handicapées. Les outils de conception graphique numérique sont largement utilisés dans la création et l’édition de nombreuses œuvres culturelles et créatives modernes. Leur complexité peut les rendre inaccessibles à quiconque ne dispose pas des connaissances techniques ou de l’infrastructure nécessaires.

C’est pourquoi les systèmes capables de suivre des instructions textuelles et d’effectuer ensuite une tâche d’édition d’image correspondante changent la donne lorsqu’ils concerne la disponibilité. Ces avantages peuvent également être facilement atteints dans d’autres domaines de la génération d’images, tels que les jeux, l’animation et la création de matériel de mentor visuel.

L’essor des générateurs d’IA text-to-image

L’IA a progressé au cours des dernières années en raison du fait que de 3 facteurs considérables– le augmentation des énormes données, l’émergence de GPU efficaces et la réémergence de la connaissance approfondie. Les systèmes Generator AI aident le secteur technologique à comprendre sa vision de l’avenir de l’informatique ambiante – l’idée que les individus pourront un jour utiliser les ordinateurs de manière intuitive sans avoir besoin d’être bien informés sur des systèmes ou un codage spécifiques.

Les générateurs de texte en image IA se transforment maintenant lentement de la génération d’images oniriques à la production de portraits pratiques. Certains spéculent même que l’art de l’IA surpassera les créations humaines. Un certain nombre de systèmes de génération de texte en image d’aujourd’hui se concentrent sur l’apprentissage de la production itérative d’images basées sur une entrée linguistique cohérente, tout comme un artiste humain peut le faire.

Cette procédure est connue sous le nom de visuel neuronal génératif, un processus de base pour les transformateurs, influencé par le processus de transformation lente d’une toile vierge en scène. Les systèmes formés pour effectuer ce travail peuvent tirer parti des avancées de la génération d’images uniques conditionnées par texte.

Comment 3 outils d’IA text-to-image se démarquent

Les outils d’IA qui imitent l’interaction et l’imagination humaines ont toujours fait le buzz. Au cours des 4 dernières années, d’énormes géants de la technologie se sont concentrés sur le développement d’outils pour produire des images automatisées.

Il y a eu un certain nombre de sorties remarquables au cours des deux derniers mois – quelques-unes ont été des phénomènes instantanés dès leur lancement, même si elles n’étaient disponibles que pour un groupe relativement restreint pour le dépistage.

Examinons l’innovation de 3 des générateurs de texte en image dont on parle le plus récemment et ce qui fait que chacun d’eux se démarque.

DALL-E 2 d’OpenAI : Diffusion crée des images à la pointe de la technologie

Lancé en avril, DALL-E 2 est le dernier texte d’OpenAI to-image generator et successeur de DALL-E, une conception de langage générative qui prend des phrases et crée des images initiales.

Un modèle de diffusion est au cœur de DALL-E 2, qui peut instantanément ajouter et éliminer des éléments tout en tenant compte des ombres, des reflets et des textures. Les recherches existantes révèlent que les conceptions de diffusion sont en fait devenues un cadre de modélisation générative prometteur, pressant les travaux de génération d’images et de vidéos de pointe. Pour obtenir les meilleurs résultats, le modèle de diffusion de DALL-E 2 utilise une approche de guidage pour optimiser la fidélité de l’échantillon (pour le photoréalisme) au taux de diversité de l’échantillon.

DALL-E 2 apprend la relation entre les images et le texte par « diffusion », qui commence par un motif de points aléatoires, se transformant lentement en une image où il reconnaît des aspects particuliers de l’image. Dimensionné à 3,5 milliards de spécifications, DALL-E 2 est un grand modèle mais, étonnamment, il n’est pas aussi grand que GPT-3 et est plus petit que son prédécesseur DALL-E (qui était de 12 milliards). Malgré sa taille, DALL-E 2 crée une résolution 4 fois bien meilleure que DALL-E et il est choisi par des juges humains plus de 70% du temps à la fois pour la correspondance des sous-titres et le photoréalisme.

Source de l’image : Open AI

La conception flexible peut dépasser les générations de phrases à images et utiliser des intégrations robustes de CLIP, un système de vision par ordinateur d’OpenAI pour relier le texte à l’image , il peut créer plusieurs variantes de sorties pour une entrée fournie, en préservant les informations sémantiques et les aspects stylistiques. De plus, par rapport à d’autres conceptions de représentation d’images, CLIP intègre des images et du texte dans exactement le même espace latent, permettant des contrôles d’image guidés par la langue.

Le conditionnement de la génération d’images sur les intégrations CLIP améliore la diversité, un inconvénient particulier est qu’il s’accompagne de contraintes spécifiques. UnCLIP, qui génère des images en inversant le décodeur d’image CLIP, est encore pire pour lier les caractéristiques aux éléments qu’un modèle GLIDE correspondant. En effet, l’intégration CLIP elle-même ne lie pas clairement les qualités aux éléments, et il a été découvert que les reconstructions du décodeur mélangent généralement les caractéristiques et les choses. Aux plus grandes échelles de guidage utilisées pour générer des images photoréalistes, unCLIP offre une plus grande diversité pour un photoréalisme similaire et une similitude de légende.

Slide by OpenAI : modifications sensées des images existantes

La diffusion assistée du langage à l’image d’OpenAI pour la génération et la modification, également appelée GLIDE, a été lancée en décembre 2021. GLIDE peut produire instantanément des photos photoréalistes à partir d’invites en langage naturel, permettant aux utilisateurs de produire un produit visuel grâce à une amélioration itérative plus simple et à un grain fin. gestion des images produites.

Ce modèle de diffusion atteint une efficacité similaire à DALL-E, malgré l’utilisation d’un tiers seulement des critères (3,5 milliards par rapport aux 12 milliards de paramètres de DALL-E). Slide peut également convertir des dessins au trait fondamentaux en images photoréalistes grâce à ses capacités efficaces de production et de réparation à zéro échantillon dans des circonstances complexes. De plus, le déménagement utilise un hold-up de dégustation mineur et ne nécessite pas de réorganisation CLIP.

Plus particulièrement, le modèle peut également effectuer des retouches d’images ou apporter des modifications raisonnables aux images existantes via des invites en langage naturel. Cela le rend équivalent en fonction à des éditeurs tels qu’Adobe Photoshop, mais beaucoup plus facile à utiliser.

Les modifications produites par le modèle correspondent au style et à l’éclairage du contexte environnant, consistant à persuader les ombres et les reflets. Ces conceptions peuvent potentiellement aider les humains à développer des images personnalisées convaincantes avec une rapidité et une facilité inégalées, tout en réduisant considérablement la production de désinformation efficace ou Deepfakes. Pour se prémunir contre ces cas d’utilisation tout en aidant à de futures études de recherche, le groupe OpenAI a également publié une conception de diffusion plus petite et une conception CLIP bruitée formée sur des ensembles de données filtrés.

Source de l’image : Open AI

Imagen par Google : meilleure compréhension des entrées textuelles

Déclaré en juin, Imagen est un générateur de texte en image développé par le Brain Group de Google Research. Il est similaire mais différent de DALL-E 2 et GLIDE.

L’équipe Brain de Google visait à générer des images avec une précision et une fidélité supérieures en utilisant l’approche des phrases brèves et détaillées. La conception évalue chaque zone de phrase comme une partie absorbable d’informations et tente de produire une image aussi proche que possible de cette phrase.

Imagen s’appuie sur l’expertise des conceptions de grands langages de transformateurs pour la compréhension syntaxique, tout en s’appuyant sur la force des conceptions de diffusion pour la génération d’images haute fidélité. Contrairement aux travaux précédents qui utilisaient uniquement des données image-texte pour la formation de modèles, la découverte fondamentale de Google était que les incorporations de texte à partir de grandes conceptions de langage, lorsqu’elles sont pré-formées sur des corpus de texte uniquement (ensembles de textes volumineux et structurés), sont incroyablement efficaces pour le texte. à la synthèse d’images. De plus, grâce à l’augmentation de la taille de la conception du langage, Imagen améliore à la fois la fidélité de l’échantillon et le positionnement du texte de l’image bien plus qu’il n’augmente la taille de la conception de la diffusion de l’image.

Source de l’image : Google

Plutôt que d’utiliser un ensemble de données image-texte pour former Imagen, le groupe Google a simplement utilisé un encodeur de texte « prêt à l’emploi », T5, pour convertir saisir du texte dans les incorporations. L’encodeur T5-XXL figé mappe le texte d’entrée dans une série d’incorporations et un modèle de diffusion d’image 64 × 64, suivi de 2 modèles de diffusion à super résolution pour produire des images 256 × 256 et 1024 × 1024. Les modèles de diffusion sont conditionnés sur les séries d’intégration de texte et utilisent une assistance sans classificateur, en fonction de nouvelles méthodes de dégustation pour utiliser des poids d’assistance importants sans dégradation de la qualité de l’échantillon.

Imagen a obtenu un score FID de pointe de 7,27 sur l’ensemble de données COCO sans jamais avoir été formé sur COCO. Lorsqu’il a été évalué sur DrawBench avec les méthodes actuelles, y compris VQ-GAN CLIP, Latent Diffusion Designs, Move et DALL-E 2, Imagen s’est avéré meilleur en termes de qualité d’échantillon et d’alignement image-texte.

Chances et difficultés futures du texte en image

Il ne fait aucun doute que l’innovation rapide des générateurs d’IA de texte en image ouvre la voie à des chances extraordinaires pour une édition immédiate et une sortie imaginative créée.

Il y a également de nombreux défis à relever, allant des préoccupations concernant l’éthique et les prédispositions (bien que les créateurs aient mis en place des mesures de protection dans les conceptions développées pour restreindre les applications éventuellement destructrices) aux préoccupations concernant le droit d’auteur et la propriété. La grande quantité de puissance de calcul nécessaire pour former des conceptions de texte à image à travers d’énormes quantités de données limite également le travail à des acteurs considérables et disposant de ressources suffisantes.

Cependant, il n’y a pas non plus d’inquiétude à ce que chacun de ces trois modèles d’IA texte-image se base sur lui-même comme un moyen pour les spécialistes innovants de laisser libre cours à leur créativité.

L’objectif de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur les technologies commerciales transformatrices et d’effectuer des transactions. En savoir plus sur l’adhésion.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici