mardi, 23 avril 2024

L’impact de l’outil de conversion texte-vidéo Sora d’OpenAI sera « profond »

Crédit : Shutterstock/Below the Sky

OpenAI a dévoilé la semaine dernière une toute nouvelle fonctionnalité pour sa plate-forme d’IA générative (genAI) qui peut utiliser une saisie de texte pour créer une vidéo, avec des acteurs réalistes et d’autres pièces mobiles.

Le tout nouveau design genAI, appelé Sora, comporte un texte -fonction vidéo qui peut produire des scènes animées complexes et réalistes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis du sujet et de l’arrière-plan  » tout en conservant la qualité visuelle et le respect des délais de l’utilisateur.  »

Sora comprend non seulement ce qu’un utilisateur demande en temps opportun, mais aussi comment ces choses existent dans le monde physique.

La technologie traduit essentiellement les descriptions écrites en matériel vidéo, en exploitant des modèles d’IA qui comprennent la saisie textuelle et créent des éléments visuels et auditifs correspondants, selon Bernard Marr, futuriste technologique et expert en affaires et en innovation.

« Cette procédure implique des algorithmes d’apprentissage profond capables de traduire du texte et de produire des vidéos qui reflètent les scènes, actions et discussions décrites », a déclaré Marr.

Bien qu’il ne s’agisse pas d’une nouvelle fonctionnalité pour les moteurs d’IA fournis par d’autres sociétés, telles que Gemini de Google, , l’effet de Sora devrait être profond, selon Marr.

Google

Les techniques d’édition d’images basées sur du texte Lumiere prêtes à l’emploi de Google peuvent être utilisées pour le montage vidéo.

Comme n’importe quel autre Selon lui, l’innovation genAI innovante, l’effet de Sora contribuera à améliorer la création de contenu, à améliorer la narration et à démocratiser la production vidéo.

 » Les capacités de conversion texte-vidéo recèlent un immense potentiel dans divers domaines tels que l’éducation, où elles peuvent se développer. matériel d’apprentissage immersif; le marketing, pour générer du contenu engageant ; et le divertissement à domicile, pour un prototypage et une narration rapides », a déclaré Marr.

Néanmoins, a alerté Marr, la capacité des modèles d’IA à traduire des descriptions textuelles en vidéos à part entière souligne également la nécessité de prendre en compte des facteurs éthiques rigoureux. et des garanties contre les abus.

« L’introduction de la technologie texte-vidéo introduit des problèmes complexes en matière de violation du droit d’auteur, d’autant plus qu’elle finit par être capable de générer un contenu qui peut refléter fidèlement des œuvres protégées par le droit d’auteur », a déclaré Marr. « Le paysage juridique dans ce domaine est actuellement parcouru par de nombreuses poursuites en cours, ce qui fait qu’il est trop tôt pour préciser définitivement comment les problèmes de droit d’auteur seront résolus. »

La capacité de l’innovation à produire des résultats hautement convaincants est peut-être plus inquiétante. les deepfakes, soulevant de graves problèmes d’éthique et de confidentialité, soulignant la nécessité d’un examen attentif et d’une réglementation, a déclaré Marr.

Dan Faggella, créateur et chercheur principal. d’Emerj Artificial Intelligence, a mené une discussion sur les deep fakes aux Nations Unies il y a cinq ans. À l’époque, il soulignait que, quelles que soient les mises en garde concernant les contrefaçons profondes, « les gens voudront croire ce qu’ils veulent croire ».

Il y a cependant un facteur plus important à considérer : bientôt, les gens auront la possibilité de vivre dans des mondes genAI où ils attachent un casque et demandent à un modèle d’IA de développer un monde distinct pour satisfaire les exigences psychologiques, qu’il s’agisse de relaxation, d’humour, d’action, le tout construit par programme spécifiquement pour cet utilisateur.

« Et ce que le créateur va pouvoir faire, c’est évoquer pour moi des expériences visuelles, audio et éventuellement haptiques qui sont formées sur les [expériences précédentes] en utilisant le casque », a déclaré Faggella. « Nous devons penser à cela d’un point de vue politique ; dans quelle mesure pouvons-nous permettre cette évasion ? »

Conceptions texte-vidéo peut également créer des applications qui évoquent des expériences d’IA pour aider les gens à être efficaces, les informer et les maintenir concentrés sur leur travail crucial. « Peut-être les former à devenir de fantastiques représentants commerciaux, éventuellement les aider à composer du bon code et à faire beaucoup plus de codage qu’ils ne peuvent le faire aujourd’hui », a-t-il déclaré.

Sora d’OpenAI et l’IA multimodale Gemini 1.5 de Google. la conception sont pour l’instant des tâches d’étude de recherche internes utilisées uniquement par un groupe particulier d’universitaires tiers et d’autres vérifiant l’innovation.

Contrairement au populaire ChatGPT d’OpenAI, a déclaré Google, les utilisateurs peuvent alimenter son moteur de recherche de manière beaucoup plus approfondie. une plus grande quantité d’informations pour obtenir des actions plus précises.

Bien que Sora et Gemini 1.5 soient actuellement des projets d’étude de recherche internes, ils présentent des exemples réels et des détails complets, composés de vidéos, d’images, de gifs et de documents d’étude de recherche associés. .

En plus du moteur d’IA multimodal Gemini de Google, Sora a été précédé par un certain nombre de conceptions de conversion texte-vidéo, notamment Emu de Meta, Gen-2 de Runway et Steady Video Diffusion de Stability AI.

Steady Diffusion/Wikipedia

La procédure de débruitage utilisée par Stable Diffusion. La conception génère des images en supprimant de manière itérative les sons aléatoires jusqu’à ce qu’un nombre configuré d’étapes soit atteint ; il est assisté par un encodeur de texte CLIP pré-entraîné sur les idées ainsi que sur le mécanisme d’attention, développant une image illustrant une représentation du concept qualifié.

Google a 2 projets de recherche simultanés faisant progresser ce qu’un représentant a appelé « la génération vidéo moderne ». dessins. » Ces tâches sont Lumiere et VideoPoet.

Lancée plus tôt ce mois-ci, Lumiere est l’innovation de génération vidéo la plus avancée de Google ; il offre 80 images par seconde, contre 25 images par seconde chez des concurrents tels que Steady Video Diffusion.

« Gemini, développé pour traiter les informations et automatiser les tâches, offre une intégration transparente des méthodes dès le départ, ce qui peut potentiellement rendre il est plus intuitif pour les utilisateurs qui recherchent une expérience simple et axée sur les tâches », a déclaré Marr. « D’un autre côté, la technique de superposition de GPT-4 permet une amélioration plus granulaire des capacités progressivement, offrant polyvalence et profondeur dans les capacités conversationnelles et la génération de contenu. »

Dans une comparaison directe, Sora apparaît plus efficace que les modèles de génération vidéo de Google. Alors que Lumiere de Google peut produire une vidéo avec une résolution de 512 × 512 pixels, Sora prétend atteindre des résolutions allant jusqu’à 1920 × 1080 pixels ou une qualité HD.

Les vidéos de Lumiere sont limitées à environ 5 secondes ; Les vidéos de Sora peuvent durer jusqu’à une minute.

De plus, Lumiere ne peut pas créer de vidéos composées de nombreux plans, contrairement à Sora. Sora, comme d’autres conceptions, est également apparemment efficace dans les travaux d’édition vidéo tels que la création de vidéos à partir d’images ou d’autres vidéos, l’intégration de composants de diverses vidéos et l’extension de vidéos dans le temps.

 » Dans la compétition entre les développeurs d’OpenAI Sora et des startups comme Runway AI, la maturité peut offrir des avantages en termes de fiabilité et d’évolutivité », a déclaré Marr. « Alors que les start-ups apportent généralement des méthodes innovantes et de la dextérité, OpenAI, avec un financement important de sociétés comme Microsoft, sera en mesure de rattraper son retard et potentiellement de se surpasser rapidement. »

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici