Text-to-speech : explorer le côté bavard de l'IA générative

La vérification d’un système informatique n’est pas une nouveauté ; c’est la réalité des applications de synthèse vocale d’aujourd’hui. Avoir un système informatique vérifié pour vous d’une manière suffisamment réaliste pour être écouté l’est. Et puis avoir la possibilité d’ajouter votre propre voix au monde numérique de la synthèse vocale pousse les possibilités à un autre niveau. Des voix réalistes générées par ordinateur permettent plusieurs applications pour l’organisation. Et les marques s’empressent de vérifier le côté bavard d’avoir des ressources audio numériques haut de gamme.

Si vous n’avez pas entendu d’audio de synthèse vocale généré par ordinateur depuis un moment, cela pourrait valoir la peine d’écouter le plus algorithmes récents à l’œuvre. Quelques-uns des exemples les plus incroyables de synthèse vocale que cet auteur a entendus peuvent être découverts sur la page d’exemples du concepteur d’IA audio générative Suno.ai.

La tendance de la voix synthétique amplifie l’image de marque sonore

La connaissance approfondie et, plus récemment, les outils d’IA générative ont déversé du carburant sur la synthèse vocale et l’ordinateur qui en résulte -l’audio parlé est maintenant étrangement crédible. Sous le capot, il se passe beaucoup de choses pour transformer les entrées de texte en mots parlés qui ne font plus de bruit robotique et sont beaucoup plus attrayants pour les gens.

Et le remboursement commence par un couplage beaucoup plus important dans le cerveau de l’auditeur quand les voix sont bien comprises. « Un tel couplage neuronal diminue considérablement dans le manque de communication, comme lors de l’écoute d’une langue étrangère inintelligible », écrivent les scientifiques Greg J. Stephens, Lauren J. Silbert et Uri Hassonc, basés à l’Université de Princeton, aux États-Unis, dans une étude surnommée Le couplage neuronal locuteur-auditeur sous-tend une communication réussie [PDF]

Plus de limitations sur les applications de synthèse vocale

L’accès à des voix numériques de haute qualité permet aux entreprises d’engager le public dans une manière qui n’était tout simplement pas possible au début de la parole générée par ordinateur. Les premières voix numériques ont leurs origines dans des conceptions en silicium telles que les puces de décodage LPC10 du processeur de synthèse vocale (VSP) produites par Texas Instruments vers la fin des années 1970 et dans les années 1980. Et la sortie extrêmement compressée, nécessaire en raison des contraintes de mémoire, a limité le marché à des applications de niche spécifiques.

Aujourd’hui, les choses ne pourraient pas être plus différentes, et les modèles de chant sont suffisamment convaincants pour superposer les erreurs narratives dans l’audio enregistré. Et il existe de nombreuses vidéos Youtube qui montrent comment des solutions rapides peuvent être apportées à l’aide d’applications de synthèse vocale. Dans un avenir pas trop lointain, les conteurs n’auront peut-être plus besoin de microphones dès que leurs qualités vocales auront été enregistrées et transformées en une conception numérique.

La fable d’Ésope « Le vent du nord » and the Sun’ est bien connu linguistiquement car les lecteurs auront prononcé la plupart des phonèmes anglais au moment où ils auront réellement lu jusqu’à la fin du passage. « Le garçon qui pleurait le loup » – deux fois plus long que « Le vent du nord et le soleil », mais avec moins de répétitions de mots – est un autre texte d’analyse linguistique populaire. Et ces exemples expliquent comment fonctionnent les algorithmes de clonage de voix et de synthèse vocale.

En enregistrant l’audio parlé, les utilisateurs, qui souhaitent pouvoir recréer leur propre voix, fournissent un ensemble de formation riche en phonèmes (les fondations sonores pour la construction des mots parlés). Les artefacts indésirables et le son de fond peuvent être éliminés grâce au prétraitement avant d’effectuer la division audio et l’extraction des caractéristiques.

Alternativement, les algorithmes peuvent être formés sur des enregistrements audio existants et comparés avec des enregistrements pour recueillir des connaissances sur la façon dont différents sons s’associent à divers mots. Et lorsque la conception a été développée, il s’agit alors d’appliquer le traitement du langage naturel pour faire correspondre l’entrée de synthèse vocale saisie avec ses composants audio correspondants.

Applications de synthèse vocale pour les entreprises

De même, montrant les différentes manières dont chaque peuple prononce nos mots, les phonèmes afficheront des variations en ce qui concerne leur spectre de fréquences, leur synchronisation et l’énergie du signal, lorsqu’ils sont prononcés. Et aujourd’hui, il existe des centaines de conceptions de synthèse vocale parmi lesquelles les utilisateurs peuvent choisir, composées de voix de célébrités telles que Snoop Dogg et Gwyneth Paltrow, et – comme indiqué – le choix de cloner leur propre voix.

Compte tenu des applications populaires, et après avoir discuté de Snoop Dogg et Gwyneth Paltrow, il convient de souligner Speechify, qui inclut les stars mentionnées précédemment dans sa liste numérique de voix. Parmi les investisseurs figurent Richard Branson, et la synthèse vocale de l’entreprise pour les applications professionnelles est, selon le site Speechify, approuvée par des groupes d’Apple et de Google.

Utilisateurs d’organisations souhaitant créer de l’audio parlé pour la formation des vidéos, créer des livres audio ou faire lire des fichiers et d’autres informations commerciales par des voix sensées et à consonance humaine, plusieurs options logicielles sont à prendre en compte.

NaturalReader, qui s’exécute directement à partir du navigateur Internet, dispose d’un niveau totalement gratuit et alternatives payantes. Et l’application de synthèse vocale prend en charge une longue liste de langues parlées, y compris des variantes telles que le français (Canada), le portugais (Brésil) et d’autres. De plus, en testant l’application de synthèse vocale pour cet article, vous pouvez ajouter un accent à l’audio parlé, par exemple en sélectionnant une voix allemande pour extraire un document composé en anglais.

Microsoft réduit le temps de clonage de la voix à 3 secondes

Les poids lourds de la voix numérique tels que Nuance et IBM disposent d’applications de synthèse vocale efficaces pour le service. Et une alternative ici est que les entreprises développent des voix de marque – des propriétés numériques que les auditeurs associeront aux entreprises et aux articles. L’audio de qualité supérieure est une grande nouvelle dans le marketing, et l’acquisition par WPP de la société de marque sonore Amp en avril 2023, élargissant l’offre de style d’IA générative du géant international de la publicité, met en évidence le modèle.

Il existe des text-to- conceptions d’IA de la parole auxquelles penser aussi. Pour en revenir à Suno.ai, qui a rendu les poids de conception de son algorithme texte-audio basé sur un transformateur (BARK) facilement disponibles sur le référentiel d’outils d’IA et d’intelligence artificielle Huggin Face, il est remarquable de vérifier les possibilités ouvertes par l’étude de recherche la plus récente.

Essayez par vous-même la synthèse vocale par IA générative open source

Précédemment sur TechHQ, nous avons expliqué comment Airbnb pour les GPU aide à réduire le coût d’exécution des conceptions d’IA génératives. Et BARK de Suno.ai fait partie des options prédéfinies proposées sur l’API Beast, ce qui permet aux utilisateurs de voir facilement ce que la synthèse vocale générative AI peut faire.

Démonstration de code : Suno Le modèle de synthèse vocale IA générative BARK de .ai a une page de démonstration qui permet aux utilisateurs d’essayer diverses invites et commandes pour voir ce qui est possible avec les outils d’étude de recherche de nouvelle génération.

Une autre alternative est de présenter BARK vous-même – par exemple, nous avons en fait fait fonctionner le système sur une instance GPU Google collab gratuite en utilisant le lien de démonstration facilement disponible sur la page GitHub de Suno.ai. Et si les applications de synthèse vocale professionnelles ressemblent à une boucle autour d’un parcours de course incroyable, avec des choix open source, les utilisateurs peuvent franchir les barrières et se déplacer totalement librement.

Les créateurs de BARK préviennent que la sortie de conception n’est pas censurée et est destiné à des fins d’étude de recherche. L’une des grandes distinctions de fonctionnalités est que BARK peut être invité à générer des bruits non vocaux tels que des rires, des soupirs, des halètements, des raclements de gorge et d’autres actions (les concepteurs en trouvent plus en approfondissant ce que la technologie peut) .

Et remarquablement, l’outil de synthèse vocale génératif de l’IA peut même chanter – parfois, au moins. Vous pouvez motiver BARK à être plus musical en plaçant des invites de texte dans des notes pour symboliser les paroles de la mélodie. Les autres aides pouvant être utilisées incluent [MALE] et [WOMAN] pour prédisposer le modèle aux locuteurs masculins ou féminins. Et BARK peut parler en hindi, japonais, coréen, russe, chinois et d’autres langues.

C’est une excellente liste de réalisations pour un secteur qui regorge de talents, et l’année n’est que 2023. Accrochez-vous les applications de synthèse vocale pour l’organisation décollent.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

Article précédent

Combien y a-t-il de fourmis dans le monde ? Pensez à des millions de milliards

Article suivant

Pour une durée limitée, obtenez une licence Windows 11 Pro complète pour seulement 23 $

Text-to-speech : explorer le côté bavard de l’IA générative

Plus de limitations sur les applications de synthèse vocale

Applications de synthèse vocale pour les entreprises

Essayez par vous-même la synthèse vocale par IA générative open source

LAISSER UN COMMENTAIRE Annuler la réponse

Catégories populaires

Le choix de la rédaction