samedi, 20 avril 2024

NVIDIA peut-il réinventer la technologie vocale pour plus de possibilités ?

L’innovation vocale continue de voir de plus en plus de développements y entrer car les organisations trouvent plus de cas d’utilisation où la technologie peut être exécutée. L’IA conversationnelle, qui est un élément clé de la technologie vocale, ouvre de nouveaux horizons non seulement dans le monde du support client, mais aussi dans une variété d’industries.

La biométrie vocale est-elle l’élément distinctif dont les chatbots AI ont besoin ?

Aujourd’hui, l’IA conversationnelle permet à la technologie vocale d’évaluer la biométrie de la voix. Non seulement il peut identifier et comprendre ce qu’une personne dit, mais les outils d’innovation vocale commencent également à prendre des accents. L’innovation peut ramasser des mots et les diviser en sections d’un certain nombre de tons, qui sont évalués pour comprendre les modèles vocaux.

Le marché mondial de l’IA conversationnelle devrait atteindre 13,9 milliards de dollars américains d’ici 2025. L’Amérique du Nord devrait détenir la plus grande taille de marché en raison de la demande croissante d’initiatives de fidélisation de la clientèle améliorées. Au même moment, de plus en plus d’acteurs émergent sur le marché, en particulier des start-ups plus petites qui permettent d’utiliser davantage d’IA conversationnelle.

La réponse de NVDIA à la technologie vocale Alors qu’il y a encore beaucoup de critiques sur la précision de l’innovation vocale et ses contraintes fondamentales, des entreprises comme NVIDIA développent de tout nouveaux outils et applications pour l’idéaliser. NVIDIA Riva est un package défini par logiciel entièrement accéléré pour la construction d’applications d’IA conversationnelles multimodales qui utilisent un pipeline de connaissances approfondies de bout en bout.

Pour les concepteurs, Riva leur permet d’affiner facilement l’état de L’art modélise leurs informations pour acquérir une compréhension beaucoup plus approfondie de leur contexte particulier et s’améliorer pour fournir des services en temps réel de bout en bout qui s’exécutent en moins de 300 millisecondes (ms) et offrent un débit sept fois supérieur sur les GPU par rapport aux CPU.

Selon Sid Sharma, responsable du marketing des articles de NVIDIA, application logicielle d’IA, Riva prévoit de fournir à l’avenir un service de synthèse vocale contrôlable pour aider les concepteurs à structurer des applications d’IA conversationnelles significatives. Il a décrit comment Riva fusionne la vision, l’audio et d’autres entrées d’unité de détection simultanément aux capacités fournies telles que les discussions multi-utilisateurs et multi-contextes dans des applications telles que les assistants virtuels, la diarisation multi-utilisateurs et les assistants de centre d’appels.

Bien que l’anglais soit la langue la plus courante, Sharma a décrit que chaque langue est vitale pour la publication d’applications d’IA conversationnelles à l’échelle mondiale. « En tant que premier pas vers l’égalisation de la technologie vocale, NVIDIA s’est associé à Mozilla Common Voice. Nous nous préparons à proposer une IA conversationnelle dans la plupart des langues », a déclaré Sharma.

Il a ajouté que le text-to- La capacité vocale permet aux utilisateurs de diriger la voix de l’IA en personnalisant la hauteur, le ton et la prosodie, ce qui contribue également à produire une expérience d’impact vocal apaisante tout au long des discussions.

Biométrie et sécurité vocales

Alors que l’IA conversationnelle affine les applications d’innovation vocale, la biométrie vocale est de plus en plus demandée pour les fonctions d’authentification. Bien qu’il soit encore tôt avant que l’authentification vocale ne devienne courante, l’idée générale est que cela pourrait également changer la sécurité biométrique.

EDTECH

Comment l’IA, le ML fera progresser le système Ed-tech

Pour Sharma, tout dépend de la façon dont l’IA conversationnelle transforme les interactions avec les machines. Pour concrétiser cette vision, Sharma a déclaré qu’ils se concentrent actuellement sur l’avancement de la pointe de la compréhension de la parole et du langage, et ont également une variété d’initiatives dans l’ensemble de l’entreprise dans l’étude de la recherche et l’avancement avec les clients.

« Conférencier La reconnaissance est l’un de ces éléments des systèmes d’IA conversationnels et nous avons en fait publié quelques conceptions ouvertement dans le cadre de NeMo. Nous continuerons à travailler avec nos consommateurs et la communauté des concepteurs pour dessiner l’avenir de ces technologies », a décrit Sharma.

NeMo est une boîte à outils d’IA conversationnelle open source qui offre aux concepteurs un moyen simple et flexible de créer de nouvelles conceptions qui s’entraînent et s’affinent avec la meilleure efficacité sur les GPU NVIDIA. NeMo s’intègre aux principales bibliothèques d’IA conversationnelles open source telles que Hugging Face et Pytorch Lightning.

Au fur et à mesure que de plus en plus de lecteurs vocaux arrivent sur le marché, Shamra a souligné que NVIDIA propose de nombreuses innovations, plates-formes et options de base pour progresser l’avancée pour l’IA conversationnelle. « Pour les organisations qui souhaitent utiliser les innovations vocales, Riva permettra simplement à chaque entreprise de créer des services et des applications personnalisés et spécifiques à un domaine pouvant être exécutés sur toutes les plates-formes, de la périphérie au cloud », a déclaré Sharma.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici