vendredi, 29 mars 2024

Assistants numériques : les réseaux de neurones stimulent la croissance de l’IA vocale

En ce qui concerne les grands modèles de technologie, les applications vocales occupent définitivement le haut de la liste. Les entreprises ont fait d’excellents progrès dans l’utilisation de la technologie vocale comme outil d’authentification. Dans les soins de santé, les services de reconnaissance vocale rationalisent les flux de travail et permettent aux cliniciens d’économiser des heures d’administration. Et une troisième pièce remarquable du puzzle est la montée en puissance de l’IA vocale pour produire des assistants numériques innovants et extrêmement ajustables – une technologie qui trouve son origine dans une application logicielle de requête par chant/fredonnement pour les appareils intelligents.

L’avenir basé sur la voix

« Lorsque nous sommes sortis du mode furtif en 2015, nous avons compris que notre innovation pouvait faire bien plus », a déclaré James Hom, directeur produit et co-fondateur de SoundHound à TechHQ. « Nous avons constamment eu une vision selon laquelle les individus pourraient parler à leurs appareils et nous avons en fait investi beaucoup de temps pour nous assurer que nos modèles sont robustes. » Aujourd’hui, tout comme Hom l’avait prévu, l’innovation de SoundHound a fini par devenir une plate-forme pour une large gamme d’applications vocales.

Dans l’automobile, les ingénieurs logiciels travaillent avec les équipementiers pour développer des assistants vocaux beaucoup plus précis qui peuvent fournir des informations aux automobilistes et aux autres passagers sur la base de requêtes vocales naturelles. Et les clients incluent Honda, Hyundai, Kia, Mercedes et Stellantis, qui possède Alfa Romeo, Chrysler, Jeep et Maserati, pour ne citer que quelques marques du groupe. L’utilisation de la voix pour accéder aux destinations et demander les détails de navigation signifie que les chauffeurs peuvent garder les mains sur le volant et les yeux sur la route devant eux. « La voix dans l’automobile est une évidence », a déclaré Hom.

Des conceptions d’IA puissantes sont saines pour la technologie vocale

En règle générale, les applications à commande vocale dépendent de deux -opération étape pour comprendre les questions parlées. La première – la reconnaissance automatique de la parole – consiste à comparer une série de phonèmes à un dictionnaire de prononciation. Dans la 2ème partie, le traitement du langage naturel est utilisé pour spécifier le sens des mots prononcés. Cette procédure prend du temps et n’offre pas constamment les résultats attendus par les utilisateurs. Pour améliorer cela, le groupe de SoundHound utilise plutôt une architecture de réseau neuronal pour mapper les informations de série d’entrée (la demande vocale) dans les données de séquence de sortie (une demande structurée). La méthode fournit une méthode efficace pour séparer l’intention des variables dans une requête parlée. Par exemple, l’intention pourrait être « Dites-moi les conditions météorologiques » avec la variable « à Londres ».

Amélioration acoustique

Il existe également d’autres avantages, tels que la possibilité d’ajuster la conception afin qu’elle puisse bien fonctionner non seulement dans un cadre paisible, où les commandes vocales peuvent être clairement comprises, mais également dans des environnements bruyants. Les ingénieurs peuvent utiliser les informations du pilote pour compenser les caractéristiques audio de différentes voitures. Cela signifie également que la technologie est bien adaptée aux systèmes de commande de nourriture déployés dans les établissements de restauration très fréquentés – une autre application en augmentation pour l’IA vocale.

Hom explique que des cas d’utilisation peuvent même être intégrés – par exemple , un conducteur peut demander à l’assistant vocal embarqué de trouver des établissements de restauration à proximité et après cela, après en avoir sélectionné un, sélectionner des produits du menu en transmettant l’audio au système d’achat de nourriture automatisé à la destination finale. Les téléviseurs intelligents sont une autre application où l’IA vocale offre aux consommateurs un tout nouveau niveau d’intégration, ainsi qu’une meilleure compréhension du comportement des utilisateurs.

L’informatique de périphérie maintient la 5G sur la voie rapide et sur le pouls

« L’une des choses importantes dont nous sommes fiers est que nous travaillons en partenariat avec des personnes avec lesquelles nous travaillons », a déclaré Hom. Et cela inclut de donner aux clients l’accès à leurs informations. SoundHound peut fournir des panneaux de contrôle qui aident les clients à déterminer les fonctions que les utilisateurs demandent à leurs assistants vocaux. Un autre argument de vente populaire de la technologie est la capacité des entreprises à développer une voix de qualité supérieure. « Nous pouvons former notre produit entièrement à partir de zéro », ajoute Hom. « Il y a beaucoup de choix, consistant à utiliser l’apprentissage automatique pour donner des sons plus naturels. »

Approche intégrée

Voice AI a fait des progrès fantastiques dans la résolution des problèmes qui rendaient les progrès difficiles aux débuts de la reconnaissance vocale. Il y a une énorme différence entre demander « pas de mayo » et « mayo supplémentaire », par exemple, et les modèles nécessaires pour atteindre un point où ils pourraient enregistrer des détails cruciaux de manière fiable. Il y a en fait eu des progrès dans d’autres domaines également, tels que les options enracinées, qui ont ouvert la porte à la disponibilité d’assistants vocaux en périphérie.

Le conditionnement de l’IA vocale en tant que chipset autonome indique que les systèmes peuvent fonctionner dans des scénarios où la connexion à Internet peut être intermittente. De telles configurations utilisent la continuité de service – par exemple, dans les applications de véhicules lorsque les automobiles traversent un tunnel. De plus, les plans d’arbitrage actifs signifient que des informations en direct, telles que les conditions météorologiques ou les résultats sportifs, peuvent être collectées lorsque la connexion au cloud devient disponible. Un autre avantage des solutions de pointe est que les concepteurs ont la possibilité de créer des services totalement indépendants du cloud, qui peuvent fonctionner dans des environnements de production ou de soins de santé, par exemple. « Le calendrier de plus d’options de périphérie permettra aux organisations de conserver et de protéger les données sensibles localement, ce qui pourrait aider les marques à renforcer la confiance des clients », a commenté Hom.

L’intégration des clients implique également de rendre les solutions facilement disponibles dans plusieurs langues. « Le moteur de base est indépendant de la langue, mais il y a une partie dépendante de la langue, où notre équipe de linguistes et d’autres experts convient », a déclaré Hom. En 2022, la plate-forme de SoundHound prend en charge 25 langues et l’entreprise vise à inclure plus de 100 langues et variantes dans le cadre des avancées futures.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici