jeudi, 18 avril 2024

La reconnaissance vocale est en plein essor, mais seulement de manière sélective

Moins de deux ans plus tôt, les clients potentiels immédiats pour la reconnaissance vocale n’étaient pas géniaux. Les services de dictée numérique n’en étaient qu’à leurs balbutiements – coûtant des milliers de dollars à l’achat, nécessitant des heures de formation des utilisateurs et offrant une expérience client qui était, disons, variable. Avance rapide jusqu’à aujourd’hui et tout a changé – un temps énorme.

Simplement l’année dernière, Nuance – un leader sur le marché avec son article « Dragon Dictate » dans les années 1990, une proposition de valeur qui était basé sur l’accélération du transfert des mots prononcés sur la page rendue numériquement – a été acquis par Microsoft pour près de 20 milliards de dollars. Et en fouillant dans les informations, vous pouvez voir pourquoi. Au fil du temps, Nuance a trouvé un public extrêmement reconnaissant pour ses produits de reconnaissance vocale – pas des dactylographes, mais des professionnels de la santé. Et, en prenant les soins de santé comme notre tout premier exemple, les économies s’accumulent vraiment. Subtlety publie que les utilisateurs de son article « Dragon Medical One » – une application compagnon de fichiers pour les cliniciens – économisent généralement environ deux heures par personne et par quart de travail, ce qui permet aux professionnels de la santé d’investir plus de temps avec les clients et de réduire la durée des travaux liés aux documents en deux.

Conversation bidirectionnelle

Selon la firme américaine, ses L’option vocale est cinq fois plus rapide que la frappe et est utilisée par plus d’un demi-million de cliniciens. Et ce n’est pratiquement pas une prise de notes automatique, les médecins peuvent interroger verbalement les dossiers des patients pour reconnaître les besoins en médicaments, par exemple, et après cela, encore une fois, en utilisant la voix, passer des commandes et définir des rappels pour les appels. Nuance affirme que son moteur de reconnaissance fournit une précision de 99 %, ce qui est long pour discuter de son succès. Et cette fiabilité a en fait débloqué des usages dans d’autres endroits comme dans le secteur financier.

Le graphène détecte des perspectives dans les technologies médicales et les diagnostics

Dans le secteur bancaire, l’entreprise a en fait coordonné avec le groupe britannique Nat West, une société de services monétaires à 19 millions de clients à travers 12 marques, pour aider à réduire la fraude. Grâce à l’innovation biométrique vocale – dérivée de la reconnaissance vocale – le groupe a été alerté de plus de 23 000 occurrences possibles d’escroqueries. Et les économies s’ajoutent à un retour sur investissement de plus de 300 %, ce qui facilite la conversation entre les responsables et leurs services acquéreurs.

La possibilité de parcourir les informations vocales offre des informations au-delà de la sécurité, et les spécialistes en gestion McKinsey & Business offrent des informations sur ce front. L’utilisation de méthodes de traitement du langage naturel pour les données du centre d’appels peut aider à une meilleure prévision de l’organisation en suivant quels appels appartiennent à quelle catégorie, par exemple, les réservations, les annulations ou les modifications des offres. Les analystes de McKinsey estiment que l’utilisation d’outils automatisés d’analyse de la parole peut permettre aux opérateurs de réaliser des économies de l’ordre de 20 à 30 %, par rapport à l’échantillonnage manuel des appels, qui, plutôt que de parcourir toutes les interactions avec les clients, ne capture très probablement des informations que sur 2 % , ou moins, des appels reçus. Ils font également un point fantastique sur la qualité de l’enregistrement sur bande, notant qu’un mauvais son n’affecte pas simplement les clients et les opérateurs – cela augmente le nombre d’erreurs commises par les services de reconnaissance vocale. Une autre raison d’investir dans des casques de grande qualité pour votre personnel (les « communications cristallines » faisaient partie des 5 projets informatiques d’entreprise de TechHQ pour actualiser la méthode en 2022).

La sécurité biométrique est utile, mais simple à usurper

Les informations et les économies de temps offertes par la reconnaissance vocale ont en fait scellé l’accord sur la question de savoir si les consommateurs doivent acheter des services, du moins pour les entreprises opérant sur les marchés anglophones. L’étude d’ensembles d’informations de la taille requise pour établir un système de reconnaissance vocale sophistiqué est coûteuse et représente un gros investissement financier. Il est indiqué que les développeurs ont approfondi des langues plus largement parlées telles que l’anglais et le mandarin, ce qui a permis des gains d’efficacité remarquables, bien que spécifiques à la langue. Même il y a 5 ans, des chercheurs basés à l’Université de Stanford et à l’Université de Washington traitant avec des professionnels de Baidu Research, ont découvert que « la parole était 2,9 fois plus rapide que la frappe pour l’anglais et le chinois mandarin » – pour la saisie de texte de fonction générale à l’aide de smartphones.

Ressources linguistiques inégales

Composant dans VentureBeat, Ricardo Baeza-Yates, enseignant à l’Institut d’IA expérientielle de la Northeastern University aux États-Unis, remarque que les ressources linguistiques inégales sont parmi les principales restrictions des modèles de langage en basic. En pensant au texte et en utilisant Wikipédia comme un ensemble de données pratiques, Baeza-Yates note que sur environ 7 100 langues actuellement parlées, seules 312 ont des entrées actives sur le site, qui est l’une des destinations les plus populaires en ligne. La fraction représente simplement 4,4% de toutes les langues et il ajoute que sur ces 312 entrées actives, seules 34 sont liées à plus d’un million de pages. Les conceptions de langage vont de pair avec la reconnaissance vocale, car elles aident en arrière-plan, aidant à traduire – avec des recommandations acoustiques – le candidat le plus probable pour les fonctionnalités qui autrement confondraient les systèmes.

Évolué IA et questions d’escalade en direct

Il existe des solutions de contournement pour prendre en charge des langues supplémentaires, comme Julien Salinas, directeur de l’innovation chez NLP Cloud (une société de technologie française proposant des API pour aider les entreprises à tirer parti des avancées du langage des fabricants sachant)– fait remarquer. L’un des hacks consiste à utiliser la traduction, qui a une assistance pour de nombreuses langues, même obscures et en voie de disparition (Woolaroo de Google identifie les objets dans les images et les traduit dans les langues indigènes).

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici