vendredi, 19 avril 2024

Pindrop présente trois articles de recherche sur la biométrie vocale et la reconnaissance vocale à l’ICASSP

Trois documents d’étude de recherche de Pindrop ont été publiés lors de la Conférence internationale sur l’acoustique, la parole et le traitement du signal (ICASSP) de 2022, et suggèrent la direction des efforts de l’entreprise pour innover davantage avec la biométrie vocale et innovations en matière de reconnaissance vocale.

Le premier article est intitulé « Circulation Knowing for Age Evaluation from Speech ». Il explore une méthode variée d’évaluation de l’âge basée sur la biométrie vocale en utilisant un modèle de problème d’apprentissage de la circulation au lieu du modèle standard d’un problème de catégorie ou de régression. Le tout premier obstacle que les scientifiques de Pindrop ont trouvé avec l’apprentissage dispersé est que la recherche audio n’a pas d’ensembles de données étiquetés avec l’âge « apparent ».

Il a également découvert que la connaissance de la circulation validée pour l’estimation de l’âge du visage est toujours viable pour l’audio, suggérant qu’une variété d’âge de base peut être estimée à un intervalle de confiance en soi particulier. Il conclut que même si l’apprentissage dispersé est plus contraint que l’estimation de l’âge facial, il peut même surpasser les algorithmes de régression et de catégorie pour les conditions appariées et non appariées.

Le 2e article est intitulé « Speaker Embedding Conversion for Backward and Cross -Compatibilité des canaux.’ Il examine les services pour les problèmes de compatibilité entre les fournisseurs d’innovation d’authentification biométrique vocale qui ont migré leurs modèles vers des stratégies d’apprentissage en profondeur plus récentes. Le scientifique de Pindrop recommande une technique basée sur un réseau neuronal profond pour permettre une compatibilité inverse. Les résultats expérimentaux ont révélé que le DNN est capable de fournir une compatibilité d’intégration de fonctionnalités entre 2 systèmes de confirmation automatique du locuteur (ASV) avec une efficacité améliorée par rapport à un système de convertisseur standard, bien que l’intégration de fonction transformée ait été encore pire que les systèmes ASV traditionnels à faible FAR. variété. Les scientifiques déclarent qu’une extension de leur travail pourrait explorer l’étalonnage de la notation pour améliorer cette performance à une faible plage FAR.

Le troisième article est « Not beingwatched Model Adaptation for End-to-End ASR », et examine un moyen d’améliorer les systèmes de transcription de reconnaissance automatique de la parole (ASR) qui se battent souvent avec des conditions de test de train incompatibles comme les centres d’appels qui doivent tenir compte d’aspects tels que les accents et la qualité audio de la voix. Les scientifiques de Pindrop proposent d’utiliser des informations dans le domaine pour se débarrasser de l’exigence d’annotations humaines en utilisant la relation entre le taux d’erreur de mot (WER) et la perte CTC (‘Connectionist Temporal Classification’, une mesure de positionnement) d’une part , et le WER et la confiance basée sur le rapport de probabilité (PRC) d’autre part.

Pour résoudre ce problème, le groupe de recherche a proposé un moyen rentable d’améliorer la précision des systèmes ASR en utilisant l’in- données de domaine sans avoir besoin d’annotations humaines coûteuses. Cela a été rendu possible en vérifiant la relation entre le taux d’erreurs de mots (WER) et la perte de classification temporelle connexionniste, et le WER et la confiance basée sur le rapport de probabilité (PRC). Il a constaté que le WER pouvait être réduit de 8 % en termes absolus sans orientation, ce qui lui permettait de s’adapter à des conditions sous-optimales.

Pindrop affirme que l’étude de recherche est spéculative et ne montre pas l’efficacité de ses éléments.

D’autres recherches récentes dans le domaine de la biométrie vocale consistent en des idées sur la façon de traiter les deepfakes vocaux et une technique de détection constante de la vivacité sur les appareils intelligents.

La partie de discussion en ligne sur l’article L’ICASSP se termine cette semaine, l’événement en personne se déroulant à Singapour du 22 au 27 mai.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici