lundi, 5 décembre 2022

Quel sera l’impact du modèle Whisper d’OpenAI sur les applications d’IA ?

La semaine dernière, OpenAI a publié Whisper, un outil d’apprentissage en profondeur open source modèle de reconnaissance vocale. Les tests d’OpenAI sur Whisper montrent des résultats prometteurs dans la transcription audio non seulement en anglais, mais aussi dans plusieurs autres langues.

Les développeurs et les chercheurs qui ont expérimenté Whisper sont également impressionnés par ce que le modèle peut faire. Cependant, ce qui est peut-être tout aussi important, c’est ce que la publication de Whisper nous dit nous sur l’évolution de la culture dans la recherche sur l’intelligence artificielle (IA) et le type d’applications auxquelles nous pouvons nous attendre à l’avenir.

Un retour à l’ouverture ?

OpenAI a été très critiqué pour ne pas avoir ouvert ses modèles. GPT-3 et DALL-E, deux des modèles d’apprentissage en profondeur les plus impressionnants d’OpenAI, ne sont disponibles que derrière des services d’API payants, et il n’y a aucun moyen de les télécharger et de les examiner.

En revanche, Whisper a été publié en tant que modèle open source pré-entraîné que tout le monde peut télécharger et exécuter sur la plate-forme informatique de son choix. Ce dernier développement intervient alors que les derniers mois ont vu une tendance à une plus grande ouverture parmi les laboratoires commerciaux de recherche sur l’IA.

En mai, Meta a publié en open source OPT-175B, un grand modèle de langage (LLM) dont la taille correspond à GPT-3. En juillet, Hugging Face a publié BLOOM, un autre LLM open source à l’échelle GPT-3. Et en août, Stability.ai a publié Stable Diffusion, un modèle de génération d’images open source qui rivalise avec DALL-E d’OpenAI.

Les modèles open source peuvent ouvrir de nouvelles fenêtres pour effectuer des recherches sur des modèles d’apprentissage en profondeur et aider à créer des applications spécialisées.

Whisper d’OpenAI adopte la diversité des données

L’une des caractéristiques importantes de Whisper est la diversité des données utilisées pour l’entraîner. Whisper a été formé sur 680 000 heures de données supervisées multilingues et multitâches collectées sur le web. Un tiers des données d’entraînement est composé d’exemples audio non anglais.

« Whisper peut transcrire de manière robuste la parole en anglais et fonctionner à un niveau de pointe avec environ 10 langues – ainsi que la traduction de ces langues vers l’anglais », a déclaré un porte-parole d’OpenAI à VentureBeat dans des commentaires écrits.

Bien que l’analyse des langues autres que l’anglais par le laboratoire ne soit pas exhaustive, les utilisateurs qui l’ont testée rapportent des résultats solides.

Encore une fois, la diversité des données est devenue une tendance populaire dans la communauté des chercheurs en IA. BLOOM, sorti cette année, a été le premier modèle de langage à prendre en charge 59 langues. Et Meta travaille sur un modèle qui prend en charge la traduction dans 200 langues.

L’évolution vers une plus grande diversité de données et de langues garantira qu’un plus grand nombre de personnes pourront accéder aux progrès de l’apprentissage en profondeur et en bénéficier.

Exécutez votre propre modèle

Comme Whisper est open source, les développeurs et les utilisateurs peuvent choisir de l’exécuter sur la plate-forme de calcul de leur choix, qu’il s’agisse de leur ordinateur portable, de leur poste de travail de bureau, de leur appareil mobile ou de leur serveur cloud. OpenAI a publié cinq tailles différentes de Whisper, chacune échangeant la précision contre la vitesse proportionnellement, le plus petit modèle étant environ 60 fois plus rapide que le plus grand.

« Étant donné que la transcription utilisant le plus grand modèle Whisper s’exécute plus rapidement qu’en temps réel sur un [Nvidia] A100 [GPU], je pense qu’il existe des cas d’utilisation pratiques pour exécuter des modèles plus petits sur des systèmes mobiles ou de bureau, une fois que les modèles sont correctement portés sur les environnements respectifs », a déclaré le porte-parole d’OpenAI. « Cela permettrait aux utilisateurs d’exécuter la reconnaissance vocale automatique (ASR) sans les problèmes de confidentialité liés au téléchargement de leurs données vocales dans le cloud, tout en épuisant davantage la batterie et en augmentant la latence par rapport aux solutions ASR alternatives. »

Les développeurs qui ont essayé Whisper sont satisfaits des opportunités qu’il peut offrir. Et cela peut poser des problèmes aux services ASR basés sur le cloud qui ont été la principale option jusqu’à présent.

« À première vue, Whisper semble être bien meilleur que les autres produits SaaS [logiciel en tant que service] en termes de précision », a déclaré l’expert MLops Noah Gift à VentureBeat. « Puisqu’il est gratuit et programmable, cela signifie très probablement un défi très important pour les services qui n’offrent que la transcription. »

Gift a exécuté le modèle sur son ordinateur pour transcrire des centaines de fichiers MP4 allant de 10 minutes à plusieurs heures. Pour les machines équipées de GPU Nvidia, il peut être beaucoup plus rentable d’exécuter le modèle localement et de synchroniser les résultats avec le cloud, déclare Gift.

« De nombreux créateurs de contenu qui ont une certaine expérience en programmation et qui n’utilisaient pas initialement les services de transcription en raison du coût adopteront immédiatement Whisper dans leur flux de travail », a déclaré Gift.

Gift utilise désormais Whisper pour automatiser la transcription dans son flux de travail. Et avec la transcription automatisée, il a la possibilité d’utiliser d’autres modèles de langage open source, tels que des résumés de texte.

« Les créateurs de contenu, des indépendants aux grands studios de cinéma, peuvent utiliser cette technologie et elle a la possibilité d’être l’un des outils à un point de basculement dans l’ajout de l’IA à nos flux de travail quotidiens », a déclaré Gift. « En faisant de la transcription une marchandise, la véritable révolution de l’IA peut maintenant commencer pour ceux qui travaillent dans l’espace de contenu – des YouTubers aux actualités en passant par les longs métrages (tous les secteurs dans lesquels j’ai travaillé professionnellement). »

Créez vos propres applications

Il existe déjà plusieurs initiatives visant à faciliter l’utilisation de Whisper pour les personnes qui n’ont pas les compétences techniques nécessaires pour configurer et exécuter des modèles de machine learning. Un exemple est un projet conjoint du journaliste Peter Sterne et de l’ingénieur GitHub Christina Warren pour créer une « application de transcription gratuite, sécurisée et facile à utiliser pour les journalistes » basée sur Whisper.

En attendant, les modèles open source comme Whisper ouvrent de nouvelles possibilités dans le cloud. Les développeurs utilisent des plates-formes telles que Hugging Face pour héberger Whisper et le rendre disponible via des appels d’API.

« Il faut 10 minutes à une entreprise pour créer son propre service de transcription< /a> propulsé par Whisper, et commencez à transcrire des appels ou du contenu audio même à grande échelle », a déclaré Jeff Boudier, responsable de la croissance et des produits chez Hugging Face, à VentureBeat.

Il existe déjà plusieurs services basés sur Whisper sur Hugging Face, y compris un  Application de transcription YouTube.

Ou fine- adapter les applications existantes à vos besoins

Et un autre avantage des modèles open source comme Whisper est le réglage fin : le processus consistant à prendre un modèle pré-entraîné et à l’optimiser pour une nouvelle application. Par exemple, Whisper peut être affiné pour améliorer les performances ASR dans un langage qui n’est pas bien pris en charge dans le modèle actuel. Ou il peut être affiné pour mieux reconnaître les termes médicaux ou techniques. Une autre direction intéressante pourrait être d’affiner le modèle pour d’autres tâches que l’ASR, telles que la vérification du locuteur, la détection d’événements sonores et la détection de mots clés.

« Il pourrait être fascinant de voir où cela mène », a déclaré Gift. « Pour les marchés verticaux très techniques, une version affinée pourrait changer la donne dans la façon dont ils sont capables de communiquer des informations techniques. Par exemple, cela pourrait-il être le début d’une révolution dans la médecine, car les médecins de soins primaires pourraient enregistrer leur dialogue, puis éventuellement l’automatiser dans des systèmes d’IA qui diagnostiquent les patients ? »

« Nous avons déjà reçu des commentaires selon lesquels vous pouvez utiliser Whisper en tant que service plug-and-play pour obtenir de meilleurs résultats qu’auparavant », a déclaré Philipp Schmid, responsable technique chez Hugging Face, à VentureBeat. «Combiner cela avec un réglage fin du modèle contribuera à améliorer encore les performances. Un réglage particulièrement fin pour les langues qui n’étaient pas bien représentées dans l’ensemble de données de pré-entraînement peut améliorer considérablement les performances. »

La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur les technologies d’entreprise transformatrices et d’effectuer des transactions. Découvrez nos Briefings.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici