samedi, 20 avril 2024

Qu’est-ce que le traitement automatique du langage naturel ?

Enseigner aux systèmes informatiques à donner un sens au langage humain est depuis longtemps un objectif des chercheurs en informatique. Le langage naturel que les individus utilisent lorsqu’ils se parlent est complexe et profondément dépendant du contexte. Alors que les humains peuvent comprendre instinctivement que divers mots sont prononcés à la maison, au travail, à l’école, dans un magasin ou dans une structure religieuse, aucune de ces distinctions n’apparaît à un algorithme de système informatique.

Au cours des décennies de recherche, les chercheurs en systèmes experts (IA) ont développé des algorithmes qui commencent à atteindre un certain niveau de compréhension. Bien que les appareils ne maîtrisent peut-être pas quelques-unes des subtilités et de nombreuses couches de suggestion qui prévalent, ils peuvent comprendre suffisamment de points saillants pour être pratiquement utiles.

Les algorithmes qui relèvent du « traitement du langage naturel (TAL) » sont déployés dans les rôles de l’industrie et des maisons. On leur fait maintenant suffisamment confiance pour faire partie intégrante du service à la clientèle, de l’entretien et des fonctions domestiques. Les appareils d’entreprises comme Google ou Amazon écoutent régulièrement et répondent aux questions lorsqu’ils sont adressés avec le meilleur mot déclencheur.

Comment les algorithmes sont-ils développés ?

Les méthodes mathématiques sont un mélange de structure rigide basée sur des règles et de possibilités polyvalentes. Les méthodes structurelles développent des conceptions d’expressions et de phrases similaires aux diagrammes souvent utilisés pour enseigner la grammaire aux enfants d’âge scolaire. Ils suivent exactement les mêmes règles que celles trouvées dans les manuels et peuvent examiner de manière fiable la structure de gros blocs de texte.

Ces méthodes structurelles commencent à cesser de fonctionner lorsque les mots ont plusieurs significations. L’exemple canonique est l’utilisation du mot « mouches » dans la phrase : « Le temps vole comme une flèche, mais les fruits volent comme des bananes. » Les chercheurs en IA ont découvert que les approches statistiques peuvent comparer de manière fiable les différentes significations. Le mot « mouches » peut former un nom composé 95 % du temps, il suit le mot « fruit ».

Comment les scientifiques de l’IA élaborent-ils des conceptions ?

Certains chercheurs en intelligence artificielle ont en fait analysé de gros blocs de texte simples à découvrir sur le Web pour produire des modèles analytiques sophistiqués capables de comprendre comment le contexte modifie les significations. Un livre sur l’agriculture, par exemple, serait beaucoup plus susceptible d’utiliser « mouches » comme nom, tandis qu’un texte sur les avions l’utiliserait probablement comme verbe. Un livre sur le nettoyage des cultures, cependant, serait une difficulté.

Les algorithmes d’intelligence artificielle peuvent créer des modèles complexes et identifier des schémas susceptibles d’échapper à la détection humaine. Il est maintenant courant, par exemple, d’utiliser les statistiques complexes sur les choix de mots pris dans ces conceptions pour reconnaître l’auteur.

Certains algorithmes de traitement du langage naturel se concentrent sur la compréhension des mots prononcés captés par un microphone. Ces algorithmes de reconnaissance vocale font également confiance à des mélanges comparables de statistiques et de directives de grammaire pour comprendre le flux de phonèmes.

[Connexe : Comment le NLP surmonte l’embouteillage de documents dans les fils numériques]

Comment le traitement du langage naturel évolue-t-il ?

Maintenant que les algorithmes peuvent fournir un soutien utile et montrer des compétences de base, les scientifiques de l’IA se concentrent sur l’amélioration de la compréhension et l’ajout de plus de capacité à traiter des phrases plus complexes. Une partie de cette idée provient de la création de collections plus complexes de règles et de sous-règles pour mieux capturer la grammaire et la diction humaines. Dernièrement, cependant, l’accent est mis sur l’utilisation d’algorithmes d’apprentissage automatique sur de grands ensembles de données pour obtenir plus de détails statistiques sur la façon dont les mots pourraient être utilisés.

Les scientifiques de l’IA espèrent que de plus grands ensembles de données extraits de livres, de publications et de remarques numérisés pourront fournir des informations plus approfondies. Microsoft et Nvidia ont récemment révélé qu’ils avaient développé Megatron-Turing NLG 530B, un énorme modèle de langage naturel qui compte 530 milliards de critères configurés en 105 couches.

L’ensemble de formation se compose d’un mélange de fichiers collectés sur le Web ouvert et de nouvelles authentiques qui ont été organisées pour exclure la désinformation courante et les fausses nouvelles. Après déduplication et nettoyage, ils ont construit un ensemble d’entraînement avec 270 milliards de jetons composés de mots et de phrases.

L’objectif est maintenant d’améliorer la compréhension en lecture, la désambiguïsation du sens des mots et le raisonnement. Commencer à afficher ce que les êtres humains appellent un « jugement sain » s’améliore à mesure que les modèles captent des détails plus standard sur le monde.

Dans de nombreuses méthodes, les modèles et le langage humain commencent à co-évoluer et même à s’assembler. Au fur et à mesure que les humains utilisent des éléments de langage plus naturels, ils commencent à prévoir intuitivement ce que l’IA pourrait ou non comprendre et à choisir les meilleurs mots. Les IA peuvent s’adapter et la langue change.

Que créent les gamers établis ?

Google propose une suite sophistiquée d’API pour la traduction de sites Web, de mots parlés et de documents imprimés. Certains outils sont développés pour traduire des mots parlés ou imprimés sous forme numérique, et d’autres se concentrent sur la découverte d’une certaine compréhension du texte numérisé. Une API cloud, par exemple, effectuera une reconnaissance optique des caractères tandis qu’une autre transformera la parole en texte. Certains, comme l’API de langage naturel fondamentale, sont des outils généraux avec beaucoup d’espace pour l’expérimentation tandis que d’autres sont directement concentrés sur des tâches typiques comme le traitement de type ou la compréhension médicale. L’outil Document AI, par exemple, est proposé dans des versions personnalisées pour le secteur bancaire ou l’équipe d’approvisionnement.

Amazon utilise également une vaste gamme d’API en tant que services cloud pour trouver des détails importants dans des fichiers texte, des mots parlés ou des documents numérisés. Le noyau est Comprehend, un outil qui déterminera les expressions essentielles, les personnes et les croyances dans les fichiers texte. Une version, Comprehend Medical, se concentre sur la compréhension des détails médicaux dans les notes des médecins, les rapports d’essais scientifiques et d’autres dossiers médicaux. Ils fournissent également des modèles de découverte d’appareils pré-formés pour la traduction et la transcription. Pour certains cas d’utilisation courants, tels que l’exécution d’un chatbot pour le support client, AWS fournit des outils tels que Lex pour rationaliser l’inclusion d’un chatbot basé sur l’IA dans l’existence Web d’une entreprise.

Microsoft fournit également une large gamme d’outils dans le cadre des solutions cognitives Azure pour comprendre toutes sortes de langages. Leur Language Studio commence par des conceptions standard et vous permet de former de nouvelles versions à déployer avec leur Bot Framework. Certaines API comme Azure Cognative Search intègrent ces conceptions à d’autres fonctions pour rationaliser la conservation du site. Certains outils sont plus appliqués, tels que Material Mediator pour repérer un langage inapproprié ou Personalizer pour trouver de bonnes recommandations.

Que font les start-up ?

Un certain nombre de startups appliquent le traitement du langage naturel à des problèmes concrets avec des flux de revenus évidents. Grammarly, par exemple, crée un outil qui vérifie les fichiers texte pour signaler les problèmes grammaticaux provoqués par des problèmes tels que le temps verbal. La variante gratuite découvre les erreurs de base, tandis que l’abonnement premium de 12 $ offre un accès à des tests d’erreur plus avancés, tels que la reconnaissance du plagiat ou l’aide aux utilisateurs à adopter un ton plus confiant et courtois. La société a plus de 11 ans et est intégrée à la plupart des environnements en ligne où le texte peut être modifié.

SoundHound utilise une « plate-forme d’IA vocale » que d’autres producteurs peuvent inclure afin que leur article puisse réagir aux commandes vocales déclenchées par un « mot de réveil ». Il utilise des capacités de « parole-sens » qui analysent les demandes dans des structures d’information pour les combiner avec d’autres routines logicielles.

Shield souhaite aider les managers qui ont besoin de contrôler le texte sur leur lieu de travail. Leur logiciel de « conformité des communications » déploie des conceptions construites avec de nombreux langages pour la « surveillance des communications comportementales » afin de trouver des violations comme le délit d’initié ou le harcèlement.

Nori Health a l’intention d’aider les personnes malades à gérer les maladies chroniques avec des chatbots formés pour leur conseiller de se comporter de la meilleure façon pour atténuer la maladie. Ils commencent par les « thérapies numériques » pour les affections inflammatoires telles que la maladie de Crohn et la colite.

Smartling adapte les algorithmes de langage naturel pour faire un bien meilleur travail d’automatisation de la traduction, afin que les entreprises puissent faire un bien meilleur travail en fournissant des applications logicielles aux personnes qui parlent différentes langues. Ils fournissent un pipeline géré pour rationaliser le processus de production de documents multilingues et de documentation commerciale à une grande échelle multinationale.

Existe-t-il quelque chose que le traitement du langage naturel ne peut pas faire ?

Les algorithmes standard sont souvent efficaces pour répondre aux préoccupations de base, mais ils s’appuient fortement sur la connexion de mots-clés avec des réponses standard. Les utilisateurs d’outils comme Siri d’Apple ou Alexa d’Amazon découvrent rapidement quels types de phrases s’enregistreront correctement. Cependant, ils échouent souvent à comprendre les nuances ou à découvrir quand un mot est utilisé avec un sens secondaire ou tertiaire. Les structures de phrases de base peuvent fonctionner, mais pas les structures plus sophistiquées ou ornées avec des phrases secondaires.

Les moteurs de recherche sont devenus habiles à prévoir ou à comprendre si l’utilisateur désire un élément, une signification ou un pointeur vers un document. Cette catégorie, cependant, est largement probabiliste, et les algorithmes cessent de fonctionner pour l’utilisateur lorsque la demande ne suit pas le modèle analytique standard.

Certains algorithmes s’attaquent au problème inverse consistant à transformer des informations informatisées en un langage lisible par l’homme. Certains travaux d’information typiques, comme rendre compte de l’évolution du marché boursier ou expliquer le résultat d’un jeu vidéo, peuvent être largement automatisés. Les algorithmes peuvent même déployer une certaine subtilité qui peut être utile, en particulier dans des endroits avec une excellente profondeur analytique comme le baseball. Les algorithmes peuvent rechercher un score de boîte et trouver des modèles inhabituels comme un non-frappeur et les ajouter à l’article. Les textes, cependant, ont tendance à avoir un ton mécanique et les lecteurs commencent rapidement à s’attendre à des choix de mots qui relèvent de schémas prévisibles et forment des clichés.

[En savoir plus :Les données et l’IA sont les clés du changement numérique. Comment pouvez-vous garantir leur intégrité ?]

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici