vendredi, 29 mars 2024

3 choses dont les grands modèles de langage ont besoin à l’ère du battage médiatique de l’IA « sensible »

L’enfer s’est déchaîné dans le monde de l’IA après avoir rapporté la semaine dernière qu’un ingénieur de pensait que LaMDA, parmi les grands modèles linguistiques (LLM) de l’entreprise, était sensible.

La nouvelle a été suivie par une frénésie d’articles, de vidéos et d’arguments sur les réseaux sociaux pour savoir si les systèmes d’IA actuels comprennent le monde comme nous, si les systèmes d’IA peuvent être conscients, quelles sont les exigences de la sensibilisation, etc.

Nous sommes actuellement dans un état où nos grands modèles de langage sont en fait devenus suffisants pour encourager de nombreuses personnes – composées d’ingénieurs – à être à égalité avec l’intelligence naturelle. En même temps, ils sont encore assez mauvais pour faire des erreurs stupides, comme le montrent ces expériences de l’informaticien Ernest Davis.

Ce qui est préoccupant, c’est que la recherche et le développement sur les LLM sont principalement gérés par de grandes entreprises technologiques. qui cherchent à faire connaître leur technologie en l’incorporant dans des applications utilisées par des centaines d’innombrables utilisateurs. Et il est important que ces applications restent sûres et robustes pour éviter de compliquer ou d’endommager leurs utilisateurs.

Voici quelques-unes des leçons tirées du battage médiatique et de la confusion entourant grandes conceptions de langage et progrès de l’IA.

Plus de transparence

Contrairement aux organisations scolaires, les entreprises technologiques n’ont pas l’habitude de lancer leurs conceptions d’IA au public. Ils les traitent comme des secrets commerciaux à cacher à leurs rivaux. Il est donc très difficile de les étudier pour les impacts indésirables et les dommages potentiels.

Heureusement, il y a eu des développements positifs ces derniers mois. En mai, Meta AI a été lancé parmi ses LLM en tant que tâche open source (avec quelques précautions) pour inclure la transparence et l’ouverture au développement de grandes conceptions de langage.

Fournir un accès aux poids de modèle, aux données de formation, à la formation les journaux et d’autres informations importantes sur les conceptions d’apprentissage automatique peuvent aider les scientifiques à trouver leurs points vulnérables et à s’assurer qu’ils sont utilisés dans des endroits où ils sont robustes.

Un autre élément crucial de l’ouverture est de communiquer clairement aux utilisateurs qu’ils se connectent avec un système d’IA qui ne comprend pas nécessairement le monde comme eux. Les systèmes d’IA d’aujourd’hui sont excellents pour effectuer des tâches étroites qui ne nécessitent pas une large compréhension du monde. Ils commencent à s’effondrer dès qu’ils sont confrontés à des problèmes qui nécessitent des connaissances de bon sens non prises en compte dans le texte.

Bien que les grandes conceptions de langage aient réellement progressé, elles ont toujours besoin d’être prises en main. En sachant qu’ils communiquent avec un représentant de l’IA, les utilisateurs auront la possibilité d’ajuster leurs habitudes pour éviter d’orienter la discussion vers une surface imprévisible.

Plus de contrôle humain

La pensée populaire veut qu’à mesure que l’IA progresse, nous devons lui donner plus de contrôle dans ses choix. Au moins jusqu’à ce que nous trouvions comment produire une IA au niveau humain (et c’est un gros si), nous devons concevoir nos systèmes d’IA pour qu’ils correspondent à l’intelligence humaine, pas pour la changer. En un mot, même si les LLM ont fini par être nettement meilleurs pour traiter le langage, cela n’indique pas que les humains ne doivent se connecter avec eux que via un chatbot.

Une direction attrayante de la recherche à cet égard est humaine -centered AI (HCAI), un domaine de travail qui promeut la création de systèmes d’IA qui assurent la surveillance et le contrôle humains. L’informaticien Ben Schneiderman propose un cadre complet pour HCAI dans son livre. Par exemple, partout où cela est possible, les systèmes d’IA devraient offrir des cotes de confiance qui décrivent la fiabilité de leur sortie. D’autres options possibles consistent en de nombreuses idées de sortie, des curseurs de configuration et d’autres outils qui permettent aux utilisateurs de contrôler les habitudes du système d’IA qu’ils utilisent.

Un autre domaine de travail est l’IA explicable, qui tente d’établir outils et méthodes d’examen des choix de réseaux de neurones profonds. Naturellement, les très grands réseaux de neurones comme LaMDA et autres LLM sont vraiment difficiles à expliquer. Néanmoins, l’explicabilité doit rester une exigence importante pour tout système d’IA utilisé. Parfois, avoir un système d’IA interprétable qui fonctionne un peu moins bien qu’un système d’IA complexe peut grandement contribuer à atténuer le type de confusion que produisent les LLM.

Plus de structure

Une variante cependant une perspective plus pratique est celle proposée par Richard Heimann, officier principal de l’IA chez Cybraics, dans son livre. Heimann propose que pour « être l’IA d’abord », les entreprises devraient « faire l’IA en dernier ». Au lieu d’essayer d’adopter la technologie actuelle de l’IA dans leur application, les développeurs doivent commencer par le problème qu’ils souhaitent résoudre et choisir l’option la plus efficace.

C’est une idée qui est directement associée au buzz entourant les LLM, car ils sont généralement présentés comme des outils analytiques de base pouvant être appliqués à un large éventail d’applications. De nombreuses applications ne nécessitent pas de très grands réseaux de neurones et peuvent être développées avec des services beaucoup plus simples, conçus et structurés dans ce but spécifique. Bien qu’elles ne soient pas aussi attrayantes que les grandes conceptions de langage, ces solutions plus simples sont souvent plus économes en ressources, robustes et prévisibles.

Une autre direction essentielle de la recherche est le mélange de graphes de connaissances et d’autres formes de connaissances structurées avec des conceptions du renseignement. Il s’agit d’une rupture avec la tendance actuelle à résoudre les problèmes de l’IA en développant de plus grands réseaux de neurones et de plus grands ensembles de données de formation. Un exemple est Jurassic-X d’A121 Labs, un modèle de langage neuro-symbolique qui relie les réseaux de neurones à des fournisseurs d’informations structurées pour s’assurer que ses réponses restent constantes et sensibles.

D’autres chercheurs ont proposé des architectures qui intègrent des réseaux de neurones avec d’autres stratégies pour s’assurer que leurs inférences sont fondées sur des connaissances du monde réel. Un exemple est les « agents intelligents dotés de langage » (LEIA) proposés par Marjorie McShane et Sergei Nirenburg, deux scientifiques du Rensselaer Polytechnic Institute, dans leur dernier livre. LEIA est une structure de traitement du langage à six couches qui intègre des systèmes basés sur la connaissance avec l’intelligence artificielle. modèles pour produire des définitions de texte exploitables et interprétables. Bien que LEIA soit encore un travail en cours, il garantit de résoudre certains des problèmes rencontrés par les modèles de langage actuels.

Alors que les chercheurs, les chercheurs et les théoriciens continuent de se demander si les systèmes d’IA doivent être dotés de la personnalité et des droits civils , nous ne devons pas oublier comment ces systèmes d’IA affecteront les véritables personnes qui les utiliseront.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici