mardi, 5 mars 2024

Pourquoi le grand modèle de langage de Meta ne fonctionne pas pour les chercheurs

Quand Alan Turing a créé le test de Turing en 1950, c’était un test de la capacité d’un appareil à montrer un comportement intelligent équivalent à celui d’un humain. Turing a proposé qu’un ordinateur puisse être considéré comme doté d’une intelligence artificielle (IA) s’il peut développer des actions de type humain pour répondre à des questions.

Grâce aux grandes conceptions de langage, nous sommes maintenant au point où les ordinateurs peuvent écrire texte sur à peu près n’importe quel sujet que nous fournissons – et pour la plupart, il est très persuasif et humain.

Dites-lui de composer une phrase sur « Pourquoi aime-t-il tricoter ? » et ce qu’il produit est peut-être aussi bon que ce que n’importe quel humain pourrait composer :

Certaines raisons possibles pour lesquelles peut aimer le tricot pourraient inclure le fait qu’il s’agit d’une activité relaxante et méditative qui peut aider à se vider l’esprit, et cela permet également beaucoup de créativité et d’expression de soi. De plus, le tricot peut être une activité vraiment sociale, et peut profiter de la possibilité de discuter et de se connecter avec d’autres tricoteuses.

Résumer un texte compliqué

Des exemples comme celui-ci sont agréables, mais la proposition la plus intéressante d’utiliser de grands modèles de langage est moins d’écrire une prose folle que de résumer un texte compliqué. Ces cas d’utilisation sont passionnants sur tous les marchés. Par exemple, l’IA peut résumer les informations sur les prospects potentiels à des fins d’intelligence commerciale, ou elle peut résumer les documents d’investissement financier dans le financement.

Ce qui m’intéresse particulièrement, c’est de résumer des documents scientifiques pour les chercheurs.

Le problème est qu’il y a une surcharge de recherche en cours diffusé dans le monde entier. Plus de 4,2 millions d’articles d’étude de recherche scolastique ont été publiés en 2020. Même dans des domaines de recherche spécialisés, des centaines de documents sont publiés chaque année – comment un chercheur peut-il garder le contrôle de tout cela tout en poursuivant ses propres recherches ? Le résumé d’un article ne fait que faire allusion aux détails de l’étude de recherche à l’intérieur.

Lorsque Meta a récemment ouvert son modèle de langage, OPT-175B, cela semblait une garantie pour les scientifiques scolastiques. On dit qu’il offre de meilleures performances que le GPT-3 d’OpenAI et qu’il utilise seulement 15 % des ressources de calcul de GPT-3 pour l’entraîner.

Mettre les modèles à l’épreuve

Alors, comment Meta porte-t-il sur la recherche scientifique ?

Nous l’avons d’abord testé sur un communiqué de presse technique, et voici le résumé que nous avons reçu :

Déclarations prospectives, qui ne parlent que depuis la date de ce communiqué de presse. Artelo ne s’engage pas à mettre à jour publiquement toute déclaration prospective, que ce soit à la suite de nouveaux détails, d’événements futurs ou autrement. Contact pour les relations avec les investisseurs : Westwicke Partners au nom d’Artelo Biosciences Mike Piccinino, CFA

Ce n’est pas un excellent début. Le modèle se concentre sur le jargon juridique financier à la fin de la publication du journalisme, estimant qu’il s’agit de l’exigence la plus cruciale du lecteur d’informations à connaître. Vous pourriez dire que c’est important, mais ce n’est pas ce que nous recherchons. Le contact avec l’investisseur n’est même pas approprié, il a été créé par la conception !

Ensuite, nous l’avons tenté sur un article du Journal of Electronic Materials :

Journal of ELECTRONIC PRODUCTS, Vol. 38, No. 7, 2009 DOI : 10.1007/ s11664-009-0701-y (cid:1) 2009 TMS Special Problem Paper thermiquement. Les échantillons ont ensuite été pulvérisés et analysés par XRD, TGA et XPS. Les diagrammes XRD ont montré que CaCo2O4 d cristallise sous la forme d’une structure de type ferrite de calcium, qui comprend un réseau d’octaèdres CoO6 partagés en coins et en bords constitué de chaînes doubles unidimensionnelles. L’étage CaCo2O4 d a une densité finie d’états au niveau de Fermi. Les résultats XPS ont révélé que CaCo2O4 d a une composition de CaCo2O4 d = (Ca2CoO3) 0,62 CoO2. Les résultats XPS ont également révélé que CaCo2O4 d a [] Au départ, il semble avoir des informations essentielles, mais il y a clairement des informations inutiles telles que les détails de l’article qui ne sont pas importants pour le résumé, et je décrirais plus correctement le résulter en paraphrasant une partie du texte au lieu d’en résumer tous les éléments.

Les petites conceptions surpassent

Alors, comment un modèle de langage plus petit se compare-t-il ? Grâce à notre expérience sur le terrain, nous avons créé notre modèle IPG Iris.ai pour n’avoir que 25 millions de critères – au lieu des 175 milliards de Meta et OpenAI – mais nous l’avons formé sur des millions d’articles cliniques courts spécifiques à un domaine. Notre étude de recherche a révélé que cette conception fonctionne très différemment sur exactement le même papier :

la dépendance au niveau de température métallique du coefficient de seebeck s avec une grande puissance thermoélectrique (s=151lv/kat387k) a une densité finie d’états au niveau de fermi. Dans cet article, nous rapportons la structure cristalline et les maisons physiques de caco2o4 d. Nous trouvons une nouvelle substance caco2o4 d, qui montre un grand pouvoir thermoélectrique, malgré le fait qu’elle a une densité finie d’états au niveau de fermi. Encouragés par le principe directeur de base mentionné précédemment, nous avons recherché de nouvelles étapes pour les maisons thermoélectriques liées à un produit thermoélectrique adapté à une utilisation à haute température. [] Vous pouvez voir que la syntaxe est un peu plus simple qu’un grand modèle de langage, cependant les informations sont beaucoup plus appropriées. De plus, les coûts de calcul pour produire ce court résumé d’article sont inférieurs à 0,23 $. Faire exactement la même chose sur OPT-175 coûterait environ 180 $.

Les porte-conteneurs des modèles d’IA

Vous supposeriez que les conceptions de grands langages s’appuient sur une énorme puissance de calcul, comme L’OPT-175B aurait la capacité de traiter les mêmes informations plus rapidement et avec une meilleure qualité. Mais là où la conception échoue, c’est dans la compréhension du domaine particulier. Il ne comprend pas la structure d’un dissertation, il ne sait pas quelles informations sont nécessaires et il ne comprend pas les solutions chimiques. Ce n’est pas la faute de la conception – il n’a tout simplement pas été formé sur cette information.

L’option, par conséquent, est de simplement former le modèle GPT sur des matériaux papiers, n’est-ce pas ?

À un certain niveau, oui. Si nous pouvons entraîner une conception GPT sur des documents de matériaux, cela fera un bon travail de les résumer, même si les grands modèles de langage sont – de par leur nature – volumineux. Ce sont les porte-conteneurs proverbiaux des conceptions d’IA – il est très difficile de modifier leur direction. Cela indique de faire progresser le modèle avec un support connaissant les besoins de nombreux documents matériels innombrables. Et c’est un problème – ce volume d’articles n’existe tout simplement pas pour former le modèle. Oui, les données peuvent être fabriquées (comme c’est souvent le cas dans l’IA), mais cela réduit la qualité des résultats : la force de GPT provient de la variété d’informations sur lesquelles il est formé.

Transformer le « comment »

C’est pourquoi les conceptions de langage plus petites fonctionnent mieux. Le traitement du langage naturel (NLP) existe depuis de nombreuses années, et bien que les conceptions GPT aient fait la une des journaux, la sophistication des conceptions NLP de plus petite taille ne cesse de s’améliorer.

Une conception formée sur 175 milliards de spécifications sera toujours difficile à gérer, mais une conception utilisant 30 à 40 millions de spécifications est beaucoup plus maniable pour un texte spécifique à un domaine. L’avantage supplémentaire est qu’il utilisera moins de puissance de calcul, donc son fonctionnement coûtera beaucoup moins cher.

Du point de vue de la recherche clinique, ce qui m’intéresse le plus, l’IA va accélérer le potentiel pour les scientifiques – à la fois dans le milieu universitaire et dans l’industrie. La vitesse actuelle de publication produit une quantité inatteignable d’études de recherche, qui épuise le temps des universitaires et les ressources des entreprises.

La méthode que nous avons développée pour la conception de l’IPG d’Iris.ai reflète ma conviction que certains modèles offrent l’opportunité non seulement de réinventer ce que nous étudions ou à quelle vitesse nous l’étudions, mais également d’aborder différentes disciplines de la recherche clinique comme un ensemble. Ils donnent aux esprits doués beaucoup plus de temps et de ressources pour faire équipe et produire de la valeur.

Ce potentiel pour chaque chercheur d’exploiter les études de recherche mondiales me fait avancer.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici