Pourquoi les examens destinés aux humains pourraient ne pas être de bons repères pour les LLM comme GPT-4

Alors que les entreprises technologiques continuent de présenter de grands modèles linguistiques (LLM) avec d’excellents résultats, il devient plus difficile de déterminer leurs capacités réelles. Selon un rapport technique publié par OpenAI, le GPT-4 donne des résultats impressionnants aux examens du barreau, aux tests de mathématiques SAT et aux examens de lecture et de rédaction.

Néanmoins, les tests conçus pour les personnes ne sont peut-être pas de bons standards pour déterminer les LLM. capacités. Les conceptions linguistiques incluent la compréhension de méthodes complexes, produisant souvent des résultats qui correspondent ou dépassent l’efficacité humaine typique. La méthode qu’ils obtiennent et utilisent est souvent incompatible avec celle des humains. Cela peut nous amener à tirer des conclusions erronées à partir des résultats des tests.

Pour les LLM comme GPT-4, la réussite à l’examen dépend des informations de formation

Arvind Naranayan, professeur de technologie informatique à l’Université de Princeton, a récemment rédigé un article sur les problèmes liés aux tests des LLM sur les tests de licence professionnelle.

L’un de ces problèmes est la « contamination des données de formation ». Cela se produit lorsqu’un modèle qualifié est vérifié sur les informations avec lesquelles il a été formé. Avec trop de formation, un modèle peut se souvenir de ses exemples de formation et les exécuter extrêmement bien, donnant l’impression qu’il a découvert la tâche. Cependant, il cessera de fonctionner sur de nouveaux exemples.

Événement

Change 2023

Rejoignez-nous à San Francisco les 11 et 12 juillet, où les magnats partageront comment ils ont intégré et optimisé les investissements financiers de l’IA pour réussir et éviter les pièges courants.

Inscrivez-vous maintenant Ingénieurs en apprentissage automatique

aller vers d’excellents inconforts

pour séparer leurs données de formation et de dépistage. Mais avec les LLM, les choses deviennent difficiles car le corpus de formation est si volumineux qu’il est difficile de s’assurer que vos exemples de test ne sont pas compris d’une manière ou d’une autre dans les données de formation. » Les modèles de langage sont formés sur pratiquement tout le texte sur Internet

, donc même si les informations de test exactes ne sont pas dans le corpus de formation, il y aura quelque chose d’extrêmement proche « , a déclaré Naranayan à VentureBeat. » Ainsi, lorsque nous constatons qu’un LLM réussit bien à un examen ou à un défi de spectacles, Il n’est pas clair dans quelle mesure cette efficacité est due à la mémorisation par rapport au raisonnement. » Une expérience a montré que GPT-4 fonctionnait très bien sur les difficultés des programmes Codeforces produites avant 2021, lorsque ses données d’entraînement ont été recueillies. Ses performances ont considérablement chuté sur des problèmes plus récents. Naranayan a découvert que dans de nombreux cas, lorsque GPT-4 recevait le titre d’un numéro de Codeforces, il pouvait produire le lien vers le concours où il apparaissait. Dans une autre expérience, la spécialiste des systèmes informatiques Melanie Mitchell a vérifié les performances de ChatGPT sur les tests MBA, une réalisation qui

a été souvent couverte par les médias. Mitchell a constaté que l’efficacité du modèle sur le même problème pouvait différer considérablement lorsque l’invite était formulée de manière légèrement différente. « Les LLM ont en fait ingéré beaucoup plus de texte qu’il n’est possible pour un humain ; dans un certain sens, ils ont en fait » mémorisé « ( dans un format compressé) d’énormes étendues

du Web, de Wikipédia, de corpus de livres, etc. « , a déclaré Mitchell à VentureBeat. » Lorsqu’on leur propose une préoccupation d’un test, ils peuvent offrir tout le texte dont ils se sont souvenus dans ce genre, et peut trouver les modèles de « pensée » les plus comparables qui peuvent ensuite être ajustés pour résoudre la question. Cela fonctionne bien dans de nombreux cas mais pas dans d’autres. Cela reste en partie pourquoi certains types de déclencheurs LLM fonctionnent efficacement tandis que d’autres ne le font pas. t. « Les êtres humains résolvent les problèmes de différentes manières. Les gens construisent progressivement leurs compétences et leur compréhension par couches à travers des années d’expérience, d’études et de formation. Les tests créés pour les personnes

présument que le candidat possède déjà ces

capacités et connaissances préparatoires, et ne les teste donc pas de manière approfondie. D’autre part, les conceptions de langage ont en fait montré qu’elles peuvent accélérer leur méthode pour répondre sans avoir besoin d’acquérir les compétences requises. « Les êtres humains résolvent très probablement ces problèmes de manière différente et plus généralisable. les présomptions pour les LLM que nous faisons pour les gens lorsque nous fournissons des tests « , a déclaré Mitchell. Par exemple, une partie des connaissances de base pour la zoologie est que chaque individu naît, vit un certain temps et décède, dont la durée de vie est en partie fonction des types et en partie une question d’opportunités et de transpositions de la vie, déclare l’ordinateur. Ernest Davis, scientifique et enseignant à l’Université de New York. « Un test de biologie ne va pas demander cela, car on peut supposer que tous les stagiaires le savent, et il peut ne poser aucune question qui nécessite en fait cette compréhension. Vous feriez mieux de comprendre que si [vous allez]

diriger un laboratoire de biologie ou une basse-cour », a déclaré Davis à VentureBeat. » Le problème est qu’il existe une compréhension de base qui est réellement nécessaire pour comprendre un sujet spécifique. Ceci est normalement évalué sur des tests conçus pour les personnes en raison du fait qu’on peut assez bien présumer que les gens le comprennent « L’absence de ces compétences et connaissances fondamentales est évidente dans d’autres circonstances, comme un examen des grands modèles de langage en mathématiques que Davis a effectué récemment. Davis a constaté que les LLM échouent à des problèmes de mathématiques très élémentaires présentés en langage naturel. C’est alors que d’autres expériences, y compris le rapport technique sur GPT-4, révèlent que les LLM obtiennent des résultats élevés aux tests de mathématiques sophistiqués. Jusqu’où pouvez-vous compter Mitchell, qui a encore plus évalué les LLM sur les tests du barreau et les examens des facultés de médecine, conclut que les examens conçus pour les gens ne sont pas un moyen fiable de comprendre les capacités et les contraintes de ces modèles d’IA pour les emplois du monde réel. ne veut pas dire que d’énormes modèles analytiques comme les LLM ne pourraient jamais raisonner comme les humains

— Je ne sais pas si cela est vrai ou non, et y répondre nécessiterait beaucoup d’informations sur la façon dont les LLM font ce qu’ils font, et comment leur mise à l’échelle affecte leurs systèmes internes « , a déclaré Mitchell. » C’est une idée que nous n’avons pas à l’heure actuelle. » Ce que nous comprenons, c’est que de tels systèmes font des erreurs difficiles à prévoir, non humaines, et « nous devons être très prudents lorsque nous supposons qu’ils peuvent se généraliser d’une manière que les gens peut », a déclaré Mitchell. Naranayan a déclaré qu’un LLM qui réussit les examens grâce à la mémorisation et à la réflexion superficielle pourrait être excellent pour certaines applications, mais ne peut pas faire la série de choses qu’un professionnel peut faire. Cela est particulièrement vrai pour les examens du barreau, qui mettent trop l’accent sur

la connaissance du sujet et sous-estiment les compétences du monde réel qui sont difficiles à déterminer dans une méthode standardisée et administrée par ordinateur. « Nous ne devrions pas lire trop dans la performance des tests à moins qu’il n’y ait des preuves que cela équivaut à une capacité à faire de vrai- tâches mondiales », a déclaré Naranayan. De préférence, nous devons étudier des experts qui utilisent des LLM pour accomplir leurs tâches. En attendant, je pense que les LLM sont beaucoup plus susceptibles d’améliorer les professionnels que de les remplacer. »La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur l’innovation d’entreprise transformatrice et de négocier. Découvrez nos instructions.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

Article précédent

L’explosion cosmique la plus brillante que l’humanité ait jamais vue était de 70 fois le record précédent

Article suivant

Tim Cook vient de prouver pourquoi Apple ne peut pas et ne veut pas quitter la Chine

Pourquoi les examens destinés aux humains pourraient ne pas être de bons repères pour les LLM comme GPT-4

Pour les LLM comme GPT-4, la réussite à l’examen dépend des informations de formation

Événement

LAISSER UN COMMENTAIRE Annuler la réponse

Catégories populaires

Le choix de la rédaction