Un groupe de scientifiques a en fait testé ChatGPT, un chatbot d’intelligence artificielle (IA), sur ses capacités de raisonnement scientifique en utilisant les préoccupations de l’évaluation des licences médicales aux États-Unis (USMLE).
L’équipe , publiant leurs résultats sur le serveur de préimpression medRxiv, ont écrit qu’ils avaient choisi de vérifier l’IA du langage génératif sur les préoccupations de l’USMLE car il s’agissait d’un » programme de test standardisé en trois étapes à enjeux élevés couvrant tous les sujets du fonds de connaissances des médecins, couvrant les sciences fondamentales, le raisonnement clinique, la prise en charge médicale et la bioéthique ».
Publicité
Le modèle de langage, formé sur d’énormes quantités de texte provenant d’Internet, n’a pas été formé sur la variation de le test utilisé par les scientifiques ; il n’a pas non plus reçu de formation médicale supplémentaire avant l’étude de recherche, qui l’a vue aborder une variété de questions ouvertes et à choix multiples.
« Dans cette étude de recherche actuelle, ChatGPT a atteint une précision de> 50 % dans toutes les évaluations, allant au-delà de 60 % dans de nombreuses analyses », a écrit l’équipe dans son étude de recherche.
» La limite de réussite USMLE, alors que variant d’une année à l’autre, est d’environ 60 %. ChatGPT se situe désormais confortablement dans la catégorie des passants. Étant la première expérience à atteindre ce critère, notre société pense qu’il s’agit d’un résultat inattendu et remarquable. «
Annonce
Le groupe écrit que l’efficacité de l’IA pourrait être améliorée avec plus d’incitation et d’interaction avec la conception. Là où l’IA n’a pas fonctionné correctement, en fournissant des réponses moins concordantes, ils pensent que c’est en partie dû au fait qu’elle a manqué des détails que l’IA n’a pas rencontrés.
Ils pensent que le bot OpenAI avait un avantage sur les conceptions formé totalement sur le texte médical, car il a obtenu plus d’un aperçu du contexte médical.
» Paradoxalement, ChatGPT a surpassé PubMedGPT (précision 50,8 %, données non publiées), un équivalent [langue découverte conception] avec similaire structure neurale, cependant expérimentée exclusivement sur la littérature du domaine biomédical », a composé le groupe dans leur conversation.
Publicité
» Nous émettons l’hypothèse que la formation spécifique à un domaine pourrait avoir développé une plus grande incertitude dans la conception PubMedGPT, car elle absorbe du monde réel à partir d’un discours académique continu qui a tendance à être indéterminé, contradictoire ou extrêmement conservateur ou évasif dans sa langue. «
Le groupe pense que l’IA pourrait rapidement devenir courante dans les établissements de soins de santé, compte tenu de la vitesse de développement du marché, peut-être en améliorant l’évaluation des risques ou en fournissant une assistance et une assistance aux décisions médicales.
L’étude est publiée sur le serveur de préimpression medRxiv. Il n’a pas encore été évalué par des pairs.
Toute l’actualité en temps réel, est sur L’Entrepreneur