samedi, 2 décembre 2023

Microsoft lance Orca 2, une paire de petits modèles de langage qui surpassent leurs homologues plus grands

Même si le monde atteste de la lutte pour le pouvoir et des démissions massives chez OpenAI, Microsoft, le soutien chevronné du major de l’IA, ne ralentit pas ses propres efforts en matière d’IA. Aujourd’hui, la branche d’études de recherche de la société dirigée par Satya Nadella a abandonné Whale 2, un ensemble de petits modèles de langage qui correspondent ou surpassent des conceptions de langage cinq à dix fois plus grandes, composé du Llama-2 Chat-70B de Meta, lorsqu’il est testé sur des systèmes complexes. penser des tâches dans des environnements de tir zéro.

Les conceptions sont disponibles en 2 tailles, 7 milliards et 13 milliards de critères, et s’appuient sur le travail effectué sur la conception initiale du 13B Whale qui a montré de fortes capacités de raisonnement en imitant l’étape il y a quelques mois, il y a quelques mois, il y a eu un raisonnement étape par étape sur des modèles plus grands et plus performants.

« Avec Orca 2, nous continuons de révéler que des signaux et des approches d’entraînement améliorés peuvent permettre à des modèles de langage de plus petite taille d’accomplir une réflexion améliorée. capacités, qui ne se trouvent normalement que dans des conceptions de langage beaucoup plus grandes », ont écrit les scientifiques de Microsoft dans un article de commun.

La société a en fait mis en open source les deux nouvelles conceptions pour des recherches plus approfondies sur l’avancement et l’évaluation de plus petits des modèles de grande taille qui peuvent fonctionner aussi bien que des modèles plus grands. Ce travail peut offrir aux entreprises, en particulier à celles disposant de ressources minimales, une meilleure alternative pour répondre à leurs cas d’utilisation ciblés sans trop investir dans la capacité de calcul.

Événement VB

La tournée AI Impact

Entrez en contact avec le quartier de l’IA d’entreprise lors de l’AI Impact Tour de VentureBeat qui se déroulera dans une ville près de chez vous !

En savoir plus Enseigner des petits modèles

comment factoriser Alors que les grandes conceptions de langage

comme GPT-4 ont longtemps impressionné les entreprises et les particuliers par leur capacité à raisonner et à répondre à des questions complexes avec des explications, leurs homologues plus petits ont pour la plupart manqué cette capacité. L’étude de Microsoft Research a choisi d’aborder cet espace en affinant les conceptions de base de Llama 2 sur un ensemble de données artificielles hautement personnalisées. Cependant, plutôt que d’entraîner les petits modèles à reproduire le comportement de conceptions plus performantes (une technique généralement utilisée connue sous le nom de connaissance d’imitation), les scientifiques ont entraîné les conceptions à utiliser différentes méthodes de résolution pour diverses tâches à accomplir. L’idée était que la technique d’un modèle plus grand pouvait ne pas toujours fonctionner parfaitement pour un modèle plus petit. GPT-4 pourrait être capable de répondre directement à des questions complexes, mais une conception plus petite, sans ce type de capacité, pourrait bénéficier de la division du même travail en quelques étapes. « Dans Orca 2, nous enseignons au modèle différentes stratégies de réflexion (détaillées, rappeler puis créer, rappeler-raison-générer, réponse directe, etc.). Plus important encore, nous visons à aider le modèle à découvrir afin de déterminer la technique de solution la plus fiable pour chaque tâche », ont écrit les scientifiques dans un article publié aujourd’hui. Les données de formation pour le poste ont été acquises auprès d’un instructeur plus compétent, de manière à apprendre au stagiaire à gérer les deux éléments : comment utiliser une stratégie de réflexion et quand l’utiliser exactement pour une tâche à accomplir. Whale 2 fonctionne mieux que des modèles plus grands Lorsqu’il est testé sur 15 tests variés (dans des paramètres zéro-shot) couvrant des éléments tels que la

compréhension du langage, la pensée sensée, la réflexion

en plusieurs étapes, la résolution de problèmes mathématiques, la vérification de la compréhension, la synthèse. et de véracité, les conceptions Whale 2 ont produit des résultats étonnants en faisant principalement correspondre ou surpasser des modèles qui sont cinq à 10 fois plus grands. La moyenne de tous les résultats de référence a montré que Whale 2 7B et 13B a ​​surpassé Llama-2-Chat-13B et 70B et WizardLM-13B et 70B. Uniquement dans la norme GSM8K, qui inclut 8,5 K de problèmes de mathématiques de qualité supérieure dans les écoles élémentaires, le WizardLM-70B a fait de manière convaincante mieux que les modèles Whale et Llama. Résultats du benchmark Whale 2 Bien que les performances soient une excellente nouvelle pour les équipes commerciales qui souhaitent un modèle petit et performant pour des applications d’entreprise abordables, il est très important de noter que ces modèles peuvent également acquérir des contraintes communes à d’autres conceptions de langages.

comme ceux de la conception de base, ils ont été affinés. Microsoft a ajouté que la méthode utilisée pour développer les modèles Whale peut même être utilisée sur d’autres modèles de base.  » Bien qu’elle comporte plusieurs restrictions…, le potentiel d’améliorations futures de Whale 2 apparaît, en particulier dans l’amélioration du raisonnement, de l’expertise, du contrôle et sécurité des modèles plus petits.

L’utilisation de données artificielles soigneusement filtrées pour la post-formation apparaît comme une méthode cruciale dans ces améliorations.

Alors que les modèles plus grands continuent d’exceller, notre travail avec Whale 2 marque une étape importante dans la diversification des applications et des options de mise en œuvre des conceptions de langage », a composé le groupe de recherche. Des modèles plus petits et plus performants vont émerger Avec la sortie des modèles open source Orca 2 et la recherche continue dans le domaine, on peut affirmer sans se tromper que des petits modèles de langage plus performants sont susceptibles d’émerger à l’avenir. Il y a quelques semaines à peine, la Chine est récemment devenue la licorne 01. AI, fondée par Kai-Fu Lee, professionnel chevronné de l’IA, a également pris une mesure significative dans ce domaine avec

la publication d’un modèle de 34 milliards de critères qui prend en charge Chinois et anglais et surpasse ses homologues de 70 milliards de Llama 2 et de 180 milliards de Falcon. La start-up propose également un choix plus restreint

qui a été formé avec 6 milliards de paramètres et fonctionne de manière respectable sur des benchmarks de modèles IA/ML largement utilisés. Mistral AI, la start-up parisienne créée il y a six mois et qui a fait la une des journaux avec son logo Word Art unique et un tour de table record de 118 millions de dollars, propose également une conception de spécifications de 7 milliards qui éclipse les offres plus importantes, composées de Meta’s Llama 2 13B (l’un des plus petits modèles les plus récents de Meta). La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques de comprendre l’innovation commerciale transformatrice et les transactions. Découvrez nos Consignes..

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici