Avec l’intro, Microsoft entend démontrer que les LLM performants ne nécessitent pas nécessairement de grandes quantités de spécifications pour offrir une bonne efficacité. Les deux LLM Orca 2 sont basés sur le modèle initial 13B Orca présenté plusieurs mois plus tôt. Ce modèle a révélé de fortes capacités de raisonnement en imitant en détail les pistes de réflexion de modèles plus grands et plus puissants.
Capacités de réflexion
Les LLM Whale 2 ont des tailles de 7 milliards et 13 milliards de critères. Dans ces modèles, les signaux et les techniques d’entraînement ont été améliorés afin que les modèles plus petits bénéficient toujours des capacités de raisonnement améliorées que l’on trouve généralement dans les modèles plus grands.
L’entraînement des modèles n’a pas utilisé de réplique, comme dans le modèle Whale initial. , mais des méthodes de pensée plus différentes. De plus, les concepteurs de Microsoft ont appris à la conception à déterminer la méthode de raisonnement la plus efficace pour chaque tâche.
Critères de LLM plus larges
Les conceptions Orca 2 ont été évaluées à 15 points par rapport à un certain nombre de des LLM plus importants. Ces derniers modèles étaient dans certains cas cinq à dix fois plus grands. Les tests ont montré que les modèles Orca 2 7B et 13B surpassaient, par exemple, le modèle Llama-2-Chat-13B de Meta.
Ils ont également surpassé les modèles WizardLM-13B et -70 b de Hugging Face. Dans une configuration spécifique, ce dernier modèle a quand même surpassé les conceptions Llama de Meta et les conceptions Whale 2 de Microsoft.
Autres fournisseurs
Microsoft n’est pas le seul géant de la technologie explorer le potentiel des petits LLM. Le 01AI chinois a également récemment fourni un « petit » LLM de 34 milliards de critères qui éclipse les modèles plus grands. Le Mistral AI français utilise également un LLM 7B qui correspond aux modèles plus grands.
Toute l’actualité en temps réel, est sur L’Entrepreneur