mercredi, 29 novembre 2023

Meta dévoile tranquillement Llama 2 Long AI qui bat GPT-3.5 Turbo et Claude 2 sur certaines tâches

Meta Platforms a présenté aujourd’hui un ensemble de toutes nouvelles fonctionnalités d’IA pour ses services destinés aux consommateurs, Facebook, Instagram et WhatsApp, lors de sa conférence annuelle Meta Connect à son siège social à Menlo Park, en Californie.

Les nouvelles les plus significatives concernant les affaires de Mark Zuckerberg auraient en fait pu arriver sous la forme d’un article scientifique sur les systèmes informatiques publié sans enthousiasme par des méta-scientifiques sur le site Web en libre accès et non évalué par les pairs arXiv.org.

Le journal présente Llama 2 Long, une toute nouvelle conception d’IA basée sur le logiciel open source Llama 2 de Meta sorti cet été, mais qui a disparu. grâce à « un pré-entraînement continu de Llama 2 avec des séquences d’entraînement plus longues et sur un ensemble de données où les textes longs sont suréchantillonnés », selon les chercheurs-auteurs de l’article.

En conséquence, la nouvelle conception d’IA étendue de Meta surpasse certains des principaux concurrents en matière de création d’actions sur des déclencheurs utilisateur longs (plus grand nombre de caractères), notamment GPT-3.5 Turbo d’OpenAI avec une fenêtre contextuelle de 16 000 caractères, ainsi que Claude 2 avec sa fenêtre contextuelle de 100 000 caractères.

Occasion

L’IA libérée

Une soirée unique d’informations et de réseautage sur invitation uniquement, créée pour les cadres supérieurs d’entreprise supervisant les piles de données et les techniques.

En savoir plus sur les méta

présente

LLAMA 2 Long – fenêtres contextuelles pouvant contenir jusqu’à 32 768 jetons – la variante 70B peut déjà aller au-delà des performances générales de gpt-3.5 -turbo-16k sur une suite de tâches à contexte long https : //t.co/uzsVslLUkX pic..com/aXyPmeLXMo– AK (@_akhaliq)29 septembre 2023 Comment LLama 2 Long s’est produit Les méta-scientifiques ont pris le Llama 2 original proposé dans

ses différentes tailles de spécifications de formation – la valeur des données et des détails que l’algorithme peut modifier lui-même au fur et à mesure de son apprentissage, qui dans le cas de Llama 2 se déclinent en 7 milliards, 13 milliards, 34 milliards et 70 milliards de variations – et consistaient en des sources de données textuelles plus longues que l’ensemble de données d’entraînement Llama 2 d’origine. Pour être exact, cela représente 400 milliards de jetons supplémentaires. Les scientifiques ont conservé l’architecture initiale de Llama 2 exactement la même et ont simplement apporté un « ajustement nécessaire à l’encodage de position qui est vital pour que la conception dure plus longtemps. » Cette modification concernait l’encodage Rotary Positional Embedding (RoPE), une méthode de définir la conception du transformateur sous-jacent aux LLM tels que Llama 2 (et LLama 2 Long

), qui mappe essentiellement leurs intégrations de jetons (les nombres utilisés pour représenter des mots, des concepts et des idées) sur un graphique 3D qui montre leurs positions par rapport aux autres jetons, même en cas de rotation. Cela permet à un modèle de produire des réactions précises et utiles, avec moins d’informations (et donc moins de stockage informatique utilisé) que d’autres techniques. Les chercheurs de Meta ont « réduit l’angle de rotation » de son encodage RoPE de Llama 2 à Llama 2 Long, ce qui leur a permis de garantir des « jetons plus éloignés », ceux qui se produisent plus rarement ou avec moins d’autres relations avec d’autres détails. , étaient toujours présents dans la base de connaissances du modèle. En utilisant le renforcement de la connaissance à partir du feedback humain (RLHF), une technique courante de formation de modèles d’IA dans laquelle l’IA est récompensée pour les bonnes réponses sous la surveillance humaine pour l’examiner, et les données artificielles produites par le chat Llama 2 lui-même, les chercheurs ont pu améliorer ses performances dans tâches typiques de LLM, notamment le codage, les mathématiques, la compréhension du langage, la réflexion sensée et la réponse aux questions posées par un utilisateur humain. Il n’est pas étonnant que le quartier de l’IA open source Avec des résultats aussi exceptionnels par rapport à la fois à Llama 2 régulier et à Claude 2 d’Anthropic et GPT-3.5 Turbo d’OpenAI, il n’est pas étonnant que la communauté de l’IA open source sur Reddit

et et Hacker News aient révélé

leur affection et leur plaisir pour Llama 2 depuis la sortie du journal plus tôt aujourd’hui – c’est une énorme reconnaissance de l’approche « open source » de Meta en matière d’IA générative, et montre que l’open source peut rivaliser avec la source fermée,  » payer pour jouer » modèles utilisés par les start-ups bien financées. L’objectif de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir une compréhension de l’innovation et des transactions commerciales transformatrices. Découvrez nos aperçus.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici