dimanche, 28 avril 2024

RedPajama réplique l’ensemble de données LLaMA pour créer des LLM open source à la pointe de la technologie

Vous pensiez que les recommandations d’IA open source aux camélidés étaient terminées ? Détrompez-vous : hier, Together, une société basée à Menlo Park, en Californie, s’est concentrée sur la construction d’un cloud décentralisé et de conceptions open source, a annoncé RedPajama (oui, comme) l’autre jour.

« À bien des égards, l’IA vit son moment Linux », a déclaré l’entreprise dans un article, lié à un article de janvier composé par Chris Re, co-fondateur de Together, enseignant associé et co-fondateur de Stanford de SambaNova, Snorkel.ai et Factory.

RedPajama est une tâche collaborative entre Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research et MILA Québec AI Institute pour développer principaux modèles de grands langages (LLM) entièrement open source. Son effort a commencé avec la publication hier d’un ensemble de données de jetons de 1,2 billion qui suit le plat LLaMA. Les données permettent à toute entreprise de préformer des conceptions qui peuvent être accréditées de manière permissive. L’ensemble de données complet est facilement disponible sur Hugging Face et les utilisateurs peuvent recréer les résultats avec les scripts Apache 2.0 disponibles sur Github.

LLaMA est un LLM fondamental de pointe publié en février par Meta avec un accès sécurisé aux chercheurs. De nombreux autres modèles basés sur LLaMA sont sortis ces dernières semaines, notamment Alpaca, Vicuna et Koala, mais ces modèles n’ont en fait pas été proposés à un usage professionnel. Il y avait aussi un drame LLaMA lorsque le modèle LLaMA a été divulgué sur 4chan.

Événement

Transformer 2023

Rejoignez-nous à San Francisco les 11 et 12 juillet, où des magnats partageront comment ils ont réellement intégré et optimisé les investissements en IA pour succès et éviter les pièges typiques.

Inscrivez-vous maintenant dans

les prochaines semaines

, Together lancera une suite complète de LLM et de variations adaptées aux directives basées sur l’ensemble de données RedPajama. La société a souligné que les conceptions à venir seront entièrement open source et commercialement viables. Dans un tweet, la société a déclaré : « Nous espérons qu’il s’agira d’une version salle blanche et sans drame. Les modèles RedPajama que nous lançons, à partir des prochaines semaines, seront lancés sous la licence Apache 2.0. »

RedPajama fait partie d’une vague d’IA open source

Comme VentureBeat l’a rapporté la semaine dernière, l’IA open source a connu un moment au cours des dernières semaines, suite à la vague de versions LLM et un effort des startups, des collectifs et des universitaires pour repousser le passage de l’IA aux LLM fermés et exclusifs.

Et une conception adjacente à un camélidé, Dolly 2.0 (comme dans Dolly the Sheep), a également fait la une la semaine dernière lorsque son développeur, Databricks, l’a qualifié de tout premier LLM ouvert et suivant les instructions à usage professionnel.

Les plus grands LLM open source avancés comme LLaMA ont en fait été limités au quartier de la recherche. « Ils sont limités en ce sens que vous ne pouvez pas créer d’applications authentiques et les expédier », a déclaré Vipul Ved Prakash, créateur et PDG de Together et ancien cofondateur de Cloudmark et Topsy. « Nous pensons que le fait d’avoir des modèles certifiés de manière permissive est un aspect crucial de l’IA open source. »

Reproduire l’ensemble de données LLaMA n’était pas une mince tâche

L’entreprise a commencé avec LLaMa, qu’elle a appelée la « suite principale de conceptions à base ouverte », en raison du fait qu’elle a été formée sur un « grand ensemble de données soigneusement filtré pour la qualité ». De plus, la conception LLaMA à 7 milliards de critères est « formée beaucoup plus longtemps, bien au-delà du point optimal de Chinchilla, pour assurer la meilleure qualité à cette taille de conception ».

Bien que ni l’ensemble de données ni le modèle ne soient égaux, les concepteurs ont l’intention de produire une recréation totalement open source de LLaMA qui serait proposée pour des applications industrielles, et de fournir un « pipeline plus transparent pour l’étude de la recherche ».

Les développeurs n’avaient pas accès au jeu de données LLaMA mais avaient assez de recette pour continuer. « Nous avons suivi le plat de manière extrêmement approfondie pour recréer essentiellement [l’ensemble de données LLaMA] à partir de zéro », a déclaré Prakash. L’ensemble de données se compose de 7 informations, composées d’informations provenant de Typique Crawl, arxiv, Github, Wikipedia et d’un corpus de livres ouverts.

« Pour chaque élément d’information, nous effectuons un prétraitement et un filtrage attentifs des informations, et ajustons nos filtres de qualité pour qu’ils correspondent approximativement à la variété de jetons telle que rapportée par Meta AI dans le document LLaMA », a consulté le post .

« Toutes les données sur lesquelles LLaMA a été formé sont honnêtement des données facilement disponibles, mais le défi était qu’ils n’ont pas fourni l’ensemble de données réel – il y a beaucoup de travail à faire de l’introduction à l’ensemble de données réel », a déclaré Prakash. Il a discuté, le journal peut expliquer comment ils ont choisi les 10 000 meilleurs parmi un million de fichiers, mais ils ne vous ont pas donné les 10 000. « Nous avons donc suivi le plat pour dupliquer tout ce travail pour développer un ensemble de données équivalent », a-t-il déclaré.

Le débat sur la construction de systèmes transparents

Prakash a déclaré que les collaborateurs du projet RedPajama pensent qu’il est très important que les systèmes soient transparents. « Vous comprenez précisément comment ce design a été construit, ce qui s’y est passé », a-t-il déclaré. « Si vous essayez de l’améliorer, vous pouvez commencer à partir de l’ensemble de données. »

Le projet associe également une plus grande communauté à ces conceptions, a-t-il inclus. « Je dirais que la communauté universitaire a été vraiment exclue de la recherche sur les modèles de structure en raison du niveau de ressources nécessaires, en commençant par les données jusqu’au calcul », a-t-il déclaré. Il a ajouté qu’il y a un petit nombre de personnes sur la planète qui traitent ces grands modèles aujourd’hui, et s’il y avait un accès plus large, « un grand nombre d’individus fantastiques » dans le monde entier auraient la possibilité de consulter différentes instructions d’architectures neuronales, de formation algorithmes et étude de recherche sur la sécurité.

« De même, il s’agit de l’une des toutes premières IA véritablement basiques pouvant être ajustées à divers emplois, et nous pensons que l’applicabilité est extrêmement large », a-t-il déclaré. « Mais plusieurs applications sont possibles simplement si vous avez accès au modèle, aux poids de conception et si vous les ajustez à différents environnements informatiques. Nous constatons que cela se produit en grande partie à cause de l’IA open source. »

Il y a néanmoins un autre côté au différend sur l’IA open source. Ilya Sutskever, chercheur en chef et co-fondateur d’OpenAI, a récemment déclaré qu’il était « mal » de partager une étude de recherche si honnêtement, déclarant que la peur de la concurrence et les inquiétudes concernant la sécurité étaient « évidentes ». Il a ajouté qu ‘ »à un moment donné, il sera assez facile, si l’on le souhaite, de causer beaucoup de dégâts avec ces conceptions ».

Et dans une interview actuelle avec VentureBeat, Joelle Pineau, vice-présidente de l’étude de recherche sur l’IA chez Meta, a déclaré que si la responsabilité et l’ouverture dans les modèles d’IA sont nécessaires, le secret de Meta est d’équilibrer le niveau d’accès, qui peuvent varier en fonction des dommages potentiels du modèle.

« Mon espoir, et cela se voit dans notre méthode d’accès aux données, est de savoir comment permettre l’ouverture pour les audits de vérifiabilité de ces modèles,  » a-t-elle dit, y compris que l’accès à pourrait être décidé en fonction du niveau de préjudice potentiel du modèle.

D’un autre côté, elle a dit que certains niveaux d’ouverture vont trop loin. « C’est pourquoi la conception LLaMA avait une version fermée », a-t-elle décrit. « Beaucoup de gens auraient été ravis d’être totalement ouverts. Je ne pense pas que ce soit la chose responsable à faire aujourd’hui. »

Des débats autour des ensembles de données éthiques également

Il y a également eu des différends sur l’éthique des jeux de données eux-mêmes, que les modèles soient ouverts ou fermés. Un article publié la semaine dernière dans The Guardian a déclaré que « les énormes ensembles de données utilisés pour former la génération la plus récente de ces systèmes d’IA, comme ceux derrière ChatGPT et Stable Diffusion, sont susceptibles d’inclure des milliards d’images extraites d’Internet, d’innombrables ebooks piratés, le l’ensemble des procédures de 16 ans du Parlement européen et l’ensemble de Wikipédia anglophone. »

Prakash déclare qu’il pense que « ces modèles enregistrent d’une certaine manière la production de la société humaine et il y a une sorte d’obligation de les rendre ouverts et fonctionnels par tout le monde ». Il a ajouté que « la plupart de la magie » de ces conceptions provient du fait qu’elles sont formées sur des informations « réellement larges et énormes ».

Il a également mentionné que les données initiales sont considérablement compressées dans la conception réelle. L’ensemble de données RedPajama est de 5 téraoctets, et les conceptions peuvent être aussi petites que 14 Go, ~ 500 fois plus petites que les informations d’origine qu’elles modélisent.

« Cela indique que les connaissances issues des données sont abstraites, transformées et modélisées dans une représentation très différente des poids et des prédispositions des spécifications dans le modèle de réseau neuronal, et non stockées et utilisées dans leur type d’origine », a déclaré Prakache. Donc, il « ne reproduit pas les données de formation – c’est un travail acquis en plus de cela. D’après notre compréhension, il est considéré comme une utilisation équitable tant que la conception ne reproduit pas les données – il en tire profit. »

Il ne fait aucun doute que les arguments de l’IA open source sont très complexes. Cependant, lorsqu’on lui a demandé pourquoi la société avait appelé le nouveau projet RedPajama, la réponse était beaucoup plus basique. « Beaucoup d’entre nous ont des enfants », a déclaré Prakash. « Cela semblait juste agréable. »

La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur les technologies d’entreprise transformatrices et d’effectuer des transactions. Découvrez nos Rundowns.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

xnxx sex download russianporntrends.com hardxxxpics saboten campus freehentai4u.com read manga porn rakhi sex photo ganstagirls.com nani sex video xxx indian girl video download elporno.mobi tamilauntycom bf hd video bf hd video porn555.me anyporn hd tamil beach sex erolenta.com xxx sex boy to boy bustyboobs pakistanixxxx.com nude sexy videos desi sex xvideos.com tubaka.mobi justdesi in free naked dance vegasmpegs.mobi eva grover desi ass lick eroanal.net 69 xvideo 4k xnxx thefuckingtube.com xxii roman numerals translation tamil nayanthara sex sexozavr.com indian porn videos tumblr كلبات سكس porn-arab.net نيك ف الكس y3df comics popsexy.net akhil wife hentai ahri wowhentai.net the sarashina bloodline