vendredi, 29 mars 2024

Cerebras Systems établit un record pour les plus grands modèles d’IA jamais formés sur un seul appareil

Cerebras Systems a déclaré avoir établi le record des plus grands modèles d’IA jamais formés sur un seul gadget, qui dans ce cas est une plaquette de silicium géante avec plusieurs milliers de cœurs.

Je pourrais dire que c’est le record pour une seule puce, mais Cerebras fabrique une grosse puce à partir d’une tranche de silicium de 8,5 pouces de large qui serait normalement découpée en plusieurs puces. Ainsi, le mot « dispositif » devra faire l’affaire car personne d’autre ne fabrique une puce aussi énorme avec 850 000 cœurs et 2,55 billions de transistors.

L’avantage d’une plaquette de la taille d’une assiette

Le système Cerebras CS-2 peut former un langage naturel à plusieurs milliards de paramètres (NLP) composés de modèles GPT-3XL 1,3 milliard, en plus de GPT-J 6B, GPT-3 13B et GPT-NeoX 20B. Cerebras a déclaré que pour la toute première fois, un seul système CS-2 avec une plaquette Cerebras peut former des modèles avec environ 20 milliards de paramètres – une tâche impossible sur aucun autre gadget unique. L’un des systèmes CS-2 tient dans un rack de centre de données standard et mesure environ 26 pouces de haut.

En permettant à un seul CS-2 de former ces conceptions, Cerebras minimise le temps d’ingénierie système nécessaire pour exécuter de grands modèles NLP de plusieurs mois à quelques minutes. Il supprime également l’un des aspects les plus angoissants du NLP, à savoir le partitionnement du modèle sur des centaines ou d’innombrables petites unités de traitement graphique (GPU).

« Il faut environ 16 frappes pour configurer », a déclaré Andrew Feldman, PDG de Cerebras Systems, dans une interview.

Le inconvénient d’utiliser des GPU avec des conceptions d’IA

Feldman a expliqué que les modèles plus grands se sont avérés plus précis pour le NLP. Quelques entreprises disposaient des ressources et de l’expertise nécessaires pour accomplir la tâche ardue de décomposer ces grands modèles et de les répartir sur des centaines ou des milliers de GPU, qui sont le concurrent informatique des appareils de Cerebras.

« Cela signifie que chaque réseau doit être réorganisé, redistribué et tout le travail doit être refait, pour chaque cluster », a-t-il déclaré. « Si vous souhaitez changer ne serait-ce qu’un GPU parce que cluster, vous devez rénover tout le travail. Si vous souhaitez apporter la conception à un cluster différent, vous rénovez le travail. Si vous souhaitez apporter une nouvelle conception à ce cluster, vous doivent rénover le travail. »

Cerebras démocratise l’accès à certaines des plus grandes conceptions de l’environnement de l’IA, a déclaré Feldman.

« GSK génère des ensembles de données exceptionnellement volumineux grâce à ses caractéristiques génomiques et génétiques recherche, et ces ensembles de données ont besoin d’un tout nouvel équipement pour mener l’intelligence artificielle », a déclaré Kim Branson, vice-président senior de l’IA et de l’intelligence artificielle chez GSK, dans une déclaration. « Le Cerebras CS-2 est un composant essentiel qui permet à GSK de former des conceptions de langage en utilisant des ensembles de données biologiques à une échelle et une taille auparavant inaccessibles. Ces modèles fondamentaux constituent la base d’un certain nombre de nos systèmes d’IA et jouent un rôle essentiel dans la découverte de médicaments de transformation. »

Ces capacités sont rendues possibles par une combinaison de la taille et des ressources de calcul disponibles dans le Cerebras Wafer Scale Engine-2 (WSE-2) et les extensions d’architecture d’application logicielle Weight Streaming facilement disponibles via la version de la variation R1 .4 de la plate-forme d’application logicielle Cerebras, CSoft.

Puce de la taille d’une plaquette CS-2 de Cerebras.

Lorsqu’une conception tient sur un seul processeur, la formation à l’IA est facile, a déclaré Feldman. Cependant, lorsqu’un modèle a soit plus de spécifications que la mémoire ne peut convenir, soit qu’une couche nécessite plus de calculs qu’un seul processeur ne peut gérer, la complexité explose. La conception doit être divisée et répartie sur des centaines ou des milliers de GPU. Ce processus fait mal, prenant souvent des mois pour se terminer.

« Nous avons en fait pris quelque chose qui prend actuellement des mois à la communauté ML et nous l’avons transformé en 16 frappes », a déclaré Feldman.

Réduire le besoin d’ingénieurs système

Pour aggraver les choses, le processus est distinct pour chaque ensemble de clusters de calcul réseau, de sorte que le travail n’est pas portable vers divers clusters de calcul ou sur des réseaux de neurones. C’est totalement sur mesure, et c’est pourquoi les entreprises publient des documents à ce sujet lorsqu’elles gèrent cette réalisation, a déclaré Feldman. C’est un énorme problème d’ingénierie système, et ce n’est pas quelque chose pour lequel les experts en intelligence artificielle sont formés.

« Notre annonce permet à toute entreprise d’accéder aux plus grands modèles en montrant qu’ils peuvent être formés rapidement et rapidement sur un seul appareil », a déclaré Feldman.

Il a déclaré qu’il est difficile de faire cela sur un cluster de GPU car « la propagation d’un grand réseau de neurones sur un cluster de GPU est profondément difficile. »

Il a ajouté : « C’est un problème multidimensionnel de Tetris, où vous devez décomposer le calcul, la mémoire et la communication et les répartir sur des centaines ou d’innombrables unités de traitement graphique. »

Le plus grand processeur jamais construit

Cerebras a une variété de consommateurs de calcul intensif.

Le Cerebras WSE-2 est le plus grand processeur jamais développé. Il est 56 fois plus grand, possède 2,55 billions de transistors supplémentaires et 100 fois plus de cœurs de calcul que le plus grand GPU. La taille et les ressources de calcul du WSE-2 permettent à chaque couche des plus grands réseaux de neurones de s’adapter. L’architecture Cerebras Weight Streaming désagrège la mémoire et le calcul, permettant à la mémoire (qui est utilisée pour stocker les paramètres) de croître indépendamment du calcul. Par conséquent, un seul CS-2 peut prendre en charge des conceptions avec de nombreux milliards, voire des milliards de paramètres.

« Simplement par méthode de pointe, lorsque nous affirmons que nous sommes énormes, nous avons 123 fois plus de cœurs et 1 000 fois plus de mémoire et 12 000 fois plus de bande passante mémoire » qu’une option GPU, a déclaré Feldman. « Et nous avons développé une stratégie appelée poids en continu, où nous pouvions garder la mémoire hors puce désagrégée de la tranche. »

Les unités de traitement graphique, d’autre part, ont une quantité définie de mémoire par GPU, a déclaré Feldman . Si la conception nécessite plus de critères que de mémoire, il faut acheter plus de processeurs graphiques et ensuite répartir le travail sur plusieurs GPU. Le résultat est une explosion de complexité. L’option Cerebras est beaucoup plus simple et plus élégante : en désagrégeant le calcul de la mémoire, l’architecture Weight Streaming permet de prendre en charge des conceptions avec n’importe quelle variété de spécifications à exécuter sur un seul CS-2.

Réinventer le temps d’installation et la mobilité

Grâce à la capacité de calcul du WSE-2 et à l’élégance architecturale de l’architecture Weight Streaming, Cerebras est capable de prendre en charge, sur un seul système, les plus grands réseaux NLP, a déclaré Feldman. En prenant en charge ces réseaux sur un seul CS-2, Cerebras réduit le temps de configuration à quelques minutes et rend possible la mobilité des conceptions. On peut basculer entre GPT-J et GPT-Neo, par exemple, en quelques frappes, une tâche qui prendrait des mois de temps d’ingénierie à accomplir sur un cluster de centaines de GPU.

Cerebras déclare d’énormes avantages par rapport aux GPU.

« La capacité de Cerebras à proposer aux masses de grands modèles de langage avec un accès facile et économique ouvre une nouvelle ère passionnante dans l’IA. Il offre aux organisations qui ne peuvent pas dépenser des dizaines de millions un moyen simple et peu coûteux pour -rampe vers la PNL des ligues majeures », a déclaré Dan Olds, directeur de recherche principal à l’étude Intersect360 Research, dans une déclaration. « Il sera fascinant de voir les nouvelles applications et découvertes que les clients CS-2 feront en formant des modèles de classe GPT-3 et GPT-J sur d’énormes ensembles de données. »

Adoption mondiale

Cerebras a des clients aux et au Canada, en Asie, en et au Moyen-Orient. Il fournit des solutions d’IA à une liste croissante de consommateurs dans les secteurs de l’entreprise, du gouvernement et du calcul haute performance (HPC) comprenant GSK, AstraZeneca, TotalEnergies, nference, Argonne National Laboratory, Lawrence Livermore National Lab, Pittsburgh Supercomputing Center, Leibniz Supercomputing Centre, National Center for Supercomputing Applications, Edinburgh Parallel Computing Centre (EPCC), National Energy Technology Laboratory et Tokyo Electron Devices.

« Non seulement avons-nous ces clients, mais ils sont là-bas en train de dire de très bons aspects de nous », a déclaré Feldman. «  a déclaré que la formation qui prenait auparavant 2 semaines sur des clusters de GPU, nous l’avons réalisée en quelques jours. »

GSK a déclaré que Cerebras était capable d’effectuer un travail 10 fois plus rapide que 16 GPU.

« Des offres intéressantes de clients sympas résolvent des problèmes intrigants », a déclaré Feldman. « La quantité de calcul utilisée dans ces grands modèles de langage a en fait augmenté de façon exponentielle. Et ces conceptions de langage sont devenues si importantes que seule une infime partie du marché peut les former. Nous avons un changement qui fournit à la grande majorité de l’économie le capacité à former ces conceptions à toute entreprise ayant accès aux plus grands modèles. »

La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques de mieux comprendre sur l’innovation commerciale transformatrice et négocier. En savoir plus sur l’adhésion.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici