jeudi, 7 décembre 2023

L’industrie des puces s’efforce de répondre aux demandes alimentées par l’IA : des LLM plus petits seront-ils utiles ?

Crédit : Shutterstock/IM-imageriery

Intelligence artificielle générative (IA) dans le type L’innovation en matière de traitement du langage naturel a en fait pris d’assaut le monde, avec des organisations de grande taille et peu nombreuses se précipitant pour la tester dans le but de trouver de nouvelles performances et d’automatiser les tâches.

Les géants de la technologie Google, Microsoft et Amazon sont tous utilisent des technologies genAI basées sur le cloud ou les intègrent dans les applications de leur entreprise pour les utilisateurs, les dépenses internationales en matière d’IA par entreprise devant atteindre 301 milliards de dollars d’ici 2026, selon IDC.

Mais les outils genAI prennent une grande part beaucoup de ressources informatiques, principalement pour la formation des grandes conceptions de langage (LLM) qui sous-tendent la similitude entre ChatGPT d’OpenAI et Bard de Google. À mesure que l’utilisation de genAI augmente, la pression sur le matériel utilisé pour exécuter ces conceptions, qui sont les entrepôts d’informations pour le traitement du langage naturel, augmente également.

Les unités de traitement graphique (GPU), qui sont développées en reliant différentes puces, telles que des puces de processeur et de mémoire, en un seul ensemble, sont devenues la structure des plates-formes d’IA en raison du fait qu’ils offrent la bande passante nécessaire pour former et libérer les LLM. Mais les fabricants de puces IA ne peuvent pas suivre la demande. En conséquence, des marchés noirs pour les GPU IA sont apparus ces derniers mois.

Certains attribuent cette pénurie à des entreprises telles que Nvidia, qui a accaparé le marché de la production de GPU et a la mainmise sur les produits. Avant l’essor de l’IA, Nvidia créait et produisait des processeurs haut de gamme qui aidaient à produire des graphismes avancés dans les jeux vidéo – le type de traitement spécialisé qui est désormais très pertinent pour l’intelligence artificielle et l’IA.

La soif de l’IA. pour les GPU

En 2018, OpenAI a publié une analyse montrant que depuis 2012, la quantité de puissance de calcul utilisée dans les plus grandes sessions de formation en IA avait en fait considérablement augmenté, doublant tous les 3,4 mois (en revanche, la loi de Moore postulait que le nombre de transistors dans un circuit intégré double tous les deux ans).

« Depuis 2012, cette mesure a été multipliée par plus de 300 000 (une durée de doublement de 2 ans ne donnerait qu’une augmentation de 7x) » OpenAI a déclaré dans son rapport. « Les améliorations en matière de calcul ont en fait joué un rôle crucial dans le développement de l’IA, donc tant que cette tendance perdure, il vaut la peine de se préparer aux implications de systèmes bien au-delà des capacités actuelles. »

Il n’y a aucune raison de penser la thèse d’OpenAI. a modifié; en vérité, avec l’introduction de ChatGPT en novembre dernier, la demande a grimpé en flèche, selon Jay Shah, chercheur à l’Institute of Electrical and Electronics Engineers (IEEE). « Nous constatons actuellement une forte augmentation des demandes en matériel – principalement en GPU – de la part des grandes entreprises technologiques pour former et vérifier différents modèles d’IA afin d’améliorer l’expérience utilisateur et d’inclure de nouvelles fonctionnalités à leurs éléments existants », a-t-il déclaré.

Parfois, les développeurs LLM tels qu’OpenAI et Amazon semblent se battre pour déterminer qui peut créer le plus grand design. Certains dépassent désormais les 1 000 milliards de paramètres, ce qui suggère qu’ils nécessitent encore plus de puissance de traitement pour s’entraîner et fonctionner.

« Je ne crois pas que rendre les conceptions encore plus grandes ferait avancer le domaine », a déclaré Shah.  » Même à ce stade, la formation de ces modèles reste extrêmement coûteuse en termes de calcul, coûte de l’argent et génère de plus grandes empreintes carbone sur le climat. De plus, le quartier des études de recherche prospère lorsque d’autres peuvent accéder, former, tester et confirmer ces modèles. « 

La majorité des universités et des instituts de recherche ne peuvent pas se permettre de dupliquer et d’améliorer des LLM déjà massifs. Ils se concentrent donc sur la recherche de techniques efficaces qui utilisent moins de matériel et de temps pour former et publier des modèles d’IA, selon Shah. Des techniques telles que l’apprentissage auto-supervisé, le transfert de connaissances, l’apprentissage sans tir et les modèles de base ont en fait donné des résultats prometteurs, a-t-il déclaré.

« Je m’attendrais à un à deux ans de plus pour la recherche sur l’IA. quartier pour trouver une solution réalisable », a-t-il déclaré.

Les start-ups à la rescousse ?

Les start-ups américaines spécialisées dans les puces IA telles que Graphcore, Kneron et approprié Semiconductor se considèrent comme des alternatives aux piliers du marché comme Nvidia. Graphcore, par exemple, propose un nouveau type de processeur appelé système de traitement intelligent (IPU), qui, selon l’entreprise, a été conçu dès le départ pour gérer les besoins informatiques de l’IA. Les puces de Kneron sont développées pour les applications d’IA de pointe, telles que les voitures électriques (VE) ou les structures intelligentes.

En mai, approprié Semiconductor a publié une toute nouvelle architecture à base de silicium appelée « SuperQ », qui, selon elle, peut produire une plus grande efficacité et une plus grande efficacité de tension dans les gadgets semi-conducteurs tels que les diodes, les transistors à effet de champ métal-oxyde-semi-conducteur (MOSFET) et les circuits intégrés.

Bien que la chaîne d’approvisionnement des semi-conducteurs soit vraiment complexe, la partie fabrication a la préparation la plus longue pour mettre en ligne une toute nouvelle capacité, selon Mike Burns, co-fondateur et président de approprié Semiconductor.

 » Bien que faire fonctionner une usine avec une utilisation élevée puisse être très rentable, la faire fonctionner à faible « L’utilisation peut être une catastrophe financière en raison des graves [dépenses en capital] liées aux outils de production », a déclaré Burns.  » Pour ces raisons, les usines se méfient de la croissance des capacités. Divers chocs sur la chaîne d’approvisionnement, notamment le COVID, la géopolitique et les changements dans les types de puces nécessaires pour les véhicules électriques et l’IA, ont en fait produit un certain nombre de restrictions qui pourraient prendre un certain temps. Les restrictions peuvent survenir à n’importe quel niveau, qu’il s’agisse de matières premières prises dans des conditions géopolitiques ou de capacités de production en attente de construction. « 

Alors que les jeux vidéo restent une activité importante pour Nvidia, son organisation émergente en matière d’IA a en fait permis à l’entreprise de gérer plus de 80 % du marché des puces IA. Malgré la forte augmentation des revenus de Nvidia, les analystes voient néanmoins des problèmes potentiels avec sa chaîne d’approvisionnement. L’entreprise crée ses propres puces, mais – comme une grande partie du marché des semi-conducteurs – elle dépend de TSMC pour les produire, ce qui rend Nvidia susceptible de provoquer des perturbations de la chaîne.

De plus, les efforts open source l’ont rendu possible possible pour l’avancement d’une myriade de modèles de langage d’IA, si peu d’entreprises et de startups d’IA se lancent également pour établir des LLM spécifiques à un produit. Et avec les problèmes de confidentialité liés au partage par inadvertance d’informations sensibles par l’IA, de nombreuses entreprises investissent également dans des produits capables d’exécuter de petites conceptions d’IA dans votre région (appelés Edge AI).

Cela est appelé « Edge » car le calcul de l’IA se produit. plus proche de l’utilisateur à la périphérie du réseau où se trouvent les informations, par exemple sur un serveur isolé ou même dans une voiture ou un camion intelligent, par opposition à un LLM situé de manière centrale dans un cloud ou un centre d’information privé.

Edge AI a aidé les radiologues à déterminer des pathologies, à réguler des complexes de bureaux grâce à des gadgets Internet des objets (IoT) et a été utilisé pour contrôler des voitures autonomes. Le marché de l’IA de pointe était évalué à 12 milliards de dollars en 2021 et devrait atteindre 107,47 milliards de dollars d’ici 2029.

« Nous verrons davantage d’éléments efficaces pour exécuter l’IA localement, ce qui augmentera encore le besoin en matériel », a déclaré Shaw.

Les LLM de plus petite taille sont-ils la réponse ?

Avivah Litan, éminent vice-président expert de la société d’études de recherche Gartner, a déclaré que tôt ou tard, la mise à l’échelle des puces GPU cesserait de fonctionner pour suivre le rythme. avec le développement de tailles de conception d’IA. « Donc, continuer à créer des conceptions de plus en plus grandes n’est pas une alternative pratique », a-t-elle déclaré.

Burns de Perfect Semiconductor est du même avis, déclarant :  » Il sera toutefois nécessaire d’établir des LLM et des solutions d’IA plus efficaces. la production supplémentaire de GPU est un élément incontournable de cette formule. « 

 » Nous devons également nous concentrer sur les besoins énergétiques « , a-t-il déclaré.  » Il est nécessaire de maintenir la demande énergétique à la fois en matière de matériel et de centre de données. La formation d’un LLM peut représenter une empreinte carbone considérable. Nous devons voir des améliorations dans la production de GPU, mais aussi dans la mémoire et les semi-conducteurs de puissance qui doivent être utilisés pour concevoir le serveur IA qui utilise le GPU. « 

Plus tôt ce mois-ci, le plus grand fabricant de puces au monde, TSMC, a avoué être confronté à des contraintes de production et à une disponibilité limitée des GPU pour les applications IA et HPC. « Nous ne pouvons actuellement pas répondre à tous les besoins de nos clients, mais nous nous efforçons de répondre à environ 80 % d’entre eux », a déclaré Liu chez Semicon Taiwan. « Cela est considéré comme une étape à court terme. Nous prévoyons une réduction après la croissance de notre capacité avancée de conditionnement de produits à puce, environ dans un an et demi. « 

En 2021, le déclin de la production nationale de puces a mis en évidence une crise mondiale de la chaîne d’approvisionnement qui a suscité des appels à la relocalisation de la production vers les États-Unis. Sous l’impulsion du gouvernement fédéral des par le biais de la loi CHIPS, des sociétés comme Intel, Samsung, Micron et TSMC ont révélé qu’elles préparaient plusieurs nouvelles usines aux États-Unis. (Qualcomm, en partenariat avec GlobalFoundries, prévoit également d’investir 4,2 milliards de dollars pour doubler la production de puces dans son centre de Malte, dans l’État de New York.)

TSMC se prépare à dépenser jusqu’à 36 milliards de dollars cette année pour accélérer la production de puces. , alors même que d’autres entreprises – qu’il s’agisse de fabricants de gadgets incorporés (IDM) ou de fonderies – sont presque ou complètement exploitées, selon la société mondiale de conseil en gestion McKinsey Co.

« L’industrie des puces ne peut pas maintenir. L’innovation GPU évolue plus lentement que l’élargissement et la croissance des tailles de conception », a déclaré Litan. « Le matériel est constamment plus lent à changer que le logiciel. »

Liu de TSMC a cependant déclaré que les contraintes d’approvisionnement en puces d’IA sont « temporaires » et pourraient être atténuées d’ici la fin de 2024, selon un rapport de Nikkei Asia.

La loi américaine sur les puces et la science ainsi que la loi européenne sur les puces ont été suggérées pour répondre aux difficultés de l’offre et de la demande en ramenant et en augmentant la production de puces sur leurs propres côtes. Malgré cela, plus d’un an après l’adoption de la loi CHIPS, TMSC a repoussé la date d’ouverture de sa fonderie de Phoenix, en Arizona, une usine présentée par le président américain Joseph R. Biden Jr. comme la pièce maîtresse de son projet de 52,7 milliards de dollars. agenda de rapatriement des chips. TSMC avait en effet prévu une ouverture en 2024 ; il sera désormais mis en ligne en 2025 en raison du manque de main-d’œuvre compétente. Une deuxième usine TSMC devrait ouvrir ses portes en 2026.

Le plus grand fournisseur mondial de carbure de silicium, Wolfspeed, a récemment avoué qu’il faudra probablement attendre la seconde moitié de la décennie avant que les investissements liés à la loi CHIPS ne soient réalisés. affecter la chaîne d’approvisionnement.

Perfect Semiconductor’s Burns a déclaré que les lois américaines et européennes sur les puces devraient aider à résoudre le problème de la chaîne d’approvisionnement en relocalisant certaines parties de l’industrie des semi-conducteurs pour accroître la résilience du système de fabrication.

<"La loi américaine CHIPS and Science Act a actuellement un impact sur le secteur en élevant la menace de la chaîne d'approvisionnement des semi-conducteurs dans un dialogue national. L'attention désormais concentrée sur les risques de la chaîne d'approvisionnement a propulsé les investissements du secteur économique", a déclaré Burns. " Les fabricants américains ont en fait annoncé leur intention d'étendre leurs capacités, et les investissements financiers dans des pays comme le Texas, l'Ohio, New York et l'Arizona sont en cours. Il faudra du temps pour examiner pleinement dans quelle mesure les CHIPS et la Science Act peuvent résoudre problèmes de chaîne d'approvisionnement existants, mais il s'agit d'un bon premier pas vers l'expansion de la capacité de fabrication nationale. "

Malgré la pénurie de puces IA, les stocks de puces IA ont néanmoins grimpé en flèche, y compris ceux de Nvidia, dont la capitalisation boursière a dépassé le Le cours de son action a plus que triplé au cours des 52 dernières semaines.

Shaw, de l’IEEE, a également gardé à l’esprit que le gouvernement des n’a pas eu la capacité de fournir les fonds qu’il garantissait aux fonderies, ce qui indique par défaut que de nombreuses entreprises technologiques basées aux États-Unis doivent planifier en dépendant des producteurs existants.

« Je pense personnellement qu’il faudrait encore quatre à cinq ans pour fabriquer du matériel sur le sol américain qui est également moins cher que équivalents asiatiques », a déclaré Shaw.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici