L’entraînement de grandes quantités de données à l’aide d’algorithmes d’apprentissage en profondeur peut produire des résultats remarquables. Les exemples consistent en Generative Pre-trained Transformer 3 (mieux appelé GPT-3) – actuellement, la conception de langage auto-régressive la plus puissante au monde. Cependant, le plan de dépenses de calcul (et les frais généraux énergétiques) requis par ces énormes entreprises d’intelligence artificielle (IA) ont soulevé des questions sur l’empreinte carbone de l’IA.
Pour être clair, les avantages de l’IA sont importants. GPT-3 peut être considéré comme un texte à saisie semi-automatique sur les stéroïdes. Alimenté par un langage clair, le modèle d’apprentissage en profondeur peut transformer ces instructions lisibles par l’homme en code informatique. C’est une fonctionnalité qui augmente la productivité que Microsoft, qui a accrédité GPT-3 du développeur OpenAI, utilise dans ses soi-disant « Power Apps ». En tirant parti de l’IA, l’application logicielle permet aux utilisateurs d’obtenir des résultats d’affichage de système informatique avec peu ou pas d’expérience de codage.
De l’argent et du temps
Plus tôt cette année, OpenAI a révélé de nouvelles capacités GPT-3 qui permettent non seulement de compléter une phrase inachevée, mais aussi de rendre utile pour le modèle de reformuler un paragraphe existant ou de refactoriser des lignes de code. Arriver à ce point a nécessité une grande offre de puissance de traitement. Le modèle de 175 milliards de critères du GPT-3 aurait nécessité 3,14 E23 FLOPS de calcul pour la formation.
Chuan Li de Lambda Labs, un fournisseur de services cloud, écrit que même à 28 TFLOPS théoriques pour un NVIDIA L’instance cloud Tesla V100 et la tarification cloud réservée sur trois ans la plus abordable que son équipe pourrait trouver, une seule formation prendra 355 années GPU et coûtera environ 4,6 millions de dollars. Il met en évidence le type d’estimation requis pour les modèles de connaissance approfondie à la pointe de la technologie et nous ramène aux préoccupations concernant l’empreinte carbone de l’IA, à condition que les besoins en énergie des GPU.
Alors que la conférence sur l’environnement COP27 est fraîche dans les esprits, les opérations énergivores sont à nouveau sous analyse. Alimenter le cloud computing avec de l’énergie propre est une réponse, mais cela nécessite d’être coordonné pour s’assurer que le traitement accompagne le calendrier de l’électricité respectueuse de l’environnement. Et même cette situation ne résout pas tous les problèmes.
Circuits intégrés photoniques
Il y a également le problème des coûts élevés limitant l’avancement de ces types de modèles d’IA massifs à une poignée de entreprises avec d’énormes poches monétaires. Heureusement, un type d’architecture informatique en plein essor pourrait modifier les choses sur plusieurs fronts : une qui exploite non seulement les électrons, mais aussi les photons.
Au cours de la décennie précédente, les concepteurs de puces ont fait d’excellents développements dans le domaine. de la photonique sur silicium, qui tirent parti des progrès de la fabrication de circuits intégrés à base de silicium pour concevoir une série d’opérations basées sur la lumière. Les circuits intégrés photoniques (PIC) fournissent une faible latence, une bande passante élevée et un traitement naturellement parallèle (en utilisant le multiplexage optique).
Auparavant, les images se sont avérées capables d’effectuer un raisonnement (déduire des fonctionnalités données à l’aide d’un algorithme existant). Cependant, le modèle d’IA lui-même devait encore être formé hors ligne selon une méthode traditionnelle et énergivore. Aujourd’hui, des chercheurs aux États-Unis et au Canada ont en fait développé un principe photo qui peut faire les deux – rapporter leur avance sur le problème le plus récent de la revue Optica (article en libre accès).
L’équipe pense que son matériel unique accélérera la formation des systèmes d’apprentissage automatique et exploitera le meilleur de ce que la photonique et les puces électroniques doivent fournir. Le groupe a en fait travaillé dur sur la construction de versions photoniques de cœurs tenseurs (processeurs qui surpassent les GPU dans la finition des opérations standard liées à l’IA). Et cette nouvelle percée fait partie de cet effort plus important.
La photonique à faible consommation d’énergie avec des caractéristiques de traitement des détails à large bande passante est, sur le papier, bien adaptée pour minimiser l’empreinte carbone de l’IA. Mais lorsqu’il s’agit de former des modèles à connaissance approfondie, «l’étape de rétropropagation» – où les poids du modèle sont ajustés pour généraliser les fonctions affichées par les informations avec plus de précision – a en fait ralenti les choses. Les couches réseau doivent être mises à niveau de manière séquentielle.
Améliorations multicanaux
Pour contourner ce problème, les chercheurs ont adopté une autre approche appelée alignement par rétroaction directe (DFA) qui permet au réseau d’être mis à jour en parallèle. « Lors du passage en arrière, l’erreur de l’étape d’inférence du réseau est encodée sur des entrées optiques multicanaux », décrivent les auteurs dans leur article. « Le circuit électro-optique calcule ensuite le vecteur de gradient pour chaque couche masquée, qui est utilisé pour mettre à niveau les spécifications du réseau stockées dans la mémoire à l’aide d’un système de contrôle numérique externe. »
Une autre difficulté potentielle lors de l’utilisation de PIC au lieu de appareils électroniques purement numériques est le bruit qui est fondamental pour les circuits analogiques. Les réseaux de neurones s’avèrent robustes au bruit (un des facteurs de leur large succès) tout au long du raisonnement et de l’entraînement. De même, grâce à DFA, le son ne s’accumule pas entre les couches du réseau, ce qui serait autrement vrai. Tout au long de la rétropropagation, les erreurs sont passées de la sortie à chacune des couches cachées (les opérations internes de l’algorithme d’IA) dans le cadre du processus de formation.
« La formation des systèmes d’IA coûte une quantité importante d’énergie et l’empreinte carbone », souligne Volker Sorger de l’Université George Washington, l’une des institutions qui ont participé à l’étude de recherche. « Par exemple, un seul transformateur AI consomme environ cinq fois plus de CO2 en énergie électrique qu’un véhicule à essence n’investit au cours de sa durée de vie. » Et le groupe, qui comprend des chercheurs de l’Université Queens, de l’Université de la Colombie-Britannique et de l’Université de Princeton, espère que la formation sur les puces photoniques contribuera à réduire ces frais généraux.
Pour vérifier les opportunités de la technologie photonique dans un environnement industriel, Sorger a en fait créé une start-up appelée Optelligence, avec Hamed Dalir. La société a son siège social à Austin, au Texas, et une usine de production située à Ashburn, en Virginie.
.
Toute l’actualité en temps réel, est sur L’Entrepreneur