vendredi, 29 mars 2024

Le meilleur d’arXiv.org pour l’IA, l’apprentissage automatique et l’apprentissage profond – Mars 2021

Dans cette fonction mensuelle répétitive, nous filtrons les articles de recherche en cours apparaissant sur le serveur de pré-impression arXiv.org pour des sujets convaincants liés à l’IA, à l’apprentissage automatique et à l’apprentissage en profondeur – dans des disciplines telles que statistiques, mathématiques et technologie informatique – et vous offrir une liste utile des «meilleurs» du mois dernier. Des chercheurs du monde entier ajoutent à ce référentiel comme point de départ du processus d’évaluation par les pairs pour publication dans des revues standard. arXiv contient une véritable aubaine de techniques de connaissance statistique que vous pourriez utiliser un jour dans l’option des questions de science des données. Les articles courts répertoriés ci-dessous représentent une petite partie de tous les articles courts apparaissant sur le serveur de pré-impression. Ils sont listés sans ordre spécifique avec un lien vers chaque article ainsi qu’une brève introduction. Les hyperliens vers les dépôts GitHub sont fournis lorsqu’ils sont disponibles. Les articles courts particulièrement pertinents sont signalés par une icône «thumbs up». Pensez qu’il s’agit de documents de recherche universitaire, généralement adaptés aux étudiants diplômés, aux post-doctorants et aux experts chevronnés. Ils comprennent généralement un degré élevé de mathématiques, alors soyez prêt. Amusez-vous bien!

Comprendre la robustesse des transformateurs pour la classification d’images

Les réseaux neuronaux à convolution profonde (CNN) sont depuis longtemps l’architecture de choix pour les tâches de vision par ordinateur. Récemment, les architectures basées sur Transformer comme Vision Transformer (ViT) ont en fait égalé et même dépassé les ResNets pour la catégorie d’image. Néanmoins, les informations de l’architecture Transformer – comme l’utilisation de spots non superposés – amènent à se demander si ces réseaux sont aussi robustes. Cet article mène une étude approfondie de diverses procédures de robustesse des conceptions ViT et compare les résultats aux normes ResNet. On examine l’efficacité de l’entrée des perturbations ainsi que la ténacité pour modéliser les perturbations. L’article découvre que lorsqu’ils sont pré-formés avec une quantité suffisante de données, les modèles ViT sont au moins aussi robustes que les équivalents ResNet sur une large gamme de perturbations. On a également découvert que les transformateurs sont robustes à la suppression de presque toutes les couches simples, et que si les activations des couches ultérieures sont fortement associées les unes aux autres, elles jouent cependant une fonction cruciale dans la classification.

GPT comprend, aussi

Alors que les GPT avec un réglage fin standard cessent de fonctionner pour obtenir des résultats solides sur la compréhension du langage naturel (NLU), cet article montre que les GPT peuvent être bien meilleurs ou similaires à des éléments similaires. BERT dimensionnés sur les tâches NLU avec une technique unique de réglage P – qui utilise des plongements continus et opportuns pouvant être entraînés. Sur le benchmark d’exploration des connaissances (LAMA), le meilleur GPT récupère 64% (P @ 1) de la compréhension du monde sans aucun texte supplémentaire offert pendant toute la durée du test, ce qui améliore considérablement le meilleur précédent de 20 points de pourcentage. Sur la norme SuperGlue, les GPT atteignent des performances similaires et dans certains cas bien meilleures que les BERT de taille similaire en connaissance supervisée. De manière significative, il a été constaté que le réglage P améliore également les performances des BERT dans les réglages à quelques coups et supervisés tout en réduisant largement le besoin d’une ingénierie rapide. Le réglage P dépasse les approches modernes sur les critères SuperGlue à quelques coups.

Pré-entraînement auto-supervisé des caractéristiques visuelles dans la nature

Récemment, auto- des méthodes de connaissance supervisée comme MoCo, SimCLR, BYOL et SwAV ont en fait réduit l’espace avec des approches surveillées. Ces résultats ont en fait été obtenus dans un environnement de contrôle, c’est-à-dire l’ensemble de données ImageNet hautement organisé. Le principe de la connaissance auto-supervisée est qu’il peut trouver à partir de n’importe quelle image aléatoire et de tout ensemble de données illimité. Ce travail explore si l’auto-surveillance répond à ses attentes en formant de grands modèles sur des images aléatoires et non saturées sans aucune supervision. Le modèle final SElf-supERvised (SEER), un RegNetY avec des spécifications de 1,3 B formé sur des images aléatoires 1B avec 512 GPU atteint une précision de 84,2% dans le top 1, dépassant de 1% la meilleure conception pré-entraînée auto-supervisée et confirmant cet apprentissage auto-supervisé fonctionne dans un environnement réel. Étonnamment, on observe également que les modèles autocontrôlés sont d’excellents apprenants peu nombreux, atteignant 77,9% dans le top 1 avec un accès à seulement 10% d’ImageNet. Le code associé à cet article peut être découvert ICI.

Comment diminuer votre taux d’apprentissage

Les barèmes de taux complexes sont en fait devenus une partie importante de la connaissance approfondie. Cette recherche montre empiriquement que les horaires ajustés typiquement diminuent le taux d’apprentissage après que la norme de poids rebondit. Cela provoque la proposition d’ABEL: un ordonnanceur automatisé qui décompose le taux d’apprentissage en surveillant la norme de poids. L’efficacité d’ABEL correspond à celle des horaires réglés et est plus robuste par rapport à ses critères. Grâce à des expériences approfondies en vision, PNL et RL, il est démontré que si le poids standard ne rebondit pas, il est possible de rationaliser encore plus les horaires sans perte d’efficacité. Dans de tels cas, un programme complexe a une efficacité similaire à un taux de connaissance continu avec une décroissance à la fin de la formation.

Apprentissage machine quantique fédéré

Dispersé la formation à travers de nombreux systèmes informatiques quantiques pourrait considérablement améliorer le temps de formation et si nous pouvions partager la conception découverte, et non les informations, cela pourrait éventuellement améliorer la confidentialité des informations, car la formation aurait lieu là où se trouvent les informations. On pense qu’aucun travail n’a encore été effectué dans le domaine de l’apprentissage automatique quantique (QML) dans le cadre de la fédération. Cet article fournit la formation fédérée sur les modèles hybrides de recherche de machine quantique classique, bien que la structure puisse être généralisée à la conception d’apprentissage de fabricant quantique pur. Plus précisément, on a pensé au réseau de neurones quantiques (QNN) couplé au modèle convolutif classique pré-entraîné. Le schéma d’apprentissage fédéré dispersé a démontré pratiquement le même niveau exact de précision des modèles expérimentés et pourtant une formation distribuée considérablement plus rapide. Il démontre une orientation de recherche future attrayante pour les aspects de mise à l’échelle et de confidentialité.

Une étude des approches de quantification pour une inférence efficace des réseaux neuronaux

Aussi rapidement que des calculs mathématiques abstraits ont été adaptés au calcul sur les systèmes informatiques numériques, à la question de la représentation efficace, de l’ajustement et de la communication des valeurs numériques dans ces calculs développés. La question de la quantification est fortement associée au problème de la représentation numérique: de quelle manière un ensemble de nombres constants à valeur réelle devrait-il être dispersé sur un ensemble discret réparé de nombres afin de réduire la variété de bits nécessaires et aussi de tirer le meilleur parti de la précision des calculs associés? Ce problème saisonnier de quantification est particulièrement pertinent chaque fois que la mémoire et / ou les ressources de calcul sont fortement restreintes, et il est resté à la fine pointe au cours des dernières années en raison de l’incroyable efficacité des modèles de réseaux de neurones dans la vision de système informatique, le traitement du langage naturel, et les emplacements connexes. Passer de représentations à virgule flottante à des valeurs entières réparées de faible précision représentées en 4 bits ou moins offre le potentiel de réduire l’empreinte mémoire et la latence d’un élément de 16x; et, en fait, des diminutions de 4x à 8x sont fréquemment réalisées en pratique dans ces applications. Ainsi, il n’est pas surprenant que la quantification soit apparue récemment comme un sous-domaine d’étude de recherche crucial et extrêmement actif dans l’application efficace des calculs liés aux réseaux de neurones. Cet article étudie les approches de la question de la quantification des valeurs mathématiques dans les calculs de réseaux de neurones profonds, en couvrant les avantages / inconvénients des techniques existantes.

Découvrir pour améliorer: un guide et une norme

Découvrir pour améliorer (L2O) est une technique émergente qui exploite fabricant de découvrir pour établir des méthodes d’optimisation, visant à réduire les modèles fastidieux de l’ingénierie manuelle. Il automatise la conception d’une technique d’optimisation en fonction de ses performances sur un ensemble de problèmes de formation. Ce traitement basé sur les données produit des approches capables de résoudre efficacement des problèmes comparables à ceux de la formation. À l’opposé, les styles normal et traditionnel des approches d’optimisation sont fondés sur la théorie, de sorte qu’ils obtiennent des garanties d’efficacité sur les classes de problèmes spécifiées par la théorie. La différence rend L2O idéal pour résoudre à plusieurs reprises un type spécifique de problèmes d’optimisation sur une distribution particulière d’informations, alors qu’il échoue généralement sur des problèmes de non-distribution. La fonctionnalité de L2O dépend du type d’optimisation de la cible, de l’architecture sélectionnée de la technique à découvrir et de la procédure d’apprentissage. Ce tout nouveau paradigme a motivé un quartier de chercheurs à découvrir L2O et à rendre compte de leurs résultats. Cet article est en passe de devenir l’enquête initiale complète et la référence de L2O pour une optimisation constante. Le code lié à cet article peut être découvert ICI.

Accélération matérielle de l’intelligence artificielle explicable utilisant des unités de traitement Tensor

L’apprentissage automatique (ML) réussit à atteindre des performances au niveau humain dans de nombreux domaines. Cependant, il n’a pas la capacité de décrire un résultat en raison de sa nature de boîte noire. Bien que le ML explicable existant soit attrayant, pratiquement toutes ces approches se concentrent sur l’interprétabilité du formatage en tant que problème d’optimisation. Une telle cartographie aboutit à de nombreux modèles de calculs longs et complexes, ce qui limite leur applicabilité dans les applications en temps réel. Dans cet article, nous proposons un cadre unique pour accélérer le ML explicable en utilisant des unités de traitement Tensor (TPU). La structure proposée utilise la synergie entre la convolution matricielle et la transformée de Fourier, et tire pleinement parti de la capacité naturelle du TPU à accélérer les calculs matriciels. Plus précisément, cet article apporte trois contributions cruciales. (1) Au meilleur de la compréhension de l’auteur, le travail proposé est la toute première tentative pour permettre l’accélération matérielle du ML explicable à l’aide de TPU. (2) L’approche proposée s’applique à un large éventail d’algorithmes ML, et l’utilisation efficace de la vitesse basée sur le TPU peut conduire à une interprétation des résultats en temps réel. (3) Des résultats spéculatifs complets démontrent que la technique proposée peut fournir une accélération d’ordre de grandeur à la fois en temps de classification (25x en moyenne) et en temps d’analyse (13x généralement) par rapport aux techniques modernes.

Une étude sur l’anticipation de la factualité et des préjugés des médias d’information

Le niveau actuel de prolifération de matériel faux, préjugé et de propagande en ligne a rendu difficile la vérification factuelle de chaque allégation suspecte ou article, soit à la main, soit immédiatement. Par conséquent, de nombreux chercheurs portent leur attention sur une granularité plus élevée, dans l’intention de profiler des médias entiers, ce qui permet de trouver de probables « fausses nouvelles » au moment où elles sont publiées, en examinant simplement la fiabilité de leur source. La factualité à la source est également un élément important des systèmes de vérification automatique des faits et de détection des «fausses nouvelles», car ils nécessitent d’examiner la fiabilité des preuves qu’ils obtiennent en ligne. La détection des prédispositions politiques, qui dans le paysage politique occidental consiste à prédire le biais gauche-centre-droite, est un sujet tout aussi important, qui a en fait connu un changement similaire vers le profilage de tous les organes de presse. En outre, il existe un lien clair entre les 2, car les médias extrêmement biaisés sont moins susceptibles d’être précis; pourtant, les 2 problèmes ont en fait été traités séparément. Cette enquête examine l’état de l’art sur le profilage des médias pour la factualité et la prédisposition, arguant de la nécessité de les modéliser collectivement.

Analyse ROC approfondie et AUC en tant que précision moyenne équilibrée pour améliorer la sélection, la compréhension et l’interprétation des modèles

Des performances optimales sont vitales pour les tâches de prise de décision, de la prise de médicaments à la conduite autonome, mais les étapes de performance courantes peuvent être trop basiques ou trop spécifiques. Pour les classificateurs binaires, les tests de diagnostic ou le pronostic à un moment donné, des mesures telles que l’emplacement sous la courbe caractéristique de fonctionnement du récepteur, ou la zone sous la courbe de rappel de précision, sont trop basiques car elles consistent en des limites de choix peu pratiques. D’autre part, les étapes telles que la précision, le niveau de sensibilité ou le score F1 sont des procédures à un seul seuil qui reflètent une probabilité unique privée ou un risque prévu, plutôt qu’une série d’individus ou de danger. Cet article propose une méthode intermédiaire, une analyse ROC approfondie, qui examine des groupes de probabilités ou de menaces anticipées pour une analyse plus perspicace. L’étude de recherche assimile les étapes ésotériques en termes familiers: l’ASC et l’ASC partielle concordante normalisée sont une précision moyenne bien équilibrée (une nouvelle découverte); l’ASC partielle stabilisée est une sensibilité typique; et l’ASC partielle horizontale stabilisée est la spécificité moyenne.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici