Le meilleur d'arXiv.org pour l'IA, l'apprentissage automatique et l'apprentissage profond

Best of arXiv.org for AI, Machine Learning, and Deep Learning – May 2021_60c0c0633ab9e.jpeg

Dans cette fonction mensuelle régulière et récurrente, nous filtrons les articles de recherche récents publiés sur le serveur de préimpression arXiv.org à la recherche de sujets passionnants associés à l’IA, à l’intelligence artificielle et à l’apprentissage en profondeur, issus de disciplines comprenant des statistiques, des mathématiques et de l’informatique – et vous propose une liste bénéfique des « meilleurs de » pour le mois dernier. Des scientifiques du monde entier contribuent à ce référentiel en prélude au processus d’évaluation par les pairs pour la publication dans des revues conventionnelles. arXiv contient une véritable mine d’or d’approches de connaissance statistique que vous pourrez utiliser un jour pour résoudre des problèmes liés aux sciences de l’information. Les articles répertoriés ci-dessous représentent une petite fraction de tous les articles courts apparaissant sur le serveur de préimpression. Ils sont notés sans ordre spécifique avec un lien vers chaque article en plus d’un bref aperçu. Des hyperliens vers les dépôts GitHub sont proposés lorsqu’ils sont facilement disponibles. Les messages particulièrement pertinents sont marqués d’une icône « pouce levé ». Considérez qu’il s’agit de documents de recherche universitaire, normalement adaptés aux étudiants, aux post-doctorants et aux experts qualifiés. Ils contiennent généralement un degré élevé de mathématiques, alors soyez prêt. Régalez-vous !

MLP-Mixer : une architecture entièrement MLP pour la vision

Les réseaux de neurones convolutifs (CNN) sont la conception incontournable pour la vision des systèmes informatiques. Récemment, les réseaux basés sur l’attention, tels que le Vision Transformer, sont également devenus populaires. Cet article montre que si les circonvolutions et l’attention sont toutes les deux suffisantes pour de bonnes performances, aucune d’elles n’est nécessaire. MLP-Mixer est présenté, une architecture basée spécifiquement sur les perceptrons multicouches (MLP). MLP-Mixer se compose de deux types de couches : une avec des MLP utilisés indépendamment pour imager les spots (c’est-à-dire « mélanger » les fonctions par emplacement), et une avec des MLP utilisées à travers les patchs (c’est-à-dire « mélanger » les informations spatiales). Lorsqu’il est formé sur de grands ensembles de données ou avec des plans de régularisation modernes, MLP-Mixer obtient des notes compétitives sur les critères de catégorie d’images, avec un coût de pré-formation et d’inférence comparable aux conceptions de pointe.

Les modèles de diffusion surpassent les GAN sur la synthèse d’images

Cet article révèle que les conceptions de diffusion peuvent atteindre une qualité d’échantillon d’image supérieure aux conceptions génératives modernes actuelles. Ceci est accompli avec une synthèse d’image inconditionnelle en découvrant une meilleure architecture à travers une série d’ablations. Pour la synthèse d’images conditionnelle, nous améliorons encore plus la qualité des échantillons avec l’assistance du classificateur : une approche de base efficace en calcul pour compromettre la variété pour la fidélité en utilisant les gradients d’un classificateur. Le FID obtenu est de 2,97 sur ImageNet 128128, de 4,59 sur ImageNet 256256 et de 7,72 sur ImageNet 512512, et BigGAN-deep est égalé même avec seulement 25 passes avant par échantillon, tout en préservant une meilleure couverture de la distribution. Il a été découvert que le guidage du classificateur s’intègre bien aux conceptions de diffusion à suréchantillonnage, améliorant encore plus le FID à 3,94 sur ImageNet 256256 et 3,85 sur ImageNet 512512. Le code lié à cet article peut être trouvé ICI.

Faites attention aux MLP

Les transformateurs sont en fait devenus l’un des développements architecturaux les plus cruciaux de la connaissance approfondie et ont rendu possible de nombreux progrès par rapport à ces dernières années. Cet article propose une architecture de réseau simple, gMLP, basée sur les MLP avec synchronisation, et révèle qu’elle peut fonctionner avec les Transformers dans des applications de langage et de vision essentielles. Les comparaisons montrent que l’auto-attention n’est pas vitale pour les transformateurs de vision, car gMLP peut atteindre la même précision. Pour BERT, le modèle proposé atteint la parité avec Transformers sur la perplexité de pré-entraînement et est bien meilleur sur certaines tâches NLP en aval. Sur les travaux de réglage fin où gMLP fonctionne moins bien, rendre la conception gMLP considérablement plus grande peut fermer l’espace avec les transformateurs. En gros, les expériences montrent que gMLP peut évoluer aussi bien que Transformers sur des informations et des calculs accrus.

Mesurer la compétence du défi de codage avec les APPS

Alors que les programmes sont parmi les capacités les plus largement pertinentes dans la société moderne, les modèles d’apprentissage automatique modernes ne peuvent toujours pas coder les options pour les problèmes fondamentaux. Malgré sa valeur, l’évaluation de la génération de code a été remarquablement peu étudiée et il peut être difficile d’évaluer correctement les performances de génération de code de manière rigoureuse. Pour surmonter cet obstacle, cet article présente APPS, un standard de génération de code. Contrairement aux travaux antérieurs dans des paramètres plus restreints, ce test de référence examine la capacité des conceptions à prendre une spécification arbitraire du langage naturel et à générer un code Python satisfaisant. Semblable à la façon dont les entreprises évaluent les concepteurs de logiciels candidats, le service proposé examine ensuite les modèles en vérifiant leur code généré sur des cas de test. Les critères consistent en 10 000 problèmes, qui vont des solutions de base en une ligne à des difficultés algorithmiques importantes. Les grands modèles de langage sont affinés à la fois sur GitHub et sur un ensemble d’entraînement unique, et il a été découvert que l’occurrence d’erreurs de syntaxe diminue de manière exponentielle à mesure que les modèles s’améliorent. Les modèles récents tels que GPT-Neo peuvent réussir environ 20% des cas de test des problèmes initiaux, il a donc été découvert que les modèles d’intelligence artificielle commencent maintenant à apprendre à coder. Le code lié à cet article peut être découvert ICI.

Le résultat de la régularisation de Sobolev de la descente de gradient stochastique

La structure multiplicative des paramètres et des informations d’entrée dans la première couche des réseaux de neurones est explorée dans cet article pour établir une connexion entre le paysage de la fonction de perte en ce qui concerne les paramètres et le paysage de la fonction de conception en ce qui concerne les informations d’entrée. Par cette connexion, il est révélé que les minima plats régularisent le gradient de la fonction de conception, ce qui discute la bonne efficacité de généralisation des minima plats. Ensuite, l’article surpasse la planéité et considère les minutes d’ordre élevé du son de gradient, et montre que la descente de gradient stochastique (SGD) a tendance à imposer des contraintes sur ces minutes par une analyse de stabilité directe du SGD autour des minima mondiaux. Avec la structure multiplicative, il est reconnu que l’effet de régularisation Sobolev de SGD, c’est-à-dire que SGD régularise les semi-normes Sobolev de la fonction de conception par rapport aux données d’entrée. Enfin, des limites pour l’erreur de généralisation et l’efficacité contradictoire sont fournies pour les solutions trouvées par SGD sous des présomptions de circulation de l’information.

Mise à l’échelle du clustering aggloméré hiérarchique à des ensembles de données de la taille d’un milliard. HAC) est l’une des approches de clustering les plus anciennes, mais toujours les plus largement utilisées. HAC est notoirement difficile à adapter aux grands ensembles de données car la complexité sous-jacente est au moins quadratique dans le nombre de points d’information et de nombreux algorithmes pour corriger HAC sont naturellement consécutifs. Cet article propose le Mutual Agglomerative Clustering (RAC), un algorithme distribué pour HAC, qui utilise une méthode unique pour fusionner efficacement des clusters en parallèle. L’article prouve en théorie que RAC récupère la solution spécifique de HAC. Sous l’hypothèse de clusterabilité et d’équilibre, il a été révélé des accélérations prouvables dans le temps d’exécution global en raison du parallélisme. Il est également démontré que ces accélérations sont réalisables pour certains modèles d’information probabilistes. Au cours d’expériences approfondies, il a été révélé que ce parallélisme est obtenu sur des ensembles de données réels et que l’algorithme RAC proposé peut récupérer la hiérarchie HAC sur des milliards de points de données liés par des milliers de milliards d’arêtes en moins d’une heure.

Conceptions linguistiques pré-entraînées pour la génération de texte : une étude

La génération de texte est en fait devenue l’une des tâches les plus cruciales et les plus difficiles du traitement du langage naturel (TAL). Le renouvellement de l’apprentissage en profondeur a considérablement fait progresser ce domaine grâce aux modèles de génération de neurones, en particulier le paradigme des conceptions de langage pré-entraînées (PLM). Cet article présente un résumé des avancées significatives réalisées dans le domaine des PLM pour la génération de texte. En guise de préliminaires, l’article fournit la définition générale des tâches et explique brièvement les architectures courantes des PLM pour la génération de texte. En tant que contenu principal, le document explique comment ajuster les PLM existants pour modéliser différentes données d’entrée et satisfaire des propriétés résidentielles ou commerciales spéciales dans le texte généré.

Effet domino : description conceptuelle des réseaux de neurones

Dans de nombreuses circonstances, les décisions humaines sont décrites sur la base de certaines idées de haut niveau. Cet article fait un pas dans l’interprétabilité des réseaux de neurones en analysant leur représentation interne ou les activations des neurones par rapport aux idées. Une idée est définie par un ensemble d’échantillons qui ont des fonctions particulières en commun. Un cadre est proposé pour examiner la présence d’une relation causale entre une idée (ou sa négation) et des catégories d’emplois. Alors que les méthodes précédentes se concentrent sur l’importance d’une idée pour une catégorie d’emplois, l’article va plus loin et introduit 4 mesures pour déterminer quantitativement l’ordre de causalité. Grâce à des expériences, l’efficacité de l’approche proposée est démontrée en discutant de la relation entre un principe et le comportement prédictif d’un réseau de neurones.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

Article précédent

CloudBolt Software stimule la transformation numérique en améliorant le cloud hybride et la gestion multi-cloud

Article suivant

Morpheus Data ajoute des avancées cruciales à Kubernetes pour booster la gestion du cloud hybride

Le meilleur d’arXiv.org pour l’IA, l’apprentissage automatique et l’apprentissage profond – mai 2021

LAISSER UN COMMENTAIRE Annuler la réponse

Catégories populaires

Le choix de la rédaction