Le meilleur d'arXiv.org pour l'IA, l'apprentissage automatique et l'apprentissage profond

Dans cette fonction mensuelle récurrente, nous filtrons les articles d’études de recherche récents publiés sur le serveur de préimpression arXiv.org pour des sujets passionnants liés à l’IA, l’intelligence artificielle et l’apprentissage en profondeur. – des disciplines comprenant les statistiques, les mathématiques et l’informatique – et vous fournir une liste utile des « best of » pour le mois précédent. Des chercheurs du monde entier ajoutent à ce référentiel comme point de départ du processus d’examen par les pairs pour la publication dans des revues traditionnelles. arXiv comprend un véritable trésor de techniques de connaissance statistique que vous pourriez utiliser un jour pour résoudre des problèmes liés aux sciences de l’information. Les articles notés ci-dessous représentent une petite fraction de tous les messages apparaissant sur le serveur de préimpression. Ils sont répertoriés sans ordre particulier avec un lien vers chaque article ainsi qu’un résumé rapide. Les hyperliens vers les dépôts GitHub sont fournis lorsqu’ils sont facilement disponibles. Les articles courts particulièrement pertinents sont marqués d’une icône « pouce levé ». Considérez qu’il s’agit de documents de recherche universitaire, généralement adaptés aux étudiants diplômés, aux post-doctorants et aux experts chevronnés. Ils comprennent généralement un degré élevé de mathématiques, alors soyez prêt. Amusez-vous bien !

Examen des conceptions de connaissances approfondies pour les données tabulaires

Le besoin de connaissances approfondies pour les informations tabulaires est toujours une préoccupation sans réponse abordée par de nombreuses recherches efforts. La littérature actuelle sur la DL tabulaire propose un certain nombre d’architectures profondes signalées comme remarquables par rapport aux conceptions « peu profondes » conventionnelles telles que les arbres à choix améliorés par gradient. Cependant, étant donné que les travaux existants utilisent fréquemment des références et des protocoles de réglage différents, il n’est pas certain que les modèles proposés surpassent largement le GBDT. Les modèles ne sont souvent pas comparés les uns aux autres, pour cette raison, il est difficile de déterminer la meilleure conception profonde pour les professionnels. Cet article commence par un examen complet des principales familles de modèles DL récemment développés pour les données tabulaires. Les auteurs les ajustent et les évaluent soigneusement sur une grande variété d’ensembles de données et révèlent 2 résultats substantiels. Premièrement, il est montré que le choix entre les modèles GBDT et DL dépend fortement de l’information et qu’il n’y a toujours pas de service universellement remarquable. Deuxièmement, il a été démontré qu’une architecture de base de type ResNet est une norme étonnamment efficace, qui dépasse la majorité des modèles sophistiqués de la littérature DL. Les auteurs développent un ajustement simple de l’architecture Transformer pour les informations tabulaires qui deviennent une nouvelle base de référence DL solide et réduisent l’écart entre les modèles GBDT et DL sur les ensembles de données où GBDT domine. Le dépôt GitHub lié à cet article peut être trouvé ICI.

SAINT : Réseaux de neurones améliorés pour les données tabulaires grâce à l’attention aux lignes et au pré-entraînement contrastif

Les données tabulaires sous-tendent divers impactent les applications de l’apprentissage automatique, de la détection des escroqueries à la génomique et aux soins de santé. Les approches classiques pour résoudre les problèmes tabulaires, telles que l’amplification de gradient et les forêts aléatoires, sont largement utilisées par les professionnels. Cependant, les récentes approches de connaissance approfondie ont en fait atteint un degré d’efficacité compétitif par rapport aux techniques populaires. Cet article conçoit une approche hybride d’apprentissage en profondeur pour résoudre les problèmes de données tabulaires. L’approche proposée, SAINT, porte l’attention sur les lignes et les colonnes, et elle comprend une technique d’intégration améliorée. L’article étudie également une nouvelle approche contrastive de pré-formation auto-supervisée à utiliser lorsque les étiquettes sont rares. SAINT améliore régulièrement l’efficacité par rapport aux méthodes de connaissance approfondie précédentes, et il surpasse même les approches d’amélioration du gradient, comprenant XGBoost, CatBoost et LightGBM, en moyenne sur une gamme de travaux de référence. Le dépôt GitHub associé à cet article peut être trouvé ICI.

GANs N’ Roses : traduction d’image en image stable, contrôlable et variée (fonctionne aussi pour les vidéos !)

La recherche détaillée dans cet article montre comment pour apprendre une carte qui prend un code de contenu, provenant d’une image de visage, et un code de conception arbitrairement choisi à une image d’anime. Une perte contradictoire de nos définitions simples et efficaces de la conception et du matériau est dérivée. Cette perte contradictoire garantit que la carte est diversifiée – une très large gamme d’anime peut être produite à partir d’un seul code matériel. Sous des hypothèses plausibles, la carte n’est pas simplement diversifiée, mais représente également correctement la possibilité d’un anime, conditionnée par une face d’entrée. En revanche, les traitements de génération multimodaux existants ne peuvent pas enregistrer les styles complexes qui apparaissent dans l’anime. Des expériences quantitatives substantielles soutiennent le concept selon lequel la carte est correcte. Des résultats qualitatifs complets montrent que la méthode peut créer une gamme de styles beaucoup plus diversifiée que les contrastes SOTA. L’article révèle que la formalisation du contenu et du design permet de réaliser une traduction de vidéo en vidéo sans jamais se former sur les vidéos. Le dépôt GitHub associé à cet article peut être trouvé ICI.

Choice Transformer : Renforcement Knowing grâce à la modélisation de séquence

Cet article présente une structure qui fait abstraction de la connaissance du renforcement (RL) en tant que problème de modélisation de séquence. Cela permet de mettre en jeu la simplicité et l’évolutivité de l’architecture Transformer, et les avancées associées dans la modélisation des langages telles que GPT-x et BERT. En particulier, l’article présente Choice Transformer, une architecture qui présente le problème de la RL comme une modélisation de séquence conditionnelle. Contrairement aux techniques précédentes de RL qui correspondent à des fonctions de valeur ou calculent des gradients de politique, Choice Transformer génère simplement les actions optimales en tirant parti d’un transformateur masqué de manière causale. En conditionnant un modèle autorégressif sur le rendement souhaité (récompense), les états passés et les actions, le modèle du Transformateur de décision peut produire des actions futures qui permettent d’obtenir le rendement souhaité. Malgré sa simplicité, Decision Transformer correspond ou va au-delà des performances des normes RL hors ligne sans modèle de pointe sur Atari, OpenAI Health Club et les tâches Key-to-Door. Le dépôt GitHub lié à cet article peut être découvert ICI.

Une enquête sur la synthèse vocale neuronale

La synthèse vocale (TTS), ou synthèse vocale, qui vise à fabriquer un texte intelligible et naturel à partir d’un texte donné, est un sujet de recherche brûlant dans le domaine de la parole , des langues et des communautés d’intelligence artificielle et a de larges applications sur le marché. En tant que développement de l’apprentissage en profondeur et du système expert, le TTS basé sur un réseau de neurones a considérablement amélioré la qualité de la parole synthétisée au cours des dernières années. Cet article effectue une étude détaillée sur le TTS neuronal, dans le but de fournir une bonne compréhension des recherches existantes et des modèles futurs. L’accent est mis sur les composants essentiels du TTS neuronal, notamment l’analyse de texte, les conceptions acoustiques et les vocodeurs, ainsi que sur de nombreux sujets avancés, notamment le TTS rapide, le TTS à faibles ressources, le TTS robuste, le TTS expressif et le TTS adaptatif, etc. Le document résume encore plus les ressources liées au TTS (par exemple, les ensembles de données, les exécutions open source) et passe en revue les instructions des futures études de recherche.

Réduction de dimensionnalité interactive pour l’analyse comparative

Découvrir les similitudes et les différences entre deux ou plusieurs groupes d’ensembles de données est une tâche d’analyse de base. Pour les informations de grande dimension, les techniques de diminution de la dimensionnalité (DR) sont souvent utilisées pour découvrir les attributs de chaque groupe. Les approches de reprise après sinistre existantes offrent une capacité et une polyvalence limitées pour une telle analyse relative, car chaque approche est développée uniquement pour une cible d’analyse étroite, telle que la détermination des facteurs qui séparent la plupart des groupes. Cet article présente un cadre DR interactif dans lequel une nouvelle technique DR, appelée ULCA (analyse comparative linéaire unifiée), est intégrée à une interface utilisateur visuelle interactive. ULCA fusionne deux plans de DR, l’analyse discriminante et la connaissance contrastive, pour soutenir divers travaux d’analyse comparative. Pour fournir de la flexibilité pour l’analyse comparative, un algorithme d’optimisation a été établi qui permet aux experts d’améliorer de manière interactive les résultats de l’ULCA. De plus, une interface de visualisation interactive est fournie pour examiner les résultats de l’ULCA avec un ensemble abondant de bibliothèques d’analyse.

Application logicielle pour XAI à l’échelle de l’ensemble de données : des explications régionales aux informations globales avec Zennit, CoRelAy et ViRelAy

Les réseaux de neurones profonds (DNN) sont compris être de bons prédicteurs, mais leurs stratégies de prévision peuvent rarement être comprises. Avec les progrès récents de l’IA explicable, des méthodes sont facilement disponibles pour explorer la pensée derrière les prévisions de ces modèles complexes. Une classe de méthodes sont les techniques d’attribution post-hoc, parmi lesquelles la prolifération de la pertinence par couche (LRP) montre une grande efficacité. La tentative de comprendre la pensée d’un DNN s’arrête souvent aux attributions obtenues pour des échantillons spécifiques dans l’espace d’entrée, laissant intacte la capacité d’analyses quantitatives plus approfondies. Comme une analyse manuelle sans les bons outils est généralement inutilement laborieuse, cet article présente trois plans logiciels destinés aux chercheurs pour explorer le raisonnement de modèle à l’aide de méthodes d’attribution et au-delà : (1) Zennit – un cadre d’attribution hautement ajustable et intuitif exécutant LRP et méthodes associées dans PyTorch, (2) CoRelAy – un cadre pour construire facilement et rapidement des pipelines d’analyse quantitative pour des analyses d’explications à l’échelle de l’ensemble de données, et (3) ViRelAy – une application Web pour vérifier de manière interactive les données, les attributions et l’analyse résultats.

Vers une génération automatique de la parole en langue des signes

La recherche dont il est question dans cet article vise à résoudre la tâche très difficile de créer des vidéos constantes en langue des signes. uniquement à partir de sections de discours pour la toute première fois. Les efforts actuels dans cet espace se sont en fait concentrés sur la production de telles vidéos à partir d’enregistrements de texte annotés par l’homme sans considérer d’autres méthodes. Cependant, changer la parole avec la langue d’indication s’avère être une solution pratique tout en interagissant avec des personnes souffrant de perte auditive. La recherche élimine le besoin d’utiliser du texte comme techniques de saisie et de conception qui fonctionnent pour un discours plus naturel, continu et facile à prononcer, couvrant un vocabulaire étendu. Étant donné que les ensembles de données actuels sont inadéquats pour créer une langue des signes directement à partir de la parole, l’article traite de la collecte et de la publication du tout premier ensemble d’informations sur la langue d’indication indienne, composé d’annotations au niveau de la parole, de transcriptions de texte et des vidéos correspondantes en langue des signes. Il est proposé un réseau de transformateurs multitâches formé pour créer les positions du signataire à partir des secteurs de la parole. Avec la parole-texte comme tâche auxiliaire et un discriminateur intermodal supplémentaire, la conception découvre qu’elle produit des séquences de signes constants de bout en bout. Des expériences approfondies et des comparaisons avec d’autres lignes de base montrent l’efficacité de la technique.

Deep Phony Detection : étude des solutions de détection de contrôle facial

Deep Knowing en tant que domaine a été efficacement utilisé pour résoudre une vaste sélection de problèmes complexes, le des genres que nous n’aurions peut-être pas envisagés il y a quelques décennies. Aussi nombreux qu’ils apportent, il existe encore des méthodes dans lesquelles il peut être utilisé pour nuire à notre société. Les contrefaçons profondes se sont avérées être l’un de ces problèmes, et maintenant plus que jamais, lorsqu’une personne peut produire une fausse image ou vidéo en utilisant simplement une application sur le smartphone, il faut des contre-mesures, avec lesquelles nous pouvons détecter si le l’image ou la vidéo est fausse ou réelle et traite le problème menaçant la fiabilité des détails en ligne. Bien que les contrefaçons profondes produites par les réseaux de neurones puissent sembler aussi réelles qu’une image ou une vidéo réelle, elles laissent toujours des traces ou des signatures spatiales et temporelles après de petites quantités, ces signatures tout en étant invisibles à l’œil humain peuvent être détectées avec le l’aide d’un réseau de neurones formé pour se concentrer sur la détection Deep fake. Cet article analyse plusieurs de ces réseaux de neurones de pointe (MesoNet, ResNet-50, VGG-19 et Xception Web) et les compare les uns aux autres, afin de découvrir une option optimale pour divers scénarios déployé dans les plateformes de médias sociaux en ligne où la classification doit être effectuée le plus rapidement possible ou pour une petite agence de presse où la classification n’a pas besoin d’être en temps réel mais nécessite la plus grande précision.

Comprendre la propagation de la flambée de COVID-19 : une vue du processus de point spatio-temporel

Depuis que le tout premier cas de coronavirus a été identifié aux États-Unis le 21 janvier, plus d’un million de personnes aux États-Unis ont des cas réellement vérifiés de COVID-19. Cette maladie respiratoire contagieuse s’est propagée rapidement dans plus de 3000 comtés et 50 États des États-Unis et a affiché un regroupement évolutif et des schémas de déclenchement complexes. Il est important de comprendre la prolifération complexe liée à l’espace-temps de cette maladie afin de pouvoir effectuer une prédiction précise ou une intervention externe judicieuse. Cet article modélise la prolifération du COVID-19 en tant que processus ponctuels spatio-temporels et propose un modèle génératif et sans intensité pour suivre la propagation de la maladie. Plus adopté est une réplique accusatoire générative du cadre de recherche pour découvrir les critères du modèle. En comparaison avec les approches de connaissance basées sur la vraisemblance standard, ce cadre de découverte de répliques n’a pas besoin de pré-spécifier une fonction d’intensité, ce qui soulage la spécification erronée du modèle. La procédure d’apprentissage contradictoire contourne l’important difficile à évaluer inclus dans l’évaluation des possibilités, ce qui rend l’inférence du modèle plus évolutive avec les informations et les variables. Le document présente l’efficacité d’apprentissage dynamique sur les cas validés COVID-19 aux États-Unis et évalue la politique de distanciation sociale basée sur la conception générative découverte.

Toute l’actualité en temps réel, est sur L’Entrepreneur

Le meilleur d’arXiv.org pour l’IA, l’apprentissage automatique et l’apprentissage profond – juin 2021

LAISSER UN COMMENTAIRE Annuler la réponse

Catégories populaires

Le choix de la rédaction