10 bases de données prenant en charge l'apprentissage automatique dans la base de données

Dans mon article d’octobre 2022, « Comment sélectionner une plate-forme de découverte de créateurs de cloud », ma toute première ligne directrice pour sélectionner une plate-forme était : « Soyez proche de vos informations ». Garder le code près de l’information est essentiel pour maintenir la latence faible, étant donné que la vitesse de la lumière limite les vitesses de transmission. Après tout, l’intelligence artificielle – en particulier la connaissance approfondie – a tendance à parcourir toutes vos informations de nombreuses fois (chaque passage est appelé une époque).

Le cas idéal pour de très grands ensembles d’informations est de construire le modèle où les données résident déjà, de sorte qu’aucune transmission massive d’informations n’est nécessaire. De nombreuses bases de données le supportent à un degré restreint. La prochaine préoccupation naturelle est de savoir quelles bases de données prennent en charge l’intelligence artificielle interne et comment le font-elles ? Je vais discuter de ces bases de données par ordre alphabétique.

Amazon Redshift

Amazon Redshift est un service d’installation de stockage de données à l’échelle du pétaoctet conçu pour rendre l’analyse simple et rentable toutes vos données en utilisant vos outils d’intelligence d’organisation existants. Il est optimisé pour des ensembles d’informations allant de quelques centaines de gigaoctets à un pétaoctet ou plus et coûte moins de 1 000 $ par téraoctet chaque année.

Amazon Redshift ML est créé pour le rendre simple pour les utilisateurs SQL de créer, former et déployer des modèles d’apprentissage automatique à l’aide de commandes SQL. La commande de conception CREATE dans Redshift SQL spécifie les données à utiliser pour la formation et la colonne cible, puis transmet les données à Amazon SageMaker Auto-pilot pour la formation via un seau Amazon S3 chiffré dans la même zone.

Après la formation AutoML, Redshift ML compile la meilleure conception et l’enregistre en tant que fonction SQL de prédiction dans votre cluster Redshift. Vous pouvez ensuite invoquer le modèle pour raisonner en appelant la fonction de prédiction dans une déclaration SELECT.

Résumé : Redshift ML utilise SageMaker Autopilot pour développer instantanément des conceptions de prédiction à partir des informations que vous spécifiez au moyen d’une instruction SQL, qui est extrait dans un conteneur S3. La meilleure fonction de prévision trouvée est inscrite dans le cluster Redshift.

BlazingSQL

BlazingSQL est un moteur SQL accéléré par GPU développé au-dessus de la communauté RAPIDS ; il existe en tant que tâche open-source et service payant. RAPIDS est une suite de bibliothèques logicielles et d’API open source, développée par Nvidia, qui utilise CUDA et est basée sur le format de mémoire en colonne Apache Arrow. CuDF, qui fait partie de RAPIDS, est une bibliothèque GPU DataFrame de type Pandas pour le chargement, l’inscription, l’agrégation, le filtrage et le contrôle des données.

Dask est une source ouverte outil qui peut adapter les packages Python à plusieurs fabricants. Dask peut distribuer des informations et des calculs sur plusieurs GPU, soit dans le même système, soit dans un cluster multi-nœuds. Dask s’intègre à RAPIDS cuDF, XGBoost et RAPIDS cuML pour l’analyse d’informations accélérée par le GPU et l’apprentissage automatique.

Résumé : BlazingSQL peut exécuter des questions accélérées par le GPU sur les lacs d’informations dans Amazon S3, transmettre les DataFrames résultants à cuDF pour l’ajustement des informations, et enfin réaliser l’intelligence artificielle avec RAPIDS XGBoost et cuML, et la connaissance approfondie avec PyTorch et TensorFlow.

Brytlyt

Brytlyt est une plate-forme dirigée par un navigateur qui permet d’in- IA de base de données avec des capacités d’apprentissage en profondeur. Brytlyt combine une base de données PostgreSQL, PyTorch, Jupyter Notebooks, Scikit-learn, NumPy, Pandas et MLflow dans une seule plate-forme sans serveur qui fonctionne comme trois produits accélérés par GPU : une base de données, un outil de visualisation de données et un outil de science de l’information qui utilise notebooks.

Brytlyt se connecte à tout élément doté d’un connecteur PostgreSQL, composé d’outils de BI tels que Tableau et Python. Il prend en charge le chargement et la consommation de données à partir de fichiers d’informations externes tels que les fichiers CSV et de sources de données SQL externes prises en charge par les wrappers d’informations étrangères PostgreSQL (FDW). Ces derniers incluent Snowflake, Microsoft SQL Server, Google Cloud BigQuery, Databricks, Amazon Redshift et Amazon Athena.

En tant que base de données GPU avec traitement parallèle des jointures, Brytlyt peut traiter des milliards de lignes de données en quelques secondes. Brytlyt a des applications dans les télécommunications, la vente au détail, le pétrole et le gaz, le financement, la logistique, l’ADN et la génomique.

Résumé : avec PyTorch et Scikit-learn intégrés, Brytlyt peut prendre en charge à la fois l’apprentissage en profondeur et la découverte de dispositifs de base en cours d’exécution en interne contre ses informations. La prise en charge du GPU et le traitement parallèle suggèrent que toutes les opérations sont raisonnablement rapides, bien que l’entraînement de conceptions complexes et approfondies sur des milliards de lignes prendra évidemment du temps.

Google Cloud BigQuery

BigQuery est la solution de Google Cloud entrepôt d’informations géré à l’échelle du pétaoctet qui vous permet d’effectuer des analyses sur de grandes quantités d’informations en temps quasi réel. BigQuery ML vous permet de créer et d’exécuter des conceptions d’intelligence artificielle dans BigQuery à l’aide de questions SQL.

BigQuery ML prend en charge la régression linéaire pour les prévisions ; régression logistique binaire et multi-classes pour la catégorie ; K-means clustering pour la segmentation des informations ; factorisation matricielle pour développer des systèmes de recommandation de produits ; des séries chronologiques pour effectuer des projections de séries chronologiques, composées d’anomalies, de saisonnalité et de jours fériés ; Modèles de classification et de régression XGBoost ; Réseaux de neurones profonds basés sur TensorFlow pour les conceptions de classification et de régression ; Tableaux AutoML ; et importation de conception TensorFlow. Vous pouvez utiliser une conception avec des informations provenant de nombreux ensembles de données BigQuery pour l’entraînement et la prédiction. BigQuery ML n’extrait pas les données de l’entrepôt de données. Vous pouvez effectuer l’ingénierie des fonctionnalités avec BigQuery ML en utilisant la clause TRANSFORM dans votre instruction de conception CREATE.

Résumé : BigQuery ML apporte une grande partie de la puissance de Google Cloud Machine Learning dans l’entrepôt de données BigQuery avec la syntaxe SQL, sans extraire les informations de l’entrepôt de données.

IBM Db2 Storage Facility

IBM Db2 Storage Facility on Cloud est un service de cloud public géré. Vous pouvez également configurer IBM Db2 Storage sur des installations avec votre propre matériel ou dans un cloud privé. En tant qu’installation de stockage d’informations, il comprend des fonctions telles que le traitement des données en mémoire et des tables en colonnes pour le traitement analytique en ligne. Son innovation Netezza fournit un ensemble robuste d’analyses conçues pour amener efficacement la demande à l’information. Une série de bibliothèques et de fonctions vous aident à obtenir les informations précises dont vous avez besoin.

L’installation de stockage Db2 prend en charge l’apprentissage automatique dans la base de données en Python, R et SQL. Le module IDAX comprend des procédures analytiques enregistrées, y compris l’analyse de la variation, les directives d’association, le changement de données, les arbres de décision, les mesures de diagnostic, la discrétisation et les minutes, le clustering K-means, les k-plus proches voisins, la régression directe, la gestion des métadonnées, la classification Bayes naïve, la classification primaire l’analyse des pièces, les circulations de probabilité, l’échantillonnage aléatoire, les arbres de régression, les modèles et règles séquentiels, ainsi que les statistiques paramétriques et non paramétriques.

Résumé : l’installation de stockage IBM Db2 comprend un vaste ensemble d’analyses SQL dans la base de données qui se compose de certaines fonctionnalités d’apprentissage automatique de base, ainsi que d’une assistance dans la base de données pour R et Python.

Kinetica

L’installation de stockage de données en continu Kinetica intègre l’analyse des données historiques et en continu avec l’intelligence de localisation et l’IA dans une plateforme unique, le tout accessible via API et SQL. Kinetica est une base de données accélérée par GPU, distribuée, en colonnes, très rapide, avec des performances de filtrage, de visualisation et d’agrégation.

Kinetica intègre des modèles et des algorithmes d’apprentissage automatique à vos informations pour des analyses prédictives en temps réel À l’échelle. Il vous permet d’améliorer vos pipelines de données et le cycle de vie de vos analyses, modèles d’intelligence artificielle et ingénierie des données, et de déterminer les fonctionnalités avec le streaming. Kinetica fournit une solution complète de cycle de vie pour l’apprentissage automatique accéléré par les GPU : gestion des blocs-notes Jupyter, formation à la conception via RAPIDS, déploiement et inférence de modèles automatisés dans la plate-forme Kinetica.

Résumé : Kinetica offre un cycle de vie complet dans la base de données service d’apprentissage automatique accéléré par les GPU, et peut calculer des fonctionnalités à partir d’informations en continu.

Microsoft SQL Server

Les services d’intelligence artificielle de Microsoft SQL Server prennent en charge R, Python, Java, le PREDICT T- Commande SQL et la procédure conservée rx_Predict dans le SGBDR SQL Server et SparkML dans les clusters Big Data SQL Server. Dans les langages R et Python, Microsoft se compose de plusieurs packages et bibliothèques pour l’apprentissage automatique. Vous pouvez stocker vos conceptions formées dans la base de données ou en externe. Azure SQL Managed Circumstances prend en charge les solutions d’intelligence artificielle pour Python et R en tant qu’aperçu.

Microsoft R possède des extensions qui lui permettent de traiter les informations à partir du disque en plus de celles en mémoire. SQL Server fournit une infrastructure d’extension afin que le code R, Python et Java puisse utiliser les informations et les fonctions de SQL Server. Les clusters Big Data SQL Server exécutent SQL Server, Glow et HDFS dans Kubernetes. Lorsque SQL Server appelle le code Python, il peut à son tour évoquer Azure Machine Learning et enregistrer la conception résultante dans la base de données pour une utilisation dans les prédictions.

Résumé : les versions actuelles de SQL Server peuvent entraîner et déduire l’intelligence artificielle conceptions dans plusieurs langages de programme.

Base de données Oracle

Oracle Cloud Facilities (OCI) Data Science est une plate-forme gérée et sans serveur permettant aux équipes de science des données de construire, former et gérer des conceptions d’apprentissage automatique en utilisant Oracle Cloud Facilities, y compris Oracle Autonomous Database et Oracle Autonomous Data Storage Facility. Il se compose d’outils, de bibliothèques et de packages centrés sur Python établis par le voisinage open source et la bibliothèque Oracle Accelerated Data Science (ADS), qui prend en charge le cycle de vie de bout en bout des conceptions prédictives :

Acquisition, profilage, préparation et visualisation de données
Ingénierie des fonctionnalités
Formation de modèles (y compris Oracle AutoML)
Examen de conception, description et interprétation (comprenant d’Oracle MLX)
Déploiement du modèle vers les fonctions Oracle

OCI Data Science s’intègre au reste de la pile Oracle Cloud Facilities, comprenant les fonctions, la circulation des données, les données autonomes Warehouse et Things Storage.

Les modèles actuellement pris en charge incluent :

Oracle AutoML
Keras
Scikit-learn
XGBoost
ADSTuner (réglage des hyperparamètres)

ADS prend également en charge l’explicabilité de l’intelligence artificielle (MLX).

Résumé : Oracle Cloud Les installations peuvent héberger des informations n ressources scientifiques intégrées à son installation de stockage de données, à son magasin d’objets et à ses fonctions, permettant un cycle de vie de développement de conception complet.

Vertica

Vertica Analytics Platform est un entrepôt de données de stockage en colonnes évolutif. Il fonctionne en deux modes : Enterprise, qui stocke les données localement dans le système de fichiers des nœuds qui composent la base de données, et EON, qui stocke les données en commun pour tous les nœuds de calcul.

Vertica utilise énormément de traitement parallèle pour gérer les pétaoctets de données, et fait son apprentissage de dispositif interne avec le parallélisme des informations. Il dispose de 8 algorithmes intégrés pour la préparation des informations, 3 algorithmes de régression, 4 algorithmes de classification, deux algorithmes de clustering, de nombreuses fonctions de gestion de la conception et la possibilité d’importer des modèles TensorFlow et PMML formés à d’autres endroits. Lorsque vous avez ajusté ou importé un modèle, vous pouvez l’utiliser pour les prévisions. Vertica autorise également les extensions définies par l’utilisateur configurées en C, Java, Python ou R. Vous utilisez la syntaxe SQL pour la formation et l’inférence.

Résumé : Vertica dispose d’un bon ensemble d’algorithmes d’apprentissage automatique intégrés, et peut importer des modèles TensorFlow et PMML. Il peut effectuer des prédictions à partir de conceptions importées ainsi que de ses propres modèles.

MindsDB

Si votre base de données ne prend pas déjà en charge l’intelligence artificielle interne, il est probable que vous puissiez inclure cette capacité en utilisant MindsDB, qui intègre une demi-douzaine de bases de données et 5 outils de BI. Les bases de données prises en charge comprennent MariaDB, MySQL, PostgreSQL, ClickHouse, Microsoft SQL Server et Snowflake, avec une combinaison MongoDB en préparation et des intégrations avec des bases de données en continu promises plus tard en 2021. Les outils de BI pris en charge comprennent actuellement SAS, Qlik Sense, Microsoft Power BI, Looker et Domo.

MindsDB propose AutoML, des tableaux d’IA et une IA explicable (XAI). Vous pouvez créer une formation AutoML à partir de MindsDB Studio, à partir d’une instruction SQL INSERT ou à partir d’un appel d’API Python. La formation peut éventuellement utiliser des GPU et peut également produire une conception de série chronologique.

Vous pouvez enregistrer le modèle en tant que table de base de données et l’appeler à partir d’une déclaration SQL SELECT par rapport au modèle enregistré, à partir de MindsDB Studio ou de un appel d’API Python. Vous pouvez évaluer, expliquer et visualiser la qualité du modèle à partir de MindsDB Studio.

Vous pouvez également lier MindsDB Studio et l’API Python à des sources d’informations régionales et distantes. MindsDB fournit en outre un cadre d’apprentissage en profondeur simplifié, Lightwood, qui s’exécute sur PyTorch.

Résumé : MindsDB apporte des capacités d’apprentissage d’appareils utiles à une variété de bases de données qui n’ont pas de prise en charge intégrée de l’intelligence artificielle.

Un nombre croissant de bases de données prennent en charge l’intelligence artificielle en interne. Le système spécifique varie, et certains sont plus capables que d’autres. Cependant, si vous avez beaucoup d’informations que vous devrez peut-être adapter à des conceptions sur un sous-ensemble testé, l’une des huit bases de données répertoriées ci-dessus – et d’autres avec l’aide de MindsDB – peut vous aider à développer des modèles à partir des données complètes. défini sans supporter de surcharge importante pour l’exportation d’informations.

Toute l’actualité en temps réel, est sur L’Entrepreneur

10 bases de données prenant en charge l’apprentissage automatique dans la base de données