mercredi, 24 avril 2024

6 mesures de durabilité de MLops et comment les aborder

L’adoption de l’intelligence artificielle (IA) ne cesse de croître. Selon une enquête McKinsey, 56 % des entreprises utilisent désormais l’IA dans au moins une fonction, contre 50 % en 2020. Une étude de PwC a révélé que la pandémie a accéléré l’adoption de l’IA et que 86 % des entreprises affirment que l’IA devient un courant dominant. l’innovation dans leur entreprise.

Au cours des dernières années, des avancées significatives dans l’IA open source, telles que le cadre révolutionnaire TensorFlow, ont ouvert l’IA à un large public et rendu l’innovation plus accessible. L’utilisation raisonnablement fluide de la nouvelle technologie a en fait entraîné une accélération significative de l’adoption et une explosion de nouvelles applications. Tesla Autopilot, Amazon Alexa et d’autres cas d’utilisation familiers ont tous deux attiré notre créativité et suscité des débats, mais l’IA trouve des applications dans presque tous les aspects de notre monde.

Les pièces qui composent le puzzle de l’IA

Historiquement, l’apprentissage automatique (ML) – la voie vers l’IA – était réservé aux universitaires et aux spécialistes dotés des capacités mathématiques requises pour établir des algorithmes et des modèles complexes. Aujourd’hui, les scientifiques de l’information qui travaillent sur ces emplois ont besoin à la fois de la compréhension essentielle et des bons outils pour être en mesure de produire avec succès leur fabricant en découvrant des modèles à utiliser à grande échelle – ce qui peut souvent être une tâche extrêmement complexe impliquant des installations avancées et de multiples étapes dans Flux de travail de ML.

Un autre élément clé est la gestion du cycle de vie des modèles (MLM), qui gère le pipeline complexe de l’IA et aide à garantir les résultats. Les systèmes MLM commerciaux propriétaires du passé étaient néanmoins coûteux et pourtant souvent loin derrière les dernières avancées technologiques en matière d’IA.

Réussir à combler ce déficit de capacité opérationnelle est crucial pour le succès à long terme des programmes d’IA, car la formation de modèles qui donnent d’excellentes prédictions n’est qu’une petite partie de l’obstacle total. Construire des systèmes ML qui apportent de la valeur à une organisation est plus que cela. Plutôt que le schéma normal d’expédier et d’oublier des logiciels conventionnels, une stratégie efficace nécessite des cycles de modèles de routine avec une surveillance, un soin et une amélioration continus.

Allez dans MLops (opérations d’apprentissage automatique), ce qui permet de les scientifiques de l’information, l’ingénierie et les groupes d’opérations informatiques pour collaborer en collaboration pour déployer des modèles ML en production, les gérer à grande échelle et surveiller en permanence leurs performances.

Les principales difficultés de l’IA en production

MLops vise généralement à résoudre 6 difficultés essentielles liées à la mise en production des applications d’IA. Ce sont : la répétabilité, le calendrier, la maintenabilité, la qualité, l’évolutivité et la cohérence.

Encore plus, MLops peut aider à simplifier l’utilisation de l’IA afin que les applications puissent utiliser des modèles d’intelligence artificielle pour le raisonnement (c’est-à-dire pour faire des prédictions basées sur des informations) de manière évolutive et maintenable. Cette capacité est, après tout, la principale valeur que les efforts d’IA sont censés fournir. Pour aller plus loin :

La répétabilité est le processus qui garantit que le modèle ML fonctionnera efficacement de manière reproductible.

Disponibilité signifie que la conception ML est publiée de manière à être suffisamment disponible pour pouvoir offrir des services de raisonnement aux applications consommatrices et utiliser un niveau de service approprié.

Maintenabilitédécrit la les processus qui permettent au modèle ML de rester maintenable à long terme ; par exemple, lorsqu’une nouvelle formation de la conception s’avère nécessaire.

Qualité : la conception ML est constamment surveillée pour garantir qu’elle fournit des prédictions de qualité tolérable.

Évolutivité désigne à la fois l’évolutivité des services d’inférence et des individus et des procédures nécessaires pour réentraîner le modèle ML en cas de besoin.

Cohérence : Une technique cohérente de ML est essentielle pour assurer le succès des autres mesures à garder à l’esprit ci-dessus.

Nous pouvons considérer MLops comme une extension naturelle des devops agiles utilisés pour l’IA et le ML. Habituellement, MLops couvre les éléments importants du cycle de vie de la découverte de la machine – le prétraitement des informations (consommation, analyse et préparation des données – et s’assurer que les informations sont correctement alignées pour le modèle à former), l’avancement du modèle, la formation et la reconnaissance du modèle, et enfin, la publication.

Les 6 techniques MLops testées suivantes peuvent améliorer de manière mesurable l’efficacité des efforts d’IA, en ce qui concerne le délai de mise sur le marché, les résultats et la durabilité à long terme.

1. Pipelines ML

Les pipelines ML comprennent généralement plusieurs étapes, souvent orchestrées dans un diagramme acyclique dirigé (DAG) qui collabore au flux d’informations de formation en plus de la génération et de la livraison de conceptions ML formées.

Les étapes d’un pipeline ML peuvent être compliquées. Par exemple, une étape de récupération de données en elle-même peut nécessiter plusieurs sous-tâches pour collecter des ensembles de données, effectuer des vérifications et effectuer des transformations. — les données peuvent nécessiter d’être extraites d’une gamme de systèmes sources — peut-être des magasins de données dans un entrepôt d’informations d’entreprise, du grattage Web, des magasins géospatiaux et des API. Les données extraites peuvent alors nécessiter des contrôles de qualité et de stabilité à l’aide de stratégies d’échantillonnage et peuvent nécessiter d’être ajustées selon diverses méthodes – comme la suppression de points de données qui ne sont pas nécessaires, des agrégations telles que la sommation ou le fenêtrage d’autres points de données, et ainsi de suite.

La transformation des données dans un format pouvant être utilisé pour former le modèle d’apprentissage automatique (une procédure appelée ingénierie des fonctionnalités) peut bénéficier d’actions de positionnement supplémentaires.

Les conceptions d’entraînement et de test nécessitent souvent une recherche de grille pour trouver les hyperparamètres optimaux, où plusieurs expériences sont menées en parallèle jusqu’à ce que le meilleur ensemble d’hyperparamètres soit identifié.

La conservation des modèles nécessite une méthode efficace de gestion des versions et une méthode d’enregistrement métadonnées et métriques associées sur le modèle.

Les plates-formes MLops telles que Kubeflow, une boîte à outils de découverte d’appareils open source qui fonctionne sur Kubernetes, assimilent les actions complexes qui composent un flux de travail de science des données à des tâches qui r un à l’intérieur des conteneurs Docker sur Kubernetes, offrant une interface utilisateur cloud native, mais indépendante de la plate-forme, pour les étapes des composants des pipelines ML.

2. Services de raisonnement

Dès que la bonne conception expérimentée et confirmée a été choisie, la conception doit être publiée dans un environnement de production où des informations en direct sont facilement disponibles afin de produire des prévisions.

Et il y a de bonnes nouvelles ici : l’architecture de modèle en tant que service a considérablement simplifié cet aspect du ML. Cette approche sépare l’application du modèle via une API, simplifiant davantage les procédures telles que la gestion des versions de conception, le redéploiement et la réutilisation.

Une variété de technologies open source sont disponibles qui peuvent couvrir un modèle ML et exposer des API de raisonnement ; par exemple, KServe et Seldon Core, qui sont des plates-formes open source pour la publication de modèles ML sur Kubernetes.

3. Déploiement constant

Il est important de pouvoir réentraîner et redéployer les modèles ML de manière automatique lorsqu’une dérive importante du modèle est détectée.

Dans le monde cloud natif, KNative offre un plate-forme open source efficace pour la construction d’applications sans serveur et peut être utilisée pour déclencher des pipelines MLops fonctionnant sur Kubeflow ou un autre planificateur de tâches open source, tel qu’Apache Air flow.

4. Déploiements bleu-vert

Avec des options telles que Seldon Core, il peut être avantageux de créer une version ML avec deux prédicteurs, par exemple, en attribuant 90 % du trafic au prédicteur existant (« champion ») et 10 % au nouveau prédicteur (« opposition »). L’équipe MLops peut alors (idéalement automatiquement) observer la qualité des prédictions. Dès qu’il est affiché, le déploiement peut être mis à niveau pour déplacer tout le trafic vers le tout nouveau prédicteur. Si, d’autre part, le tout nouveau prédicteur s’avère encore pire que le prédicteur existant, 100 % du trafic peut être renvoyé à l’ancien prédicteur à la place.

5. Détection automatique de la dérive

Lorsque les informations de production changent au fil du temps, l’efficacité du modèle peut s’écarter de la ligne de base en raison de variations considérables dans les nouvelles données par rapport aux informations utilisées dans la formation et la validation du modèle. Cela peut nuire considérablement à la qualité des prévisions.

Les détecteurs de dérive tels que Seldon Alibi Detect peuvent être utilisés pour évaluer immédiatement l’efficacité du modèle au fil du temps et activer un processus de recyclage du modèle et un redéploiement automatisé.

6. Magasins de fonctions

Ce sont des bases de données améliorées pour le ML. Les magasins de fonctionnalités permettent aux chercheurs de données et aux ingénieurs de l’information de recycler et de travailler ensemble sur des ensembles de données qui ont été réellement préparés pour l’intelligence artificielle– donc- appelées « fonctionnalités ». La préparation des fonctions peut représenter beaucoup de travail, et en partageant l’accès à des ensembles de données de fonctions prêtes au sein des groupes de science des données, le délai de mise sur le marché peut être considérablement accéléré, tout en améliorant la qualité et la cohérence des modèles. Banquet est l’un de ces magasins de fonctionnalités open source qui se présente comme « le chemin le plus rapide vers l’opérationnalisation des informations analytiques pour la formation de modèles et le raisonnement en ligne ».

En accueillant le paradigme MLops pour leur laboratoire de données et en abordant l’IA avec le six procédures de développement durable à l’esprit : répétabilité, disponibilité, maintenabilité, qualité, évolutivité et cohérence : les entreprises et les services peuvent améliorer de manière mesurable les performances du groupe d’informations, le succès à long terme du travail d’IA et continuer à maintenir avec succès leur surenchère.

.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici