jeudi, 28 mars 2024

Ne vous précipitez pas vers l’apprentissage automatique

Crédit : Dreamstime

C’est la meilleure méthode pour faire de l’intelligence artificielle (ML ) est dans certains cas de ne pas faire du tout d’apprentissage automatique. Selon Eugene Yan, chercheur appliqué chez Amazon, « La toute première ligne directrice de l’apprentissage des appareils [est de] commencer sans apprentissage automatique. »

Quoi ?

Oui, c’est cool de trotter sur des conceptions ML méticuleusement conçues au cours de mois d’efforts ardus. Ce n’est pas non plus toujours la technique la plus fiable. Pas quand il existe des techniques plus simples et plus accessibles.

Ce serait peut-être une simplification excessive de dire, comme l’a fait le chercheur en données Noah Lorang des années plus tôt, que « les scientifiques de l’information ne font principalement que de l’arithmétique ». Il n’est pas loin, et Yan et lui ont certainement raison de dire que nous pourrions néanmoins souhaiter beaucoup compliquer la procédure de mise en œuvre des données, la plupart du temps, il vaut mieux commencer petit.

Exagérer la complexité

Les scientifiques de l’information gagnent beaucoup d’argent. Il est donc peut-être tentant d’essayer de valider ce revenu en enveloppant des éléments tels que l’analyse prédictive dans un jargon complexe et des conceptions lourdes. Non. L’intuition de Lorang sur la science des données est aussi vraie aujourd’hui que lorsqu’il l’a prononcée il y a quelques années : « Il existe un très petit sous-ensemble de problèmes d’entreprise qui sont mieux résolus par l’intelligence artificielle ; la plupart d’entre eux ont simplement besoin d’excellentes informations et d’une compréhension de ce qu’il en est. suggère. » Lorang recommande des méthodes plus simples, telles que « des questions SQL pour obtenir des données, … des mathématiques standard sur ces données (différences de calcul, centiles, etc.), la représentation graphique des résultats et [la rédaction] de paragraphes d’explication ou de recommandation. »

Je ne recommande pas que ce soit simple. Je dis que l’intelligence artificielle n’est pas là où vous commencez lorsque vous essayez d’obtenir des informations à partir d’informations. Il n’est pas non plus vrai que des quantités généreuses de données soient nécessairement requises. En fait, comme le soutient Katelyn Gleason, PDG de Qualified, il est très important de « commencer par le peu de données [du fait que] ce sont des anomalies flagrantes qui m’ont en fait conduit à quelques-unes de mes meilleures conclusions ». Souvent, il peut suffire de décrire les distributions pour vérifier les modèles apparents.

Oui, c’est vrai : les informations peuvent être « petites suffisantes » pour qu’un humain puisse identifier des modèles et révéler des idées.

Il n’est donc pas étonnant que Brandon Rohrer, spécialiste des données d’iRobot, suggère avec insolence : « Lorsque vous avez un problème, créez 2 solutions : un transformateur bayésien profond fonctionnant sur Kubernetes multicloud et une question SQL construite sur une pile d’hypothèses extrêmement simplificatrices. Mettez-en une sur votre CV , l’autre en production. Tout le monde rentre chez soi heureux. »

Encore une fois, cela ne veut pas dire que vous ne devez jamais utiliser le ML, et ce n’est certainement pas un argument selon lequel le ML n’offre pas de valeur réelle. Vice versa. C’est simplement un argument contre le fait de commencer par ML. Pour approfondir le pourquoi, cela mérite d’évaluer le court article de Yan sur le sujet.

Les gens qui en apprennent davantage sur l’information

Au départ, note Yan, il est important de reconnaître à quel point il est difficile de tirer de l’importance de l’information, étant donné les ingrédients actifs vitaux : « Vous avez besoin d’informations. Vous avez besoin d’un pipeline robuste pour prendre en charge vos flux d’informations. Et surtout, vous avez besoin d’étiquettes haut de gamme. »

En d’autres termes, les entrées sont suffisamment difficiles pour qu’il ne soit peut-être pas particulièrement pratique de commencer par lancer des conceptions de ML à la question. À ce stade, vous apprenez simplement à connaître vos données. Essayez de résoudre le problème à la main ou avec des heuristiques (méthodes pratiques ou raccourcis). Yan met en évidence ce raisonnement de Hamel Hussain, ingénieur en découverte de machines chez GitHub : « Il vous faudra vous familiariser totalement avec le problème et les informations, ce qui est l’étape initiale la plus essentielle. »

En supposant que vous’ Concernant le traitement des informations tabulaires, Yan dit qu’il vaut mieux commencer par un échantillon des données pour exécuter les données, en commençant par les corrélations de base, et imaginer les données, peut-être en utilisant des nuages ​​de points. Par exemple, au lieu de développer un modèle de recherche d’appareil compliqué pour les recommandations, vous pouvez simplement « conseiller les éléments les plus performants de la durée précédente », argumente Yan, puis essayer de trouver des modèles dans les résultats. Cela aide le praticien du ML à se familiariser avec ses données, ce qui l’aidera à son tour à construire de bien meilleures conceptions, si elles s’avèrent essentielles.

Quand l’intelligence artificielle devient-elle nécessaire ou au moins suggérée ?

Selon Yan, l’apprentissage automatique commence à avoir du sens lorsque la maintenance de votre système heuristique non-ML devient trop lourde. En termes simples, « une fois que vous avez une norme non-ML qui fonctionne raisonnablement bien, et que l’effort de préservation et d’amélioration de cette norme l’emporte sur l’effort de structure et de publication d’un système basé sur ML. »

Il n’y a pas la science dure du moment où cela se produit, évidemment, cependant, si vos heuristiques ne sont plus des moyens pratiques plus rapides et continuent plutôt à se briser, il est temps de penser à l’intelligence artificielle, en particulier si vous disposez de solides pipelines de données et d’étiquettes d’informations de qualité supérieure, indiquant d’excellentes informations.

Oui, il est tentant de commencer par des conceptions ML compliquées, mais peut-être parmi les compétences les plus essentielles qu’un informaticien peut avoir prévaut, comprendre quand dépendre de l’analyse de régression ou de quelques déclarations si/alors, au lieu de ML .

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici