samedi, 27 avril 2024

Pourquoi les données restent le plus grand défi pour les projets d’apprentissage automatique

La qualité des données est au cœur du succès de l’intelligence artificielle (IA) d’entreprise. Et par conséquent, il reste la principale source de défis pour les entreprises qui souhaitent appliquer l’apprentissage automatique (ML) dans leurs applications et leurs opérations.

Selon Dernier rapport sur l’état de l’IA d’Appen. Mais il reste encore beaucoup à faire à différents niveaux, y compris la structure organisationnelle et les politiques de l’entreprise.

Les coûts des données

Le cycle de vie de l’IA d’entreprise peut être divisé en quatre étapes : l’approvisionnement en données, la préparation des données, le test et le déploiement des modèles, et l’évaluation des modèles.

Les progrès de l’informatique et des outils de ML ont permis d’automatiser et d’accélérer des tâches telles que la formation et le test de différents modèles de ML. Les plates-formes de cloud computing permettent de former et de tester simultanément des dizaines de modèles différents de tailles et de structures différentes. Mais à mesure que les modèles d’apprentissage automatique augmentent en nombre et en taille, ils nécessiteront davantage de données d’entraînement.

Malheureusement, l’obtention de données d’entraînement et l’annotation nécessitent encore un effort manuel considérable et sont largement spécifiques à l’application. Selon le rapport d’Appen, « le manque de données suffisantes pour un cas d’utilisation spécifique, les nouvelles techniques d’apprentissage automatique qui nécessitent de plus grands volumes de données, ou les équipes n’ont pas les bons processus en place pour obtenir facilement et efficacement les données dont elles ont besoin. »< /p>

« Des données d’entraînement de haute qualité sont nécessaires pour des performances précises du modèle ; et les grands ensembles de données inclusifs coûtent cher », a déclaré Sujatha Sagiraju, chef de produit d’Appen, à VentureBeat. « Cependant, il est important de noter que de précieuses données d’IA peuvent augmenter les chances que votre projet passe du pilote à la production ; donc, la dépense est nécessaire.”

Les équipes de ML peuvent commencer avec des ensembles de données pré-étiquetés, mais elles devront éventuellement collecter et étiqueter leurs propres données personnalisées pour étendre leurs efforts. Selon l’application, l’étiquetage peut devenir extrêmement coûteux et demander beaucoup de main-d’œuvre.

Dans de nombreux cas, les entreprises disposent de suffisamment de données, mais elles ne peuvent pas gérer les problèmes de qualité. Des données biaisées, mal étiquetées, incohérentes ou incomplètes réduisent la qualité des modèles ML, ce qui nuit à son tour au retour sur investissement des initiatives d’IA.

« Si vous entraînez des modèles de ML avec de mauvaises données, les prédictions du modèle seront inexactes », a déclaré Sagiraju. « Pour s’assurer que leur IA fonctionne bien dans des scénarios réels, les équipes doivent disposer d’un mélange d’ensembles de données de haute qualité, de données synthétiques et d’une évaluation humaine dans la boucle dans leur kit de formation. »

Le fossé entre les data scientists et les chefs d’entreprise

Selon Appen, les chefs d’entreprise sont beaucoup moins susceptibles que le personnel technique de considérer l’approvisionnement et la préparation des données comme les principaux défis de leurs initiatives d’IA. « Il existe encore des écarts entre les technologues et les chefs d’entreprise lorsqu’il s’agit de comprendre les principaux goulots d’étranglement dans la mise en œuvre des données pour le cycle de vie de l’IA. Cela entraîne un désalignement des priorités et du budget au sein de l’organisation », selon le rapport Appen.

« Ce que nous savons, c’est que certains des plus gros goulots d’étranglement pour les initiatives d’IA résident dans le manque de ressources techniques et d’adhésion de la direction », a déclaré Sagiraju. « Si vous regardez ces catégories, vous voyez que les scientifiques des données, les ingénieurs en apprentissage automatique, les développeurs de logiciels et les cadres sont dispersés dans différents domaines, il n’est donc pas difficile d’imaginer un manque de stratégie alignée en raison de priorités conflictuelles entre les différentes équipes. au sein de l’organisation. »

La diversité des personnes et des rôles impliqués dans les initiatives d’IA complique la réalisation de cet alignement. Des développeurs qui gèrent les données aux scientifiques des données qui traitent des problèmes sur le terrain, en passant par les dirigeants qui prennent des décisions commerciales stratégiques, tous ont des objectifs différents en tête et donc des priorités et des budgets différents.

Cependant, Sagiraju constate que l’écart se réduit lentement d’année en année lorsqu’il s’agit de comprendre les défis de l’IA. Et c’est parce que les organisations comprennent mieux l’importance de données de haute qualité pour le succès des initiatives d’IA.

« L’accent mis sur l’importance des données (en particulier des données de haute qualité qui correspondent aux scénarios d’application) pour le succès d’un modèle d’IA a réuni des équipes pour résoudre ces problèmes », a déclaré Sagiraju.

Les défis liés aux données ne sont pas nouveaux dans le domaine du ML appliqué. Mais à mesure que les modèles de ML se développent et que les données deviennent plus abondantes, il est nécessaire de trouver des solutions évolutives pour assembler des données de formation de qualité.

Heureusement, quelques tendances aident les entreprises à surmonter certains de ces défis, et le rapport d’Appen sur l’IA montre que le temps moyen consacré à la gestion et à la préparation des données est en baisse.

Un exemple est l’étiquetage automatisé. Par exemple, les modèles de détection d’objets nécessitent que les cadres de délimitation de chaque objet dans les exemples de formation soient spécifiés, ce qui nécessite un effort manuel considérable. Les outils d’étiquetage automatisés et semi-automatisés utilisent un modèle d’apprentissage en profondeur pour traiter les exemples de formation et prédire les cadres de délimitation. Les étiquettes automatisées ne sont pas parfaites et un étiqueteur humain doit les examiner et les ajuster, mais elles accélèrent considérablement le processus. De plus, le système d’étiquetage automatisé peut être formé et amélioré au fur et à mesure qu’il reçoit les commentaires des étiqueteurs humains.

« Alors que de nombreuses équipes commencent par étiqueter manuellement leurs ensembles de données, d’autres se tournent vers des méthodes permettant de gagner du temps pour automatiser partiellement le processus », a déclaré Sagiraju.

Dans le même temps, il existe un marché croissant pour les données synthétiques. Les entreprises utilisent des données générées artificiellement pour compléter les données qu’elles collectent dans le monde réel. Les données synthétiques sont particulièrement utiles dans les applications où l’obtention de données réelles est coûteuse ou dangereuse. Les constructeurs de voitures autonomes, par exemple, sont confrontés à des défis réglementaires, juridiques et de sécurité pour obtenir des données sur des routes réelles.

« Les voitures autonomes nécessitent des quantités incroyables de données pour être sûres et prêtes à tout une fois qu’elles prennent la route, mais certaines des données les plus complexes ne sont pas facilement disponibles », a déclaré Sagiraju. « Les données synthétiques permettent aux praticiens de prendre en compte les cas extrêmes ou les scénarios dangereux tels que les accidents, les piétons qui traversent et les véhicules d’urgence pour former efficacement leurs modèles d’IA. Les données synthétiques peuvent créer des instances pour entraîner les données lorsqu’il n’y a pas suffisamment de données d’origine humaine. C’est essentiel pour combler les lacunes. »

Dans le même temps, l’évolution du marché MLops aide les entreprises à relever de nombreux défis du pipeline d’apprentissage automatique, y compris l’étiquetage et la gestion des versions des ensembles de données ; former, tester et comparer différents modèles de ML ; déployer des modèles à grande échelle et suivre leurs performances ; et la collecte de nouvelles données et la mise à jour des modèles au fil du temps.

Mais à mesure que le ML joue un rôle plus important dans les entreprises, une chose qui deviendra plus importante est le contrôle humain.

« Les évaluations Human-in-the-loop (HITL) sont impératives pour fournir des informations précises et pertinentes et éviter les préjugés », a déclaré Sagiraju. « Malgré ce que beaucoup pensent que les humains prennent en fait un siège arrière dans la formation à l’IA, je pense que nous verrons une tendance vers davantage d’évaluations HITL dans le but de responsabiliser l’IA responsable et d’avoir plus de transparence sur ce que les organisations mettent dans leurs modèles pour garantir des modèles bien performer dans le monde réel. »

La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur les technologies d’entreprise transformatrices et d’effectuer des transactions. Découvrez nos Briefings.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

xnxx sex download russianporntrends.com hardxxxpics saboten campus freehentai4u.com read manga porn rakhi sex photo ganstagirls.com nani sex video xxx indian girl video download elporno.mobi tamilauntycom bf hd video bf hd video porn555.me anyporn hd tamil beach sex erolenta.com xxx sex boy to boy bustyboobs pakistanixxxx.com nude sexy videos desi sex xvideos.com tubaka.mobi justdesi in free naked dance vegasmpegs.mobi eva grover desi ass lick eroanal.net 69 xvideo 4k xnxx thefuckingtube.com xxii roman numerals translation tamil nayanthara sex sexozavr.com indian porn videos tumblr كلبات سكس porn-arab.net نيك ف الكس y3df comics popsexy.net akhil wife hentai ahri wowhentai.net the sarashina bloodline