dimanche, 4 décembre 2022

Pourquoi l’IA a besoin d’un régime régulier de données synthétiques

L’intelligence artificielle (IA) est peut-être en train de dévorer le monde tel que nous le connaissons, mais les experts disent que l’IA elle-même est également affamée et doit changer son alimentation. Une entreprise affirme que les données synthétiques sont la réponse.

« Les données sont de la nourriture pour l’IA, mais l’IA est aujourd’hui sous-alimentée et mal nourrie », a déclaré Kevin McNamara, PDG et cofondateur du fournisseur de plate-forme de données synthétiques, Domaine parallèle, qui juste a levé 30 millions de dollars lors d’un tour de série B. « C’est pourquoi les choses évoluent lentement. Mais si nous pouvons mieux alimenter cette IA, les modèles se développeront plus rapidement et de manière plus saine. Les données synthétiques sont comme de la nourriture pour la formation de l’IA. »

Des recherches ont montré qu’environ 90 % des déploiements d’IA et d’apprentissage automatique (ML) échouent. Un Datagen

Dans cette veine, Gartner prédit que les données synthétiques seront de plus en plus utilisées comme complément à des fins de formation à l’IA et au ML. Le géant de la recherche projette que d’ici 2024, des données synthétiques seront utilisées pour accélérer 60% des projets d’IA.

Événement

Sommet sur la sécurité intelligente

Découvrez le rôle essentiel de l’IA et du ML dans la cybersécurité et des études de cas spécifiques à l’industrie le 8 décembre. Inscrivez-vous pour votre pass gratuit dès aujourd’hui.


Inscrivez-vous maintenant

Les données synthétiques sont générées par des algorithmes d’apprentissage automatique qui ingèrent des données réelles pour s’entraîner sur des modèles comportementaux et créer des données simulées qui conservent les propriétés statistiques de l’ensemble de données d’origine. Les données résultantes reproduisent des circonstances réelles, mais contrairement aux ensembles de données anonymisés standard, elles ne sont pas vulnérables aux mêmes failles que les données réelles.

Retirer l’IA de « l’âge de pierre »

Cela peut sembler inhabituel d’entendre qu’une technologie aussi avancée que l’IA est coincée dans une sorte d' »âge de pierre », mais c’est ce que voit McNamara – et sans l’adoption de données synthétiques, cela restera ainsi, dit-il.

« À l’heure actuelle, le développement de l’IA ressemble un peu à la programmation informatique des années 60 ou 70, lorsque les gens utilisaient la programmation par cartes perforées, un processus manuel à forte intensité de main-d’œuvre », a-t-il déclaré. « Eh bien, le monde s’est finalement éloigné de cela et de la programmation numérique. Nous voulons faire cela pour le développement de l’IA. »

Les trois plus gros goulots d’étranglement qui maintiennent l’IA à l’âge de pierre sont les suivants, selon McNamara :

  1. Collecter des données du monde réel : ce qui n’est pas toujours possible. Même pour quelque chose comme le jaywalking, qui se produit assez souvent dans les villes du monde entier, si vous avez besoin de millions d’exemples pour former votre algorithme, cela devient rapidement inaccessible pour que les entreprises sortent et sortent du monde réel.
  2. Étiquetage : qui nécessite souvent des milliers d’heures de travail humain et peut être inexact car, eh bien, les humains font des erreurs.
  3. Itérer sur les données une fois qu’elles sont étiquetées, ce qui vous oblige à ajuster les configurations des capteurs, etc., puis à les appliquer pour réellement commencer à former votre IA.

« Tout ce processus est si lent », a déclaré McNamara. « Si vous pouvez changer ces choses très rapidement, vous pouvez en fait découvrir de meilleures configurations et de meilleures façons de développer votre IA en premier lieu. »

Saisir le droit d’étape : données synthétiques

Parallel Domain fonctionne en générant des mondes virtuels basés sur des cartes, qu’il qualifie de « cousins ​​numériques » de scénarios et de géographies du monde réel. Ces mondes peuvent être modifiés et manipulés pour, par exemple, avoir plus de jaywalking ou de pluie, pour aider à la formation de véhicules autonomes.

Un échantillon des données synthétiques de Parallel Domain montrant une vue cartographique de ses capacités de monde virtuel.

Parce que les mondes sont des cousins ​​numériques et non des jumeaux numériques, la personnalisation peut simuler les données parfois plus difficiles à obtenir, mais essentielles pour la formation, que les entreprises devraient normalement sortir et obtenir elles-mêmes. La plate-forme permet aux utilisateurs de l’adapter à leurs besoins via une API, afin qu’ils puissent déplacer ou manipuler des facteurs précisément comme ils le souhaitent. Cela accélère le processus de formation à l’IA et supprime les obstacles en termes de temps et de travail.

La société affirme qu’en quelques heures, elle peut fournir des ensembles de données de formation prêts à être utilisés par ses clients, notamment le Toyota Research Institute, Google, Continental et Woven Planet.

« Les clients peuvent entrer dans le monde simulé et faire bouger les choses ou extraire des données de ce monde », a déclaré McNamara. « Nous avons des boutons pour différents types de catégories d’actifs et de scénarios qui pourraient se produire, ainsi que des moyens pour les clients de brancher leur propre logique pour ce qu’ils voient, où ils le voient et comment ces choses se comportent. »

Ensuite, les clients ont besoin d’un moyen d’extraire les données de ce monde dans la configuration qui correspond à leur configuration, a-t-il expliqué.

« Nos outils de configuration de capteurs et nos outils de configuration d’étiquettes nous permettent nous pour reproduire la configuration exacte de la caméra ou la configuration exacte du lidar, du radar et de l’étiquetage qu’un client verrait », a-t-il déclaré.

Données synthétiques, IA générative

Non seulement les données synthétiques sont utiles pour la formation de modèles d’IA et de ML, mais elles peuvent également être appliquées pour faire en sorte que l’IA générative (une utilisation déjà en croissance rapide de la technologie) se développe encore plus rapidement.

Parallel Domain regarde le terrain alors que la société entre en 2023 avec de nouveaux capitaux. Il espère multiplier les données dont l’IA générative a besoin pour former, afin qu’elle puisse devenir un outil encore plus puissant pour la création de contenu. Son équipe de R&D se concentre sur la variété et le détail des simulations de données synthétiques qu’elle peut fournir.

« Je suis enthousiasmé par l’IA générative dans notre espace », a déclaré McNamara. « Nous ne sommes pas là pour créer une interprétation artistique du monde. Nous sommes ici pour créer un cousin numérique du monde. Je pense que l’IA générative est vraiment puissante pour examiner des exemples d’images du monde entier, puis les extraire et créer des exemples intéressants et de nouvelles informations à l’intérieur de données synthétiques. Pour cette raison, l’IA générative représentera une grande partie des avancées technologiques dans lesquelles nous investissons au cours de l’année à venir. »

La valeur des données synthétiques ne se limite pas à l’IA. Compte tenu de la grande quantité de données nécessaires pour créer des environnements virtuels réalistes, c’est aussi la seule approche pratique pour faire avancer le métaverse.

Parallel Domain fait partie des startup< /a> secteur, qui Crunchbase signalé précédemment voit une bande de financement. Datagen, Gretel AI et Mostly AI sont quelques-uns de ses concurrents qui ont également levé plusieurs millions au cours de la dernière année.

La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur les technologies d’entreprise transformatrices et d’effectuer des transactions. Découvrez nos Briefings.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici