vendredi, 29 mars 2024

SPLOG – les problèmes de gestion des données auxquels est confrontée l’IA générative

• L’IA générative dans son état actuel comporte cinq principaux problèmes de données.
• Quelle est la fiabilité des données d’entraînement des principales IA génératives ?
• Quelle gouvernance existe pour l’IA générative ?

L’IA générative est partout en ce moment : elle sous-tend de toutes nouvelles entreprises et la façon dont les anciennes entreprises font de nouvelles choses. Mais Krishna Subramanian, COO chez spécialiste de la gestion des données, Komprise, a des questions sur la sécurité des données des entreprises qui se sont empressées d’intégrer ChatGPT dans leurs systèmes.

Dans la partie 1 de cet article, Krishna nous a guidés nous à travers certains des problèmes généraux liés à l’utilisation d’un système dont vous ne pouvez pas être entièrement sûr des données fondamentales – et auquel il n’existe actuellement aucune réglementation vous permettant d’accéder.

Pendant qu’elle occupait le fauteuil, nous avons demandé à Krishna quels pourraient être les dangers spécifiquesdes données liés à l’utilisation de l’IA générative aussi librement que nous avons commencé à le faire.

SPLOG – une panne.< /h2>

KS :
Il existe cinq domaines dans lesquels la gestion des données joue un rôle dans l’avenir potentiel des entreprises utilisant actuellement l’IA générative.

THQ :

OK, quelles sont ces zones ?

Le spécialiste de la gestion des données met en garde contre les dangers de l’IA générative pour les données

KS :

SPLOG.

THQ :

OK… K.

KS :

SPLOG : sécurité, confidentialité, lignée, propriété et gouvernance. SPLOG.

THQ :
Ahhh, SPLOG. Naturellement. OK, alors en quoi ces domaines sont-ils pertinents ?

KS :
Parlons sécurité. Beaucoup de gens n’apprécient pas cela, mais lorsque vous posez une question à un bot d’IA générative et que vous donnez un contexte dans le cadre de votre question, ces données peuvent appartenir à l’entreprise qui forme ce bot, sur la base de l’accord juridique qu’ils ont .

L’incident Samsung.

Cela est déjà arrivé à Samsung. Samsung a dit à ses ingénieurs « Allez-y et essayez l’IA générative », car ils voulaient voir quel impact cela pourrait avoir. Et l’un de leurs ingénieurs a donné du code à ChatGPT et a dit « Trouvez-moi les problèmes dans ce code. »

THQ :

Ah.

KS :

Ils n’ont pas réalisé qu’en faisant cela, leur code a été divulgué dans le domaine public, et maintenant Samsung a arrêté toute utilisation de l’IA – et c’est un danger, non ? Parce que vous ne pouvez pas être noir ou blanc à ce sujet. Vous devez vraiment connaître le domaine.

Si j’emploie un consultant dans mon entreprise, ils signent un accord et ils savent qu’ils peuvent apprendre en utilisant les données de notre entreprise tout en contribuant à notre entreprise, mais ils ne peuvent pas prendre ces données ailleurs.

L’IA générative est une menace pour la survie humaine – CAIS< /span>

Ainsi, cette notion de domaine de données, ce qui appartient à quel domaine et la sécurité de ce domaine, il n’y a pas de telle construction pour le moment, mais elle doit exister. C’est pourquoi la sécurité est le premier domaine de préoccupation.

THQ :

C’est tout un champ de mines.

Les dangers des IPI.

KS :

Reste avec moi, il y a plus.
Encore une fois, les gens ne le savent généralement pas, mais ces modèles d’apprentissage sont pré-formés sur des données opaques. Ils ne sont pas transparents. Ils ne vous disent pas d’où proviennent ces données. Il peut donc y avoir des PII dans les données sur lesquelles il a été formé.

THQ :

Danger, Will Robinson !

KS :

Et si vous, en tant qu’entreprise, utilisez maintenant ce modèle avec ses données PII non divulguées, vous pouvez être tenu responsable de cette utilisation potentiellement illégale. Parce que vous avez utilisé des données PII – et vous ne le savez peut-être même pas.

THQ :
Des voyants d’avertissement clignotent partout en ce moment.

KS :
Pire encore, vous utilisez peut-être un logiciel de sauvegarde qui utilise l’IA pour détecter les anomalies et vous ne vous en rendez pas compte, mais il peut utiliser des informations PII. Et maintenant qui est responsable ? Êtes-vous responsable parce que vous l’avez utilisé ?

La confidentialité des données et la gestion de la confidentialité des données sont extrêmement importantes. Vous devrez connaître votre risque en matière de confidentialité des données. Mais comment pouvez-vous le savoir lorsque les données ne sont pas transparentes ?

THQ :

Dans tout le pays, les avocats se sont contentés de donner des coups de poing.

Mensonge, Schmalsehood…

KS :

Ensuite, il y a la lignée. Il n’y a pas de moyen facile de dire cela, mais je ne pense pas qu’il existe un bon moyen de suivre la lignée des données pour le moment.

THQ :
D’ACCORD. Utile.

KS :
Surtout avec ces modèles pré-formés, vous devez savoir d’où proviennent vos données. The Washington Post a récemment publié un article révélant que Google – à son crédit – a en fait publié une liste des données sur lesquelles Bard est formé.

THQ :

C’est peut-être la seule fois de notre vie que nous disons cela, mais youpi Google !

Que signifie l’IA générative open source pour les logiciels propriétaires ?

KS :

Ce que le Post a découvert, c’est que 45 % des données d’entraînement de Bard provenaient de sources non vérifiées. Certaines d’entre elles proviennent de ce qui serait considéré comme… des sites de mensonges.

THQ :

De fausses nouvelles ?

KS :

Blogs qui promeuvent des mensonges. Et maintenant, vous êtes dans une situation étrange, car vous vouliez connaître la lignée des données d’entraînement. Et maintenant, vous le faites, et près de la moitié provient de sources non vérifiées, y compris des blogs mensongers. Ainsi, votre modèle d’IA utilise peut-être de fausses données et vous n’en êtes même pas conscient. Alors… c’est une préoccupation.

L’IA de la Terre plate.

THQ :
Aie. Cela nous rappelle une conversation qui a fait le tour des bureaux de THQ lorsque la Chine a déclaré qu’elle n’autoriserait pas la technologie dans le pays à moins qu’elle ne soit formée sur des principes solidement socialistes.

Cela signifie-t-il que, étant donné que les entreprises ne sont pas tenues a) de dire à qui que ce soit la quantité d’IA qu’elles utilisent ou b) de divulguer quoi que ce soit sur le modèle sur lequel elles l’entraînent, vous pourriez obtenir, par exemple, un modèle d’IA générative formé sur l’hypothèse de la Terre plate, qui moulerait ses résultats autour de la vérité de cette hypothèse, ou un modèle de création de la Jeune Terre, qui, par exemple, ne renverrait aucun résultat géologique gênant ?

KS :
Oui, c’est tout à fait possible.

THQ :

Eh bien… tant pour dormir la nuit.

KS :

C’est analogue à l’affaire Amazon. Amazon a essayé d’utiliser l’IA de manière très inoffensive pour filtrer les CV des postes de direction de l’entreprise.

THQ :

Ah oui – et cela a commencé à apprendre à éliminer et à éliminer les femmes et les personnes de couleur, n’est-ce pas ? Parce qu’ils ne correspondaient pas à ses données de formation sur ce à quoi ressemblaient les dirigeants d’Amazon jusque-là.

KS :

Exactement. C’est pourquoi la lignée des données est importante. Vos résultats dépendront des données sur lesquelles vous entraînez votre IA.

THQ :

Comme nous nous en souvenons, Amazon a mis sur pied une équipe pour corriger le problème… et cela a échoué, et a finalement dû dissoudre l’équipe et revenir au tri humain des CV.

KS :

Bien.

Où en étions-nous ?

L’énigme de la propriété.

THQ :

SPL-

KS :
Droite. Donc, la propriété.

Vous vous souvenez que vous pensiez que les avocats frappaient l’air avant ?

THQ :

Oh mon Dieu…

KS :

Voici l’énigme. Si vous créez quelque chose qui est assisté par l’IA, qui possède les données dérivées qu’elle vous fournit… qui détient la propriété intellectuelle dérivée de la chose créée ? Est-ce votre IP ? Si vous avez utilisé un service d’API tiers, la propriété des données et de la propriété intellectuelle sur les œuvres dérivées est extrêmement importante, à la fois pour la responsabilité et pour votre propriété intellectuelle.

THQ :

C’est la question à propos de l’art généré par l’IA utilisant des échantillons d’œuvres d’autres personnes, qui ne reçoivent aucun crédit ou rémunération pour une partie du nouveau travail, n’est-ce pas ? Seulement transformé en un typepotentiellement nouveau de loi sur la propriété intellectuelle ?

KS :

Exactement. Qui possède quoi, qui est responsable de quoi et qui, surtout, est responsable de quoi ?

Le vide de la gouvernance.

Et enfin, il y a la gouvernance. Puis-je vous dire quelque chose ?

THQ :

N’importe quoi. Vous n’êtes pas une IA générative, nous faisons implicitement confiance aux données que vous fournissez.

KS :

Je ne sais même pas comment vous vous conformeriez à HIPAA si vous utilisiez une solution d’IA en ce moment. Alors, comment vous conformeriez-vous à de nombreuses réglementations en matière de gouvernance ?

Vous avez besoin d’un cadre pour le faire. Et comme nous l’avons dit dans la partie 1, premièrement, le cadre n’existe pas actuellement, et deuxièmement, la réglementation survient généralement à la suite de mauvaises choses qui se produisent – ou la probabilité que de mauvaises choses se produisent est si évidente qu’il est tout aussi évident que quelque chose doit être Terminé.

Il est possible de voir les données sous la matrice.

THQ :

C’est… c’est toute la liste des dilemmes liés aux données. Ne partez pas. Nous allons prendre un nouveau pot de café et revenir pour la partie 3 de cet article, car il y a encore des questions qui doivent encore être posées…

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici