vendredi, 1 mars 2024

GenAI est très imprécis pour une utilisation professionnelle – et devient de plus en plus opaque

Crédit : Shutterstock/Jamie Jin

Les grands modèles de langage (LLM), les plateformes algorithmiques sur lesquels sont construits les outils d’IA générative (genAI) comme ChatGPT, sont extrêmement peu fiables lorsqu’ils sont connectés à des bases de données d’entreprise et finissent par être moins transparents, selon 2 études.

Une étude de recherche de l’Université de Stanford a montré que les LLM continuent de consommer d’énormes quantités de détails et de croître en taille, la genèse des informations qu’ils utilisent finit par être plus difficile à localiser. Cela, à son tour, rend difficile pour les entreprises de savoir si elles peuvent créer en toute sécurité des applications utilisant des conceptions commerciales de structures genAI et pour les universitaires de dépendre d’elles pour leurs études de recherche.

Cela rend également plus difficile pour les législateurs de créer des politiques significatives pour contrôler la technologie efficace et « permettre aux clients de comprendre les restrictions de conception ou de demander réparation pour les dommages causés », indique l’étude de recherche de Stanford.

Les LLM (également connus sous le nom de conceptions de structures) tels que GPT, LLaMA et DALL-E sont apparus au cours de l’année écoulée et ont en fait transformé le système expert (IA), offrant à un certain nombre d’entreprises expérimentant eux une augmentation de l’efficience et de l’efficacité. Ces avantages s’accompagnent d’une lourde dose d’imprévisibilité.

« L’ouverture est une condition préalable nécessaire à la responsabilité publique, à l’innovation scientifique et à la gouvernance efficace des innovations numériques », a déclaré Rishi Bommasani, responsable de la société au Center for Research on Structure de Stanford. Des modèles. « Le manque d’ouverture est depuis longtemps un problème pour les consommateurs d’innovations numériques. « 

Université de Stanford

Par exemple, les publicités et les prix en ligne trompeurs, les pratiques salariales incertaines dans le covoiturage, les schémas obscurs qui trompent les utilisateurs et les font ignorer. achats, et une myriade de problèmes de transparence autour de la modération matérielle ont créé une vaste communauté de désinformation sur les réseaux sociaux, a noté Bommasani.

 » À mesure que l’ouverture autour des affaires [conceptions de fondations] diminue, nous sommes confrontés à des problèmes similaires.  » C’est une sorte de menace pour la défense des clients », a-t-il déclaré.

OpenAI, qui a le mot  » open  » dans son nom, a clairement déclaré qu’il ne serait pas transparent sur la plupart des éléments de son modèle phare, GPT. -4, ont noté les scientifiques de Stanford.

Pour évaluer la transparence, Stanford a réuni un groupe composé de scientifiques du MIT et de Princeton pour concevoir un système de notation appelé Foundation Model Openness Index (FMTI). Il évalue 100 aspects ou indicateurs différents d’ouverture, depuis la manière dont une entreprise construit un modèle de structure, son fonctionnement et son utilisation en aval.

L’étude de Stanford a évalué 10 LLM et a découvert que le score moyen d’ouverture était simplement de 37 %. LLaMA a obtenu le score le plus élevé, avec un score d’ouverture de 52 pour cent ; il a été suivi par GPT-4 et PaLM 2, qui ont obtenu respectivement 48 % et 47 %.

« Si vous ne faites pas preuve d’ouverture, les régulateurs ne peuvent même pas positionner les meilleures préoccupations, et encore moins agir. dans ces endroits », a déclaré Bommasani.

Pendant ce temps, presque tous les employeurs seniors (95 %) pensent que les outils genAI sont régulièrement utilisés par les membres du personnel, avec plus de la moitié (53 %) déclarant que cela conduit désormais à des besoins particuliers. départements de l’entreprise, selon une autre étude réalisée par la société de cybersécurité et antivirus Kaspersky Lab. Cette étude a révélé que 59 % des dirigeants expriment désormais de profondes inquiétudes quant aux dangers de sécurité liés à genAI qui pourraient mettre en péril des informations commerciales délicates et conduire à une perte de contrôle des fonctions essentielles de l’entreprise.

« Tout comme le BYOD, genAI utilise d’énormes avantages en termes de performances pour les organisations, mais même si nos résultats révèlent que les dirigeants des conseils d’administration reconnaissent clairement sa présence dans leurs organisations, le niveau de son utilisation et de sa fonction est entouré de secret », a déclaré David Emm, principal chercheur en sécurité chez Kaspersky, dans un communiqué.

Le problème des LLM va plus loin que la simple ouverture ; l’exactitude globale des conceptions a en fait été remise en question presque depuis le moment où OpenAI a lancé ChatGPT il y a un an.

Juan Sequeda, responsable du laboratoire d’IA chez Data. world, une société de plateforme de catalogage de données, a déclaré que son entreprise vérifiait les LLM connectés aux bases de données SQL et qu’elle était chargée de fournir des réponses aux questions spécifiques à l’entreprise. En utilisant des données réelles des assureurs, l’étude de recherche a montré que les LLM renvoient des réponses précises à de nombreuses requêtes de service de base seulement 22 % du temps. Et pour les requêtes de niveau intermédiaire et expert, la précision a chuté à 0 %.

Le manque de références idéales texte-à-SQL adaptées aux paramètres de l’entreprise pourrait avoir un impact sur la capacité des LLM à répondre correctement aux questions des utilisateurs ou aux « déclencheurs ».

« Il est entendu que les LLM « Nous ne disposons pas d’un contexte organisationnel interne, ce qui est crucial pour l’exactitude », a déclaré Sequeda. « Notre étude révèle une lacune en ce qui concerne l’utilisation des LLM, en particulier avec les bases de données SQL, qui constituent la principale source d’informations structurées dans l’entreprise. Je suppose que cette lacune existe également pour d’autres bases de données. »

Entreprises investir des millions de dollars dans des installations de stockage de données cloud, des renseignements organisationnels, des outils de visualisation et des systèmes ETL et ELT, tout cela afin de mieux tirer parti des informations, a gardé Sequeda à l’esprit. Être capable d’utiliser les LLM pour poser des questions sur ces données ouvre d’énormes possibilités pour améliorer les procédures telles que les indications d’efficacité essentielles, les mesures et la préparation tactique, ou pour créer des applications complètement nouvelles qui tirent parti de la maîtrise approfondie du domaine pour développer plus de valeur.

L’étude s’est principalement concentrée sur la réponse aux questions à l’aide de GPT-4, avec des déclencheurs zéro directement sur les bases de données SQL. Le taux de précision ? Seulement 16 %.

L’effet net des réponses inexactes basées sur les bases de données commerciales est une désintégration de la confiance. « Que se passe-t-il si vous présentez au conseil d’administration des chiffres qui ne sont pas exacts ? Ou à la SEC ? Dans chaque cas, le coût serait élevé », a déclaré Sequeda.

Le problème avec les LLM est qu’ils sont des dispositifs d’analyse et de correspondance de modèles qui prévoient le mot suivant en fonction des mots précédents. Leurs prévisions sont basées sur l’observation de modèles provenant de l’ensemble du contenu du Web ouvert. Étant donné que le Web ouvert est fondamentalement un très grand ensemble de données, le LLM renverra des éléments qui semblent extrêmement plausibles, mais qui peuvent également ne pas être fiables, selon Sequeda.

« Un autre facteur est que les modèles font uniquement des prévisions basées sur « Si les entreprises tentent d’exécuter des LLM à une échelle substantielle sans traiter avec précision, les initiatives échoueront », a poursuivi Sequeda. « Les utilisateurs découvriront bientôt qu’ils ne peuvent pas faire confiance aux LLM et cesseront de les utiliser. Nous avons constaté une tendance comparable en matière de données et d’analyses au fil des ans. »

La précision des LLM est passée à 54 % lorsque les préoccupations sont présentées sur une représentation Understanding Graph de la base de données SQL métier. « Pour cette raison, il est nécessaire d’acheter aux sociétés Knowledge Chart une plus grande précision pour les systèmes de questions-réponses basés sur LLM », a déclaré Sequeda. « On ne sait toujours pas pourquoi cela se produit, car nous ne comprenons pas ce qui se passe à l’intérieur du LLM.

« Ce que nous savons, c’est que si vous donnez un LLM en temps opportun avec l’ontologie cartographiée dans un LLM, En comprenant le tableau, qui comprend le contexte commercial crucial, la précision est 3 fois plus grande que si vous ne le faites pas », a poursuivi Sequeda. « Cependant, il est très important de nous demander ce qu’implique ‘précis et adéquat’ ?’

Pour augmenter la possibilité d’actions précises de la part des LLM, les entreprises doivent disposer d’une « structure de données solide », ou ce que Sequeda et d’autres appellent des informations prêtes pour l’IA ; cela indique que les informations sont cartographiées dans un graphique de compréhension pour augmenter la précision. des réactions et de garantir qu’il y a une explicabilité, « ce qui suggère que vous pouvez faire en sorte que le LLM révèle son travail. »

Une autre façon d’augmenter la précision de la conception serait d’utiliser des conceptions en petit langage (SLM) ou peut-être l’industrie. « Je pourrais imaginer un avenir dans lequel chaque entreprise exploitera une variété de LLM spécifiques, chacun étant adapté à des types particuliers de réponses aux questions », a déclaré Sequeda.
« Cependant, la technique reste la même : prévoir le mot suivant. Cette prévision peut être élevée, mais il y aura toujours une chance que la prédiction soit fausse. »

Chaque entreprise également Il faut assurer la surveillance et la gouvernance pour éviter que les informations sensibles et exclusives ne soient mises en danger par des modèles qui ne sont pas prévisibles, a déclaré Sequada.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici