Pour créer un Internet plus accessible, le contexte compte

Ils disent qu’une image vaut mille mots. Mais une image ne peut pas « parler » aux personnes atteintes de cécité ou de basse vision (BLV) sans un peu d’aide. Dans un monde dominé par l’imagerie visuelle, en particulier en ligne, cela crée un obstacle à l’accès.

La bonne nouvelle : lorsque les lecteurs d’écran (logiciels qui lisent le contenu des pages Web aux utilisateurs de BLV) rencontrent une image, ils liront n’importe quel « alt-texte » descriptions que le créateur du site Web a ajoutées au code HTML sous-jacent, rendant l’image accessible.

La mauvaise nouvelle : peu d’images sont accompagnées de descriptions adéquates en texte alternatif.

En fait, selon une étude, les descriptions en texte alternatif sont incluses dans moins de 6 % des images Wikipédia en anglais. Et même dans les cas où les sites Web fournissent des descriptions, ils ne seront peut-être d’aucune utilité pour la communauté BLV. Imaginez, par exemple, des descriptions en texte alternatif qui ne répertorient que le nom du photographe, le nom du fichier de l’image ou quelques mots-clés pour faciliter la recherche. Ou imaginez un bouton d’accueil qui a la forme d’une maison mais pas de texte alternatif indiquant « accueil ».

Événement

Transformer 2023

Rejoignez nous à San Francisco les 11 et 12 juillet, où les cadres supérieurs expliqueront comment ils ont intégré et optimisé les investissements dans l’IA pour réussir et éviter les pièges courants.

Inscrivez-vous maintenant

En raison de descriptions d’images manquantes ou inutiles, les membres de la communauté BLV sont souvent exclus des interactions précieuses sur les réseaux sociaux ou incapables d’accéder aux informations essentielles sur les sites Web qui utilisent des images pour la navigation sur le site ou pour transmettre un message.

L’IA peut-elle aider les personnes aveugles et malvoyantes ?

Bien que nous devrions encourager de meilleurs outils et interfaces pour inciter les gens à rendre les images accessibles, l’incapacité de la société à ce jour à fournir des descriptions de texte alternatif utiles et accessibles pour chaque image sur Internet indique le potentiel d’une solution d’IA, déclare Elisa Kreiss, étudiante diplômée en linguistique à l’université de Stanford et membre du Groupe de traitement du langage naturel de Stanford.

Cependant, les descriptions d’images générées en langage naturel (NLG) ne se sont pas encore avérées bénéfiques pour la communauté BLV. « Il y a un décalage entre les modèles que nous avons en informatique qui sont censés générer du texte à partir d’images et ce que les utilisateurs réels trouvent utile », déclare Kreiss.

Dans un article récent, Kreiss et les co-auteurs de son étude (dont des universitaires de Stanford, Google Brain et Columbia University) ont constaté que les utilisateurs de BLV préfèrent les descriptions d’images qui tiennent compte du contexte.

Étant donné que le contexte peut modifier considérablement la signification d’une image (par exemple, un joueur de football dans une publicité Nike par rapport à un article sur un traumatisme crânien), les informations contextuelles sont essentielles pour créer des descriptions en texte alternatif utiles.

Pourtant, les mesures existantes de la qualité de la description des images ne tiennent pas compte du contexte. Ces mesures orientent donc le développement des descriptions d’images NLG dans une direction qui n’améliorera pas l’accessibilité des images, déclare Kreiss.

Kreiss et son équipe ont également constaté que les utilisateurs de BLV préfèrent les descriptions plus longues en texte alternatif plutôt que les descriptions concises généralement promues par les éminents accessibilité consignes – un résultat qui va à l’encontre des attentes.

Ces résultats soulignent la nécessité non seulement de trouver de nouvelles façons de former des modèles linguistiques sophistiqués, déclare Kreiss, mais aussi de nouvelles façons de les évaluer pour s’assurer qu’ils répondent aux besoins des communautés pour lesquelles ils ont été conçus.

Mesurer l’utilité des descriptions d’images en contexte

Les informaticiens ont longtemps supposé que les descriptions d’images devaient être objectives et indépendantes du contexte, explique Kreiss. Mais la recherche sur l’interaction homme-ordinateur montre que les utilisateurs de BLV ont tendance à préférer les descriptions à la fois subjectives et adaptées au contexte. « Si le chien est mignon ou si la journée ensoleillée est belle, selon le contexte, la description devra peut-être le dire », dit-elle. Et si l’image apparaît sur un site Web d’achat par rapport à un actualités blog, la description du texte alternatif doit refléter le contexte particulier pour aider à clarifier sa signification.

Pourtant, les mesures existantes pour évaluer la qualité des descriptions d’images se concentrent sur la question de savoir si une description est raisonnablement adaptée à l’image, quel que soit le contexte dans lequel elle apparaît, déclare Kreiss.

Par exemple, les statistiques actuelles peuvent donner une note élevée à la description d’une photo d’une équipe de football qui se lit comme suit : « une équipe de football jouant sur un terrain », qu’elle accompagne ou non un article sur la coopération (auquel cas le texte alternatif doit inclure quelque chose sur la façon dont l’équipe coopère), une histoire sur les coiffures inhabituelles des athlètes (auquel cas les coiffures doivent être décrites) ou un rapport sur la prévalence de la publicité dans les stades de football (auquel cas la publicité dans l’arène peut être mentionnée). Si les descriptions d’images doivent mieux répondre aux besoins des utilisateurs de BLV, dit Kreiss, elles doivent avoir une plus grande sensibilité au contexte.

Pour explorer l’importance du contexte, Kreiss et ses collègues ont engagé des employés d’Amazon Mechanical Turk pour rédiger des descriptions d’images pour 18 images, chacune apparaissant dans trois articles Wikipédia différents. En plus de l’exemple de football cité ci-dessus, l’ensemble de données comprenait des images telles qu’une flèche d’église liée à des articles sur les toits, les matériaux de construction et les croix chrétiennes ; et une chaîne de montagnes et une vue sur le lac associées à des articles sur les écosystèmes montagnards (pente de montagne), un plan d’eau et l’orogenèse (une manière spécifique dont les montagnes se forment).

Les chercheurs ont ensuite montré les images aux participants voyants et à l’étude BLV et leur ont demandé d’évaluer la qualité globale de chaque description ; imaginabilité (dans quelle mesure cela a aidé les utilisateurs à imaginer l’image) ; la pertinence (dans quelle mesure il a capturé les informations pertinentes) ; non-pertinence (combien d’informations non pertinentes ont été ajoutées) ; et « ajustement » général (à quel point l’image s’intègre-t-elle dans l’article).

L’étude a révélé que les notes des participants voyants et BLV étaient fortement corrélées.

Le contexte compte

Le fait de savoir que les deux populations étaient alignées dans leurs évaluations sera utile lors de la conception des futurs systèmes NLG pour générer des descriptions d’images, déclare Kreiss. « Les points de vue des membres de la communauté BLV sont essentiels, mais souvent, lors du développement du système, nous avons besoin de beaucoup plus de données que nous ne pouvons obtenir de la population BLV à faible incidence. »

Autre constatation : le contexte compte. Les notes des participants sur la qualité globale d’une description d’image sont étroitement alignées sur leurs notes sur la pertinence.

En ce qui concerne la longueur des descriptions, les participants au BLV ont mieux noté la qualité des descriptions plus longues que les participants voyants, une conclusion que Kreiss considère comme surprenante et digne d’une recherche plus approfondie. « La préférence des utilisateurs pour des descriptions d’images plus courtes ou plus longues peut également dépendre du contexte », note-t-elle. Les chiffres dans les articles scientifiques, par exemple, pourraient mériter des descriptions plus longues.

Orienter vers de meilleures mesures de qualité de la description de l’image

Kreiss espère que les recherches de son équipe permettront de promouvoir des indicateurs de qualité de description d’image qui répondront mieux aux besoins des utilisateurs de BLV. Elle et ses collègues ont découvert que deux des méthodes actuelles (CLIPScore et SPURTS) n’étaient pas capables de capturer le contexte.

CLIPScore, par exemple, ne fournit qu’un score de compatibilité pour une image et sa description. Et SPURTS évalue la qualité du texte de description sans référence à l’image.

Bien que ces statistiques puissent évaluer la véracité d’une description d’image, ce n’est qu’une première étape vers la génération d’une description « utile », qui nécessite également de la pertinence (c’est-à-dire une dépendance au contexte), déclare Kreiss.

Il n’était donc pas surprenant que les évaluations de CLIPScore des descriptions d’images dans l’ensemble de données des chercheurs ne soient pas corrélées avec les évaluations du BLV et des participants voyants. Essentiellement, CLIPScore a évalué la qualité de la description de la même manière quel que soit le contexte.

Lorsque l’équipe a ajouté le texte des divers articles de Wikipédia pour modifier la façon dont CLIPScore est calculé, la corrélation avec les évaluations humaines s’est quelque peu améliorée – une preuve de concept, dit Kreiss, que les métriques d’évaluation sans référence peuvent être rendues contextuelles .

Elle et son équipe travaillent actuellement à la création d’une statistique qui tient compte du contexte dès le départ pour rendre les descriptions plus accessibles et plus adaptées à la communauté de personnes qu’elles sont censées servir.

« Nous voulons travailler sur des mesures qui peuvent nous mener vers le succès dans ce domaine social très important », déclare Kreiss. « Si nous ne commençons pas avec les bons indicateurs, nous n’avançons pas dans la direction que nous souhaitons. »

Cette histoire a été initialement publiée sur Hai.stanford.edu. Droits d’auteur 2023

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

Article précédent

La Californie est sur le point d’être touchée par un Supershroom

Article suivant

Les femmes dans la tech : les inégalités décortiquées

LAISSER UN COMMENTAIRE Annuler la réponse

S'il vous plaît entrez votre commentaire!

S'il vous plaît entrez votre nom ici

Vous avez entré une adresse email incorrecte!

Veuillez entrer votre adresse email ici