jeudi, 18 avril 2024

Évaluation des « lunettes de traduction » de Google

Crédit : Google

Google a taquiné les lunettes de traduction lors de la conférence des développeurs Google I/O de la semaine dernière , offrant la garantie que vous pourrez un jour parler à quelqu’un qui parle une langue étrangère et voir la traduction anglaise dans vos lunettes.

Des dirigeants d’entreprise ont fait la démonstration des lunettes dans une vidéo ; il a révélé non seulement le « sous-titrage codé » – un texte en temps réel épelant exactement dans la même langue ce qu’une autre personne dit – mais également une traduction vers et depuis l’anglais et le mandarin ou l’espagnol, permettant aux personnes parlant 2 langues différentes de poursuivre une conversation tout en permettant aux utilisateurs malentendants de voir ce que les autres leur disent.

En tant que matériel Google Traduction, les lunettes résoudraient un problème important lié à l’utilisation de Google Traduction, à savoir : si vous utilisez traduction audio, les étapes audio de traduction sur la conversation en temps réel. En fournissant une traduction visuelle, vous pouvez suivre les conversations beaucoup plus facilement et naturellement.

Contrairement à Google Glass, la traduction- Le modèle de lunettes est également en réalité augmentée (RA). Permettez-moi de décrire ce que je suggère.

Une réalité accrue se produit lorsqu’un gadget enregistre des informations du monde entier et, sur la base de sa reconnaissance de ce que ces informations utilisent, inclut des détails qui sont facilement accessibles à l’utilisateur.

Google Glass n’était pas de la réalité augmentée, c’était un écran tête haute. La seule conscience contextuelle ou environnementale qu’il pouvait gérer était le lieu. Basé sur le lieu, il pourrait donner des instructions détaillées ou des conseils basés sur la localisation. Mais il ne pouvait généralement pas récolter d’informations visuelles ou audio, puis renvoyer à l’utilisateur des informations sur ce qu’il voyait ou entendait.

Les lunettes de traduction de Google sont, en fait, de la RA en prenant essentiellement des données audio de l’environnement et renvoyant à l’utilisateur un enregistrement de ce qui est dit dans la langue de l’option.

Les membres du public et la presse technique ont signalé la fonction de traduction comme l’application unique de ces lunettes sans aucune exploration analytique ou importante, comme autant que je sache. La vérité la plus flagrante qui aurait dû être mentionnée dans chaque rapport est que la traduction est simplement une option arbitraire pour traiter les informations audio dans le cloud. Les lunettes peuvent faire beaucoup plus.

Elles peuvent traiter rapidement n’importe quel son pour n’importe quelle application et renvoyer n’importe quel texte ou n’importe quel son à consommer par l’utilisateur. N’est-ce pas évident ?

En vérité, le matériel envoie du bruit au cloud et affiche le texte renvoyé par le cloud. C’est tout ce que font les lunettes. Envoyer du bruit. Recevez et affichez du texte.

Les applications de traitement audio et de retour d’informations contextuelles exploitables ou informatives sont presque illimitées. Les lunettes pourraient envoyer n’importe quel bruit, puis afficher n’importe quel texte renvoyé par l’application distante.

Le son pourrait même être encodé, comme un modem à l’ancienne. Un gadget générateur de bruit ou une application pour appareil intelligent peut envoyer des bips et des sifflets de type R2D2, qui peuvent être traités dans le cloud comme un code QR audio qui, une fois traduit par les serveurs, peut renvoyer tous les détails à afficher sur les lunettes. . Ce texte pourrait être des instructions pour faire fonctionner l’équipement. Il peut s’agir de détails sur un artefact spécifique dans un musée. Il peut s’agir d’informations sur un article particulier dans un magasin.

C’est le type d’applications que nous attendons de la RA visuelle pour livrer dans 5 ans ou plus. Dans l’intervalle, la majorité pourrait être réalisée avec l’audio.

Une utilisation sans aucun doute efficace des « lunettes de traduction » de Google serait de les utiliser avec Google Assistant. Ce serait comme utiliser un écran d’affichage intelligent avec Google Assistant – un appareil domestique qui fournit des données visuelles, en plus des informations audio régulières, à partir des requêtes de Google Assistant. Cette information visuelle serait disponible dans vos lunettes, mains libres, où que vous soyez. Ce serait une application d’affichage tête haute, au lieu d’AR.

Imaginez si les « lunettes de traduction » étaient associées à un appareil intelligent. Avec la permission donnée par d’autres, les transmissions Bluetooth d’informations de contact peuvent afficher (sur les lunettes) avec qui vous parlez lors d’une occasion d’organisation, ainsi que votre historique avec eux.

Pourquoi la presse technique cassé Google Glass

Les critiques de Google Glass ont frappé l’article, principalement pour deux raisons. Une caméra électronique orientée vers l’avant montée sur le casque rendait les individus désagréables. Si vous parliez à un porteur de Google Glass, la caméra était pointée directement sur vous, vous faisant vous demander si vous étiez enregistré. Google n’a pas précisé si leurs « lunettes de traduction » auraient un appareil photo électronique, mais le prototype n’en avait pas.

Deuxièmement, le matériel excessif et évident faisait ressembler les porteurs à des cyborgs.

La combinaison de ces deux transgressions matérielles a conduit les critiques à affirmer que les Google Glass n’étaient tout simplement pas socialement acceptables dans une société respectueuse.

Les « lunettes de traduction » de Google, en revanche, n’ont ni caméra vidéo ni ressemblent-ils à des implants cyborg– ils ressemblent essentiellement à des lunettes normales. Et le texte perceptible par le porteur n’est pas visible par la personne avec qui il parle. On dirait simplement qu’ils établissent un contact visuel.

Le seul point restant d’inacceptabilité sociale pour le matériel de « lunettes de traduction » de Google est le fait que Google « enregistrerait » essentiellement les mots des autres sans autorisation, en les publiant dans le cloud pour traduction et en conservant vraisemblablement ces enregistrements comme avec d’autres produits liés à la voix.

Pourtant, la réalité est que la vérité améliorée et même les affichages tête haute sont incroyablement attrayants, ne serait-ce que les fabricants peuvent obtenir le bon ensemble de fonctionnalités. Un jour, nous aurons une RA visuelle complète dans des lunettes d’apparence ordinaire. En attendant, les lunettes AR idéales auraient les caractéristiques suivantes :

  1. Elles ressemblent à des lunettes ordinaires.
  2. Elles peuvent accepter des verres correcteurs.
  3. Ils n’ont pas de caméra.
  4. Ils traitent l’audio avec l’IA et renvoient les données par texte.
  5. et ils offrent des performances d’assistant, renvoyant les résultats avec du texte.

A ce jour, il n’existe aucun article de ce type. Google a démontré qu’il avait la technologie pour le faire. Bien que les sous-titres linguistiques et la traduction puissent être la fonctionnalité la plus attrayante, il s’agit (ou devrait être) simplement d’un cheval de Troie pour de nombreuses autres applications de service intéressantes.

Google n’a pas annoncé quand– ou peut-être if– « equate glasses » sera expédié en tant que produit industriel. Mais si Google ne les fabrique pas, quelqu’un d’autre le fera, et il affichera une classification mortelle pour les utilisateurs de services.

La capacité des lunettes ordinaires à vous offrir un accès aux résultats visuels de l’interprétation par l’IA de qui et de quoi vous entendez, ainsi que les résultats visuels et audio des demandes de l’assistant, changeraient totalement le jeu vidéo.

Nous sommes dans une période délicate dans le développement de la technologie où les applications AR existent généralement en tant qu’applications pour appareils intelligents (où ils n’appartiennent pas) pendant que nous attendons des lunettes AR mobiles et socialement appropriées qui sont dans de nombreuses années.

En attendant, le service est clair : nous avons besoin de lunettes AR centrées sur l’audio qui captent le son et l’affichage mots.

C’est exactement ce que Google a montré.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici