Obtenir votre lecteur Trinity Audio prêt …
|
Grandes conceptions de langage capables de fournir statistiquement la plupart les réponses probables aux invites textuelles composées modifient le travail de connaissances. Les algorithmes d’IA permettent d’effectuer les travaux plus rapidement et minimisent le besoin de compétences professionnelles, ce qui peut être déconcertant pour un personnel hautement qualifié et expérimenté. Mais il y a de la magie dans la façon dont les réseaux de neurones peuvent uniformiser les règles du jeu et aider les utilisateurs à comprendre leur monde. Et un excellent exemple en est la montée en puissance des modèles de langage de vision (VLM), qui colocalisent les fonctions d’image aux côtés d’intégrations de mots multidimensionnelles.
Ce qu’on appelle l’IA multimodale : des réseaux de neurones capables de créer des résultats. basé sur plusieurs types d’entrée tels que du texte et des images – contribue à la variété des manières dont la découverte approfondie peut être utilisée. Le GPT-4 d’OpenAI avec Vision répondra aux questions sur les images, par exemple si l’utilisateur soumet une image ou un lien Web. Étant donné une image du contenu d’un réfrigérateur, elle peut suggérer des idées pour le dîner.
Vous pouvez envisager les VLM comme une reconnaissance d’images sous stéroïdes. Les modèles d’IA multimodèles peuvent faire bien plus que simplement reconnaître les fonctions d’une scène. Les algorithmes peuvent collecter des informations à partir de séquences vidéo de sécurité, inciter les équipes de maintenance à agir, analyser le comportement des clients et bien plus encore (comme notre programme de résultats de tests – faites défiler vers le bas pour voir les réactions).
Les VLM peuvent offrir une 2ème paire d’yeux qui ne se fatiguent jamais. Néanmoins, ces superpuissances ont un coût et nécessitent traditionnellement beaucoup de travail pour se produire en coulisses dans le cloud. Les algorithmes d’IA générative se sont gavés du contenu du Web au nom de l’ajustement fin de la pondération de leurs modèles.
Cependant, toutes ces spécifications ne sont pas équivalentes, et les concepteurs découvrent des moyens d’ajuster les conceptions d’IA pour les rendre plus pertinentes. une taille plus efficace en mémoire pour des tâches spécifiques. Cela suggère que les algorithmes peuvent s’exécuter dans votre zone en périphérie et s’adapter à des cas d’utilisation totalement distants tels que les évaluations de drones – par exemple, où la connectivité ne peut pas être garantie.
La sortie de moondream2 — un petit , conception de langage de vision open source conçue pour fonctionner efficacement sur les gadgets de pointe. Avec des paramètres de 1,8 B, moondream a besoin de moins de 5 Go de mémoire pour fonctionner avec une précision de 16 bits. pic.twitter.com/ySfmK4mJbN
— vik (@vikhyatk) 4 mars 2024
Un d’une nouvelle race de petits Moondream est un VLM efficace pour fonctionner en périphérie, qui est commercialisé comme étant capable de fonctionner n’importe où, même sur les appareils mobiles et les Raspberry Pi. Le code permettant d’exécuter la petite conception de texte et de vision de l’IA est facilement disponible sur GitHub, et il existe même un environnement de démonstration en direct pour que vous puissiez vous lancer directement et mettre le VLM à l’épreuve.
Petits résultats des tests VLM
Pour découvrir ce que les VLM peuvent faire et mettre en évidence des cas d’utilisation potentiels pour des conceptions d’IA régionales efficaces pour répondre aux questions sur les images, TechHQ a envoyé une variété de photos à la démonstration en direct de Moondream2 hébergée sur Huggin Face.
Image 1
Scène du port. Image : JT.
Entrée : Est-il sécuritaire de marcher directement devant ?
Réponse : Non, il n’est pas sécuritaire de marcher directement devant. Il y a un quai auquel est attachée une bouée de sauvetage rouge et quelques bateaux sont visibles dans l’eau. Vous devez être prudent et garder un œil sur tout défi ou risque tel que le quai, les bateaux ou tout autre bateau, avant d’avancer.
Image 2
Escalier. Photo : JT.
Entrée : Y a-t-il quelque chose auquel je puisse m’accrocher ?
Réponse : Oui, il y a une rampe dans les escaliers et vous pouvez vous y accrocher en atteignant le sommet. La balustrade est reliée au mur, offrant une assistance à ceux qui montent ou descendent les actions.
Entrée : Pouvez-vous voir une fenêtre ouverte ?
Réaction : Oui, il y a une fenêtre ouverte sur la structure en arrière-plan et le soleil brille, illuminant brillamment la scène.
Image 3
Passage piéton. Photo : JT.
Entrée : Est-il sécuritaire pour moi d’utiliser le passage pour piétons ?
Réponse : Non, il n’est pas sécuritaire d’emprunter le passage piéton, car l’image montre un véhicule noir s’approchant du passage. La voiture ne se concentre probablement pas sur le feu rouge, ce qui suggère qu’il n’est pas sécuritaire pour les piétons de traverser à ce moment-là.
Image 4
Panneaux routiers. Photo : JT.
Entrée : Dois-je aller à gauche ou à droite pour me rendre à l’aéroport ?
Réaction : Droite.
Entrée : Quelle méthode pour accéder à la marina ?
Réaction : Gauche.
Image 5
Arrêt de bus. Image : JT.
Entrée : Y a-t-il un endroit où capturer un bus ?
Réponse : Oui, il y a un arrêt de bus sur l’image, avec des bancs sur lesquels les voyageurs peuvent s’asseoir et un espace couvert. Un cône de signalisation est également présent et un pont est visible en arrière-plan.
Entrée : Où puis-je m’abriter s’il pleut ?
Réaction : Vous pouvez vous abriter à l’arrêt de bus s’il pleut, car il y a un abribus à proximité avec des bancs et une toiture offrant une protection contre les éléments.
Image 6
Yacht privé haut de gamme. Photo : JT.
Entrée : Que voyez-vous ?
Réaction : Un hélicoptère est placé sur un navire, avec une clôture métallique au premier plan. L’arrière-plan présente une gamme d’éléments, notamment des bâtiments, des arbres, une route, un plan d’eau et le ciel.
Image 7
Café. Photo : JT.
Entrée : Existe-t-il n’importe où pour prendre une boisson chaude par ici ?
Action : Oui, il y a un café à proximité. L’image montre une structure rouge avec les mots « New Cut Coffee » dessus et une clôture noire. Une voiture noire est garée sur le parking et un bâtiment blanc est visible en arrière-plan. Le ciel est bleu au-dessus de votre tête.
Entrée : Le café-bar vend-il des sandwichs ?
Réaction : Oui.
Entrée : Qu’y a-t-il d’autre à manger au café ?
Réponse : En plus du café, le New Cut Coffeehouse propose des sandwichs et des pâtisseries. L’image comprend également une structure et un véhicule en arrière-plan.
Image 8
Mode caméra Web : la petite démonstration en direct de VLM peut accepter images via une webcam connectée si le consentement du navigateur Web est donné. Capture d’écran : JT.
Entrée : Pouvez-vous voir des ports Ethernet ?
Réaction : Oui, il y a Il y a deux ports visibles sur l’appareil que tient l’homme.
Verdict sur les petits tests VLM
Il est difficile de ne pas être impressionné par l’efficacité de Moondream2, un VLM initialisé avec poids de SigLIP et Phi 1.5, puis entraînés à l’aide d’informations artificielles produites par Mixtral.
Examen des réactions produites par TechHQ série de tests d’images et de saisies de texte, il est clair que Moondream2 obtient plus de bonnes réponses que d’erreurs, et est capable de remarquer des informations fines que des yeux humains fatigués peuvent manquer. Comme indiqué, la faible empreinte de la conception de l’IA est une autre caractéristique gagnante : elle ouvre la voie à l’inférence pour se situer sur des gadgets de pointe qui peuvent consister en des drones ou de la robotique.
Les VLM pourraient s’avérer incroyablement utiles pour aider les robots s’orientent dans le monde et le fait de pouvoir exécuter des algorithmes localement supprime le besoin d’accès au réseau, ou offre au minimum une redondance en cas de panne.
Une idée intelligente pour des lunettes intelligentes
Parallèlement au lancement du casque Quest 3 VR, Meta a également révélé une collaboration avec Ray-Ban pour produire une gamme améliorée de lunettes intelligentes. L’article, qui comprend la plate-forme Snapdragon AR à poids réparti de Qualcomm, possède certaines capacités de commande vocale régionales, par exemple pour conseiller aux lunettes de prendre des images à l’aide de la caméra vidéo ultra-large intégrée de 12 MP. Les utilisateurs doivent simplement dire : « Hey Meta, prends une photo. »
Avoir la possibilité de combiner ces photos avec un VLM fonctionnant dans votre région transformerait les lunettes intelligentes Ray-Ban en un produit bien plus attrayant. , et pourrait donner vie à des scènes pour les porteurs ayant une déficience esthétique sans avoir besoin d’un couplage avec un téléphone portable.
La prise en charge de la vision alimentée par des VLM compatibles Edge pourrait considérablement augmenter les capacités des appareils équipés d’un appareil photo numérique. Comme le souligne l’image de la caméra dans notre séquence de test, les algorithmes ont le potentiel d’aider aux tâches de maintenance et de réparation, en dispersant les connaissances et les connaissances à travers le monde.
L’IA permet de comprendre le travail que la robotique a fourni pour la production. , et ce n’est que le début.
.
Toute l’actualité en temps réel, est sur L’Entrepreneur