vendredi, novembre 22, 2024

Le projet Astra de Google utilise l’appareil photo et l’IA de votre téléphone pour rechercher les créateurs de bruit, les objets égarés et bien plus encore.

Lorsque Google a présenté pour la première fois sa technologie d’assistant vocal Duplex lors de sa conférence des développeurs en 2018, c’était à la fois impressionnant et inquiétant. Aujourd’hui, à l’I/O 2024, l’entreprise pourrait à nouveau susciter ces mêmes réactions, cette fois en présentant une autre application de son intelligence en matière d’IA avec quelque chose appelé Projet Astra.

La société ne pouvait même pas attendre son discours d’aujourd’hui pour taquiner le projet Astra, en publiant hier une vidéo sur ses réseaux sociaux d’une application d’IA basée sur une caméra. Cependant, lors de son discours d’aujourd’hui, Demis Hassabis, PDG de DeepMind de Google, a déclaré que son équipe a « toujours voulu développer des agents d’IA universels qui peuvent être utiles dans la vie de tous les jours ». Le projet Astra est le résultat de progrès dans ce domaine.

Selon une vidéo présentée hier par Google lors d’une conférence de presse, Project Astra semble être une application dotée d’un viseur comme interface principale. Une personne brandissant un téléphone a pointé sa caméra vers différentes parties d’un bureau et a dit verbalement « Dites-moi quand vous voyez quelque chose qui fait du bruit ». Lorsqu’un haut-parleur à côté d’un moniteur est apparu, Gemini a répondu « Je vois un haut-parleur qui émet du son ».

La personne derrière le téléphone s’est arrêtée et a dessiné une flèche à l’écran vers le cercle supérieur du haut-parleur et a dit : « Comment s’appelle cette partie du haut-parleur ? Gemini a rapidement répondu : « C’est le tweeter. Il produit des sons à haute fréquence. »

Ensuite, dans la vidéo qui, selon Google, a été enregistrée en une seule prise, le testeur s’est dirigé vers une tasse de crayons de couleur plus loin sur la table et a demandé « Donnez-moi une allitération créative à ce sujet », ce à quoi Gemini a répondu « Les crayons créatifs colorent joyeusement ». Ils réalisent certainement des créations colorées. »

Le reste de la vidéo montre ensuite Gemini dans le projet Astra identifiant et expliquant des parties de code sur un moniteur, indiquant à l’utilisateur dans quel quartier il se trouvait en fonction de la vue par la fenêtre. Le plus impressionnant, c’est qu’Astra a pu répondre : « Vous souvenez-vous où vous avez vu mes lunettes ? » même si lesdites lunettes étaient complètement hors monture et n’avaient pas été signalées auparavant. « Oui, c’est vrai », a déclaré Gemini, ajoutant « Vos lunettes étaient sur un bureau près d’une pomme rouge. »

Après qu’Astra ait localisé ces lunettes, le testeur les a mises et la vidéo est passée à la perspective de ce que vous verriez sur le portable. À l’aide d’une caméra embarquée, les lunettes scannaient l’environnement du porteur pour voir des éléments comme un diagramme sur un tableau blanc. La personne dans la vidéo a alors demandé : « Que puis-je ajouter ici pour rendre ce système plus rapide ? » Pendant qu’ils parlaient, une forme d’onde à l’écran se déplaçait pour indiquer qu’il écoutait, et tandis qu’il répondait, des légendes de texte apparaissaient en tandem. Astra a déclaré que « l’ajout d’un cache entre le serveur et la base de données pourrait améliorer la vitesse ».

Le testeur a ensuite regardé une paire de chats griffonnés sur le tableau et a demandé : « Qu’est-ce que cela vous rappelle ? » Astra a dit « le chat de Schrödinger ». Finalement, ils ont ramassé un tigre en peluche, l’ont placé à côté d’un adorable golden retriever et ont demandé « un nom de groupe pour ce duo ». Astra a consciencieusement répondu « Rayures dorées ».

Cela signifie que non seulement Astra traitait les données visuelles en temps réel, mais qu’elle se souvenait également de ce qu’elle voyait et travaillait avec un arriéré impressionnant d’informations stockées. Ceci a été réalisé, selon Hassabis, parce que ces « agents » ont été « conçus pour traiter les informations plus rapidement en encodant en continu les images vidéo, en combinant les entrées vidéo et vocales dans une chronologie d’événements et en mettant ces informations en cache pour un rappel efficace ».

Il convient également de noter que, au moins dans la vidéo, Astra a réagi rapidement. Hassabis a noté dans un article de blog que « Bien que nous ayons fait des progrès incroyables dans le développement de systèmes d’IA capables de comprendre les informations multimodales, réduire le temps de réponse à quelque chose de conversationnel est un défi d’ingénierie difficile. »

Google s’efforce également de donner à son IA une plus grande gamme d’expressions vocales, en utilisant ses modèles vocaux pour « améliorer leur son, offrant ainsi aux agents une gamme d’intonations plus large ». Ce type de mimétisme de l’expressivité humaine dans les réponses rappelle les pauses et les déclarations de Duplex qui ont amené les gens à penser que l’IA de Google pourrait être candidate au test de Turing.

Bien qu’Astra reste une fonctionnalité précoce sans projet de lancement visible, Hassabis a écrit qu’à l’avenir, ces assistants pourraient être disponibles « via votre téléphone ou vos lunettes ». On ne sait pas encore si ces lunettes sont réellement un produit ou le successeur des Google Glass, mais Hassabis a écrit que « certaines de ces fonctionnalités seront intégrées aux produits Google, comme l’application Gemini, plus tard cette année ».

Restez informé de toutes les actualités de Google I/O 2024 directement ici!

Source-145

- Advertisement -

Latest