La meilleure vidéo de démonstration Gemini AI de Google a été réalisée

Agrandir / Une image tirée de la vidéo promotionnelle trompeuse de Google Gemini AI, publiée mercredi.

Google

Google fait face à une controverse parmi les experts en IA à cause d’une vidéo promotionnelle trompeuse de Gemini publiée mercredi, qui semble montrer son nouveau modèle d’IA reconnaissant des repères visuels et interagissant vocalement avec une personne en temps réel. Comme le rapporte Parmy Olson pour Bloomberg, Google a admis que ce n’était pas le cas. Au lieu de cela, les chercheurs ont fourni des images fixes au modèle et ont édité ensemble les réponses réussies, déformant partiellement les capacités du modèle.

« Nous avons créé la démo en capturant des images afin de tester les capacités de Gemini sur un large éventail de défis », a déclaré un porte-parole. « Ensuite, nous avons invité Gemini à utiliser des images fixes de la séquence et à l’inviter via du texte », a déclaré un porte-parole de Google à Olson. Comme le souligne Olson, Google a filmé une paire de mains humaines en train de faire des activités, puis a montré des images fixes à Gemini Ultra, une par une. Les chercheurs de Google ont interagi avec le modèle par le biais du texte et non de la voix, puis ont sélectionné les meilleures interactions et les ont montées avec la synthèse vocale pour créer la vidéo.

À l’heure actuelle, l’exécution d’images fixes et de textes via des modèles de langage volumineux et massifs nécessite des calculs intensifs, ce qui rend l’interprétation vidéo en temps réel largement peu pratique. C’est l’un des indices qui ont amené les experts en IA à croire que la vidéo était trompeuse.

La vidéo Google Gemini en question.

« La vidéo de Google donnait l’impression que vous pouviez montrer différentes choses à Gemini Ultra en temps réel et lui parler. Vous ne pouvez pas », a écrit Olson dans un tweet. Un porte-parole de Google a déclaré que « la voix off de l’utilisateur est constituée de véritables extraits des invites réelles utilisées pour produire la sortie Gemini qui suit ».

Rattraper son retard avec le battage médiatique

Au cours de l’année écoulée, la nouvelle société OpenAI a embarrassé Google en prenant de l’avance dans la technologie de l’IA générative, dont certaines trouvent leur origine dans les avancées des laboratoires de recherche de Google. Le géant de la recherche s’efforce de rattraper son retard depuis le début de cette année, en déployant de gros efforts sur le concurrent de ChatGPT, Bard, et sur les grands modèles de langage comme PaLM 2. Google a présenté Gemini comme le premier véritable rival du GPT-4 d’OpenAI, qui est encore largement considéré comme le premier véritable rival du GPT-4 d’OpenAI. leader du marché des grands modèles de langage.

Au début, il semblait que tout se passait comme prévu. Après l’annonce de Google Gemini mercredi, les actions de la société ont augmenté de 5 pour cent. Mais bientôt, les experts en IA ont commencé à démonter les affirmations peut-être exagérées de Google selon lesquelles «capacités de raisonnement sophistiquées« , y compris des points de repère qui pourraient ne pas signifier grand-chose, se concentrant finalement sur la vidéo promotionnelle Gemini avec des résultats truqués.

Dans la vidéo contestée, intitulée « Hands-on with Gemini : Interacting with multimodal AI », nous voyons une vue de ce que le modèle d’IA voit apparemment, accompagnée des réponses du modèle d’IA sur le côté droit de l’écran. Le chercheur dessine des lignes ondulées et des canards et demande aux Gémeaux ce qu’ils peuvent voir. Le spectateur entend une voix, apparemment celle de Gemini Ultra, répondant aux questions.

Comme Olson le souligne dans son article sur Bloomberg, la vidéo ne précise pas non plus que la démo de reconnaissance utilise probablement Gemini Ultra, qui n’est pas encore disponible. « Faire de tels détails indique un effort marketing plus large ici : Google veut que nous [to] rappelez-vous qu’il possède l’une des plus grandes équipes de chercheurs en IA au monde et qu’il a accès à plus de données que quiconque », a écrit Olson.

Prises seules, et si elles sont représentées plus précisément (comme elles le sont sur cette page de blog Google), les capacités de reconnaissance d’image de Gemini ne sont pas à dédaigner. Ils semblent à peu près comparables aux capacités du modèle d’IA multimodal GPT-4V (GPT-4 avec vision) d’OpenAI, qui peut également reconnaître le contenu d’images fixes. Mais une fois édité ensemble de manière transparente à des fins promotionnelles, le modèle Gemini de Google semblait plus performant qu’il ne l’est, ce qui a suscité l’enthousiasme de nombreuses personnes.

« Je ne peux pas m’empêcher de penser aux implications de cette manifestation », a tweeté jeudi l’organisateur de TED, Chris Anderson.  » Ce n’est sûrement pas fou de penser que l’année prochaine, un jeune Gémeaux 2.0 pourrait assister à une réunion du conseil d’administration, lire les documents d’information, regarder les diapositives, écouter les mots de chacun et apporter des contributions intelligentes aux questions débattues ? Maintenant, dites-moi. . Cela ne compterait-il pas comme AGI ? »

« Cette démo a été incroyablement modifiée pour suggérer que Gemini est bien plus performant qu’il ne l’est », a répondu l’ingénieur logiciel pionnier Grady Booch. « Vous avez été trompé, Chris. Et honte à eux de le faire. »

Source-147