D’un réalisme désarmant : ChatGPT-4o se moquera de vos blagues et de votre chapeau stupide

Agrandir / Oh, espèce d’humain idiot et idiot. Pourquoi es-tu si idiot, espèce d’humain idiot ?

Aurich Lawson | Getty Images

À ce stade, toute personne ayant un intérêt, même passager, pour l’IA est très familière avec le processus de saisie de messages sur un chatbot et de réception de longs flux de texte en réponse. L’annonce d’aujourd’hui de ChatGPT-4o, qui permet aux utilisateurs de converser avec un chatbot en utilisant l’audio et la vidéo en temps réel, peut sembler une simple évolution latérale de ce modèle d’interaction de base.

Après avoir visionné plus d’une douzaine de démos vidéo qu’OpenAI a publiées parallèlement à l’annonce d’aujourd’hui, je pense que nous sommes sur le point de vivre quelque chose qui ressemble davantage à un changement radical dans la façon dont nous pensons et travaillons avec de grands modèles de langage. Bien que nous n’ayons pas encore accès nous-mêmes aux fonctionnalités audiovisuelles de ChatGPT-4o, les signaux non verbaux importants affichés ici (à la fois de GPT-4o et des utilisateurs) rendent le chatbot instantanément beaucoup plus humain. Et je ne suis pas sûr que l’utilisateur moyen soit pleinement prêt à comprendre ce qu’il pourrait ressentir à ce sujet.

Il pense que ce sont des gens

Prenez cette vidéo, où un nouveau futur père se tourne vers ChatGPT-4o pour obtenir un avis sur une blague de papa (« Comment appelle-t-on un tas géant de chatons ? Un miaou-ntain ! »). L’ancien ChatGPT4 pouvait facilement taper les mêmes réponses : « Félicitations pour le prochain ajout à votre famille ! » et « C’est parfaitement hilarant. Certainement une blague de papa de premier plan. » Mais il y a bien plus d’impact à audience GPT-4o donne la même information dans la vidéo, complétée par le doux rire et les intonations vocales montantes et descendantes d’un ami de toujours.

Ou regardez cette vidéo, où GPT-4o se retrouve à réagir aux images d’un adorable chien blanc. L’assistant IA plonge immédiatement dans ce registre vocal aigu et baby-talking qui sera instantanément familier à quiconque a rencontré un animal mignon pour la première fois. C’est une démonstration convaincante de ce que Randall Munroe de xkcd a identifié comme le « Tu es un chaton ! » effet, et cela contribue grandement à vous convaincre que GPT-4o est également comme les gens.

Ce n'est pas tout à fait la fête d'anniversaire la plus triste du monde, mais elle s'en rapproche probablement...
Agrandir / Ce n’est pas tout à fait la fête d’anniversaire la plus triste du monde, mais elle s’en rapproche probablement…

Ensuite, il y a une démo d’une fête d’anniversaire organisée, où GPT-4o chante la chanson « Happy Birthday » avec des pauses dramatiques impassibles, des rires gênés et même des paroles légèrement modifiées avant de sombrer dans une sorte de charabia idiot de bruit de bouche de framboise. . Même si la perspective de demander à un assistant IA de vous chanter « Joyeux anniversaire » est un peu déprimante, la présentation spécifique de cette chanson ici est empreinte d’une douceur attachante qui ne semble pas très mécanique.

Alors que je regardais les démos GPT-4o d’OpenAI cet après-midi, je me suis retrouvé inconsciemment à sourire encore et encore alors que je rencontrais de nouveaux exemples surprenants de ses capacités vocales. Qu’il s’agisse d’une voix stéréotypée d’un sportif ou d’une impression sarcastique d’Aubrey Plaza, tout cela est incroyablement désarmant, en particulier pour ceux d’entre nous habitués aux interactions LLM qui s’apparentent à des conversations textuelles.

Si ces démos sont révélatrices des capacités vocales de ChatGPT-4o, nous allons voir un tout nouveau niveau de relations parasociales se développer entre cet assistant IA et ses utilisateurs. Depuis des années maintenant, les chatbots textuels exploitent les « problèmes cognitifs » humains pour faire croire aux gens qu’ils sont sensibles. Ajoutez à cela la composante émotionnelle des changements de tonalité vocale précis de GPT-4o et de larges pans de la base d’utilisateurs sont susceptibles de se convaincre qu’il y a en fait un fantôme dans la machine.

Regarde-moi, sens-moi, touche-moi, guéris-moi

Au-delà du nouveau registre émotionnel non verbal de GPT-4o, la vitesse de réponse du modèle semble également appelée à changer la façon dont nous interagissons avec les chatbots. Réduire cet écart de temps de réponse de deux à trois secondes pour ChatGPT4 aux 320 millisecondes revendiquées par GPT-4o peut ne pas sembler beaucoup, mais c’est une différence qui s’additionne avec le temps. Vous pouvez voir cette différence dans l’exemple de la traduction en temps réel, où les deux interlocuteurs sont capables de continuer beaucoup plus naturellement car ils n’ont pas à attendre maladroitement entre la fin d’une phrase et le début de sa traduction.

Source-147