reçoit des mises à jour importantes qui permettront au chatbot de gérer les commandes vocales et les requêtes basées sur des images. Les utilisateurs pourront avoir une conversation vocale avec ChatGPT sur Android et iOS et y insérer des images sur toutes les plateformes. déploie les fonctionnalités maintenant. Ils seront disponibles dans un premier temps pour les utilisateurs Plus et Enterprise, tandis que d’autres personnes auront accès ultérieurement aux fonctionnalités basées sur les images.
Vous devrez vous inscrire aux conversations vocales dans l’application ChatGPT (allez dans Paramètres puis Nouvelles fonctionnalités) si vous souhaitez les essayer. En appuyant sur le bouton du microphone, vous pourrez choisir parmi cinq voix différentes.
OpenAI affirme que les conversations vocales aller-retour sont alimentées par un nouveau modèle de synthèse vocale qui peut générer « un son de type humain à partir de seulement du texte et de quelques secondes d’échantillons de parole ». Il a créé les cinq voix avec l’aide d’acteurs professionnels. Dans l’autre sens, l’entreprise convertit les paroles prononcées par un utilisateur en texte.
Les fonctions basées sur l’image sont également intrigantes. OpenAI dit que vous pouvez, par exemple, montrer au chatbot une photo de votre gril et lui demander pourquoi il ne démarre pas, lui demander de vous aider à planifier un repas en fonction d’un instantané de ce qu’il y a dans votre réfrigérateur ou l’inviter à résoudre un problème mathématique que vous avez. prendre une photo de. Il se trouve que Microsoft a mis en avant les IA Copilot dans Windows lors de son événement Surface la semaine dernière.
OpenAI utilise GPT-3.5 et GPT-4 pour alimenter les fonctionnalités de reconnaissance d’images. Pour utiliser les fonctions basées sur les images de ChatGPT, appuyez sur le bouton photo (vous devrez d’abord appuyer sur le bouton plus sur iOS ou Android) pour prendre une photo ou choisir une image existante sur votre appareil. Vous pouvez interroger ChatGPT sur plusieurs photos et utiliser un outil de dessin pour vous concentrer sur une partie spécifique de l’image.
en annonçant les mises à jour, OpenAI a noté le potentiel de préjudice. Il est possible que de mauvais acteurs imitent les voix de personnalités publiques (et de gens ordinaires) et peut-être commettre une fraude. C’est pourquoi OpenAI se concentre sur les conversations vocales ChatGPT avec cette technologie et travaille avec des partenaires sélectionnés sur d’autres cas d’utilisation limités (nous en parlerons plus dans un instant).
Quant aux images, OpenAI a travaillé avec , une application gratuite que les personnes aveugles et malvoyantes peuvent utiliser pour les aider à mieux comprendre leur environnement grâce à des bénévoles qui participent à des appels vidéo avec elles. « Les utilisateurs nous ont dit qu’ils trouvaient utile d’avoir des conversations générales sur des images contenant des personnes en arrière-plan, comme si quelqu’un apparaît à la télévision pendant que vous essayez de comprendre les paramètres de votre télécommande », a déclaré OpenAI. La société a noté qu’elle a également limité la manière dont ChatGPT peut analyser et faire des déclarations directes sur les personnes qui apparaissent dans les images, « puisque ChatGPT n’est pas toujours précis et que ces systèmes doivent respecter la vie privée des individus ». Il possède les propriétés de sécurité de la fonctionnalité basée sur l’image, qu’il appelle GPT-4 avec vision.
ChatGPT est plus efficace pour comprendre le texte anglais dans les images que les autres langues. OpenAI affirme que le chatbot « fonctionne mal » dans d’autres langues pour le moment, en particulier lorsqu’il s’agit de celles qui utilisent des scripts non romains. En tant que tel, cela suggère que les utilisateurs non anglophones évitent pour le moment d’utiliser ChatGPT pour traiter le texte dans les images.
Pendant ce temps, Spotify s’est associé à OpenAI pour utiliser la technologie vocale dans un but intéressant. Le premier a annoncé un projet pilote d’un outil appelé Voice Translation pour les podcasteurs. Cela peut traduire des podcasts dans différentes langues en utilisant les voix des personnes qui apparaissent dans l’émission. Spotify affirme que l’outil peut conserver les caractéristiques vocales du locuteur d’origine après avoir converti sa voix dans d’autres langues.
Pour commencer, Spotify convertit certaines émissions basées en anglais dans quelques langues. versions espagnoles de certains Expert en fauteuil et Le journal d’un PDG avec Steven Bartlett épisodes, avec des variantes françaises et allemandes à suivre.