ChatGPT peut désormais parler, écouter et voir des images

L’espace de l’intelligence artificielle (IA) générative continue de s’échauffer alors qu’OpenAI a dévoilé GPT-4V, un modèle capable de vision, et des modes conversationnels multimodaux pour son système ChatGPT.

Avec les nouvelles mises à niveau annoncées le 25 septembre, les utilisateurs de ChatGPT pourront engager ChatGPT dans des conversations. Les modèles qui alimentent ChatGPT, GPT-3.5 et GPT-4, peuvent désormais comprendre les requêtes orales en langage simple et répondre avec l’une des cinq voix différentes.

Selon un article de blog d’OpenAI, cette nouvelle interface multimodale permettra aux utilisateurs de interagir avec ChatGPT de nouvelles manières :

« Prenez une photo d’un point de repère lors d’un voyage et discutez en direct de ce qui est intéressant à ce sujet. Lorsque vous êtes à la maison, prenez des photos de votre réfrigérateur et de votre garde-manger pour savoir ce qu’il y a pour le dîner (et posez des questions de suivi pour une recette étape par étape). Après le dîner, aidez votre enfant à résoudre un problème de mathématiques en prenant une photo, en encerclant le problème posé et en lui demandant de partager des indices avec vous deux.

La version mise à niveau de ChatGPT sera déployée auprès des utilisateurs Plus et Enterprise sur les plateformes mobiles au cours des deux prochaines semaines, avec un accès ultérieur pour les développeurs et autres utilisateurs « peu de temps après ».

La mise à niveau multimodale de ChatGPT fait suite au lancement de DALL-E 3, le système de génération d’images le plus avancé d’OpenAI.

Selon OpenAI, DALL-E 3 également intègre traitement du langage naturel. Cela permet aux utilisateurs de parler au modèle afin d’affiner les résultats et d’intégrer ChatGPT pour obtenir de l’aide dans la création d’invites d’image.

Par ailleurs, Anthropic, concurrent d’OpenAI, a annoncé un partenariat avec Amazon le 25 septembre. Comme l’a rapporté Cointelegraph, Amazon investira jusqu’à 4 milliards de dollars pour inclure les services cloud et l’accès au matériel. En retour, Anthropic affirme qu’il fournira une prise en charge améliorée du modèle d’IA fondamental d’Amazon Bedrock ainsi qu’une « personnalisation et un réglage sécurisé du modèle pour les entreprises ».

En rapport: Le PDG de Coinbase met en garde contre la réglementation de l’IA et appelle à la décentralisation