OpenAI pourrait bientôt lancer un assistant numérique IA multimodal

OpenAI a montré à certains de ses clients un nouveau modèle d’IA multimodal capable à la fois de vous parler et de reconnaître des objets, selon un nouveau rapport de L’information. Citant des sources anonymes qui l’ont vu, le média affirme que cela pourrait faire partie de ce que la société prévoit de montrer lundi.

Le nouveau modèle offrirait une interprétation plus rapide et plus précise des images et de l’audio que ce que ses modèles séparés de transcription et de synthèse vocale existants peuvent faire.. Il serait apparemment capable d’aider les agents du service client à « mieux comprendre l’intonation des voix des appelants ou s’ils sont sarcastiques » et « en théorie », le modèle peut aider les étudiants en mathématiques ou à traduire des signes du monde réel, écrit L’information.

Les sources du média affirment que le modèle peut surpasser le GPT-4 Turbo pour « répondre à certains types de questions », mais il est toujours susceptible de se tromper en toute confiance.

Il est possible qu’OpenAI prépare également une nouvelle fonctionnalité ChatGPT intégrée pour passer des appels téléphoniques, selon le développeur Ananay Arora, qui a publié la capture d’écran ci-dessus du code lié aux appels. Arora aussi preuves repérées qu’OpenAI avait provisionné des serveurs destinés à la communication audio et vidéo en temps réel.

Rien de tout cela ne serait GPT-5 s’il était dévoilé la semaine prochaine. Le PDG Sam Altman a explicitement nié que son annonce prochaine ait quelque chose à voir avec le modèle censé être «matériellement mieux» que GPT-4. L’information écrit que GPT-5 pourrait être rendu public d’ici la fin de l’année.

source site-132