ChatGPT a le potentiel de redéfinir la façon dont nous recherchons sur Internet, mais actuellement, il est limité au texte. Cela ignore l’une des fonctionnalités les plus utilisées des moteurs de recherche : les images.
À cette fin, Microsoft a maintenant dévoilé Visual ChatGPT, une mise à niveau du chatbot qui lui permet à la fois de produire des images à partir de texte et de traiter les invites d’image téléchargées par les utilisateurs.
Alors qu’OpenAI lui-même s’est déjà essayé à la génération d’images d’IA avec le système DALL-E-2, Microsoft a fixé ses objectifs plus haut. Visual ChatGPT est une étape vers l’IA multimodale que Microsoft a révélé viser avec le Mise à jour GPT-4 bientôt sur Bing avec ChatGPT.
Cela signifie que le traitement d’image pourrait bientôt être rejoint par des outils vidéo et audio alimentés par l’IA.
Le peu de science – Comment fonctionne Visual ChatGPT ?
Bing avec ChatGPT fonctionne sur le modèle GPT Large Language Model (LLM) d’Open AI et sur le propre modèle Prometheus de Microsoft. La plupart des générateurs d’art AI utilisent un modèle de base visuelle (VFM) comme Stable Diffusion pour produire des images. Ils sont normalement efficaces mais plutôt limités dans leur portée. Microsoft a révélé (s’ouvre dans un nouvel onglet) que pour créer Visual ChatGPT, ils ont réussi à intégrer une pléthore de VFM différents sur le modèle GPT flexible.
Ceci a été réalisé grâce à la création d’un « gestionnaire d’invites » que Microsoft décrit comme aidant « à combler le fossé entre ChatGPT et ces VFM » qui permet à ChatGPT de « tirer parti de ces VFM et de recevoir leurs commentaires de manière itérative jusqu’à ce qu’il réponde aux exigences de utilisateurs ou atteint la condition de fin.
En quoi diffère-t-il des générateurs d’images AI ?
Cela a créé un outil d’intelligence artificielle qui peut générer des images à partir d’invites de texte et d’image, traiter des demandes complexes qui couvrent plusieurs processus, et même offrir des entrées et des commentaires sur les images téléchargées ou générées.
Microsoft a inclus un exemple sur son GithubGenericName (s’ouvre dans un nouvel onglet) page d’un utilisateur demandant à l’IA de quelle couleur était une moto ou lui demandant d’identifier le contenu d’une image, demandant « Qu’y a-t-il dans cette image? » à quoi l’IA a répondu: « L’image contient un mètre. » Ce sont des interactions comme celle-ci et la possibilité de modifier et de modifier une image plusieurs fois au cours de la même session qui la séparent des générateurs d’images IA standard.
À quoi pourrait servir Visual ChatGPT ?
Si une recherche Google Image vous a déjà laissé sur votre faim, alors Visual ChatGPT pourrait être un excellent moyen de créer et d’affiner une image qui n’existe peut-être pas déjà en ligne.
Les logiciels de retouche photo comme Photoshop peuvent être coûteux et complexes à utiliser, demander à Bing de supprimer un objet d’une image ou de changer la couleur d’un arrière-plan est une méthode beaucoup plus rapide et plus simple.
Les utilisations spécifiques d’un tel outil sont innombrables. Les professionnels pourraient trouver beaucoup d’utilisation pour Visual ChatGPT. Les architectes et les architectes d’intérieur pourraient montrer aux clients à quoi ressemblerait la peinture de ce mur bleu ou sa suppression complète. Alors que les utilisateurs malvoyants pourraient recevoir des descriptions AI précises des images téléchargées.
Réservations et préoccupations
Bien sûr, les outils d’IA en sont encore à leurs balbutiements et avec Bing et Google Bard commettant des erreurs très médiatisées et luttant contre des bizarreries – vous nous manquez Sydney – il y aura probablement des problèmes similaires avec Visual ChatGPT.
De même, en ce qui concerne Internet, il y aura toujours des problèmes de sécurité. Le contenu inapproprié est lié à Visual ChatGPT et il sera intéressant de voir comment Microsoft gère le contenu explicite avec ses outils d’IA image et vidéo. Même avec des filtres de contenu, ils peuvent être des moyens de les contourner, comme le DAN « alter-ego » ChatGPT jailbreaké.
L’augmentation des modifications et des ajustements apportés aux photos peut également remettre en question l’authenticité de toute image et vidéo que nous voyons en ligne. Les médias sociaux présentent déjà souvent des instantanés de la vie fortement idéalisés et il est plus facile de voir certains être trompeurs avec ces outils. Les deep fakes vidéo et audio sont déjà un problème lorsqu’il s’agit de diffuser de la désinformation et cela devra être surveillé attentivement.