Gemini générera bientôt à nouveau des images IA de personnes avec la version améliorée d’Imagen 3

Les outils d’IA générative de Google bénéficient de certains des avantages que l’entreprise a présentés lors de la Google I/O. À partir de cette semaine, l’entreprise déploie la version nouvelle génération de son générateur d’images Imagen, qui réintroduit la capacité de générer des personnages IA (après une controverse embarrassante plus tôt cette année). Le chatbot Gemini de Google ajoute également Gems, la version de l’entreprise des bots avec des instructions personnalisées, similaires aux GPT personnalisés de ChatGPT.

Imagen 3 de Google est la version améliorée de son générateur d’images, qui arrive sur Gemini. La société affirme que le modèle d’IA de nouvelle génération « établit une nouvelle norme en matière de qualité d’image » et est conçu avec des garde-fous pour éviter la surcorrection de la diversité, comme les images historiques bizarres de l’IA qui sont devenues virales au début de cette année.

« Dans un large éventail de tests, Imagen 3 se comporte favorablement par rapport aux autres modèles de génération d’images disponibles », a écrit Dave Citron, chef de produit chez Gemini, dans un communiqué de presse. L’outil vous permet de guider la génération d’images avec des invites supplémentaires si vous n’aimez pas ce qu’il génère la première fois.

Citron affirme qu’Imagen 3 se comporte « favorablement » par rapport à la concurrence. Il intègre également l’outil SynthID de Google pour filigraner les images, ce qui permet de savoir clairement qu’elles sont créées par l’IA et non l’article original.

Images IA créées avec le modèle Imagen 3 de Google. Renards et ballons.

Google

Citron affirme que la possibilité de générer des personnes sera de retour dans les prochains jours pour les utilisateurs payants, des mois après que Google a supprimé cette fonctionnalité. Il affirme que de nouvelles barrières empêcheront la génération de « personnes photoréalistes et identifiables » – bien loin des deepfakes problématiques générés par Grok d’Elon Musk. Les enfants et (comme pour les autres générateurs d’images) toute scène sanglante, violente ou sexuelle sont également interdits. Le chef de produit justifie les attentes en affirmant que les images de Gemini ne seront pas parfaites, mais il promet que l’entreprise continuera à écouter les commentaires des utilisateurs et à les peaufiner en conséquence.

À partir de cette semaine, le modèle Imagen 3 sera disponible pour tous les utilisateurs, mais la réintroduction d’images mettant en scène des personnes sera réservée aux utilisateurs payants. Les utilisateurs anglophones de Gemini Advanced, Business et Enterprise peuvent s’attendre à un retour de la génération d’images humaines « dans les prochains jours ».

Un joyau d'IA de Google, un bot personnalisé, conçu pour gérer les cliffghangers.Un joyau d'IA de Google, un bot personnalisé, conçu pour gérer les cliffghangers.

Google

Initialement présentés en avant-première lors de la Google I/O 2024, les Gems sont des chatbots personnalisés de Google avec des instructions créées par les utilisateurs. Il s’agit essentiellement de la réponse de Gemini aux GPT d’OpenAI, que le concurrent de Google a déployés à la fin de l’année dernière. Les Gems commenceront à être déployés dans les prochains jours.

« Avec Gems, vous pouvez créer une équipe d’experts pour vous aider à réfléchir à un projet difficile, à réfléchir à des idées pour un événement à venir ou à rédiger la légende parfaite pour une publication sur les réseaux sociaux », a écrit Citron. « Votre Gem peut également mémoriser un ensemble d’instructions détaillées pour vous aider à gagner du temps sur des tâches fastidieuses, répétitives ou difficiles. »

En plus de la liste vierge de gemmes personnalisées, Gemini inclura des gemmes préfabriquées « pour vous aider à démarrer » et inspirer de nouvelles idées. Les gemmes préfabriquées incluent :

  • Coach d’apprentissage – pour vous aider à comprendre des sujets complexes

  • Remue-méninges – pour inspirer de nouvelles idées

  • Guide de carrière – vous guider à travers les améliorations de compétences, les décisions et les objectifs

  • Rédacteur en chef – fournir des commentaires constructifs sur la grammaire, le ton et la structure

  • Partenaire de codage – améliorer les compétences de codage des développeurs et inspirer de nouveaux projets

Les gemmes sont disponibles dès aujourd’hui sur ordinateur et mobile. Cependant, elles ne sont disponibles que pour les abonnés Gemini Advanced, Business et Enterprise. Vous aurez donc besoin d’un forfait payant pour les découvrir.

Source-145