Apple publie un modèle d’IA capable d’éditer des images à partir de commandes textuelles

Apple n’est pas l’un des principaux acteurs du jeu de l’IA aujourd’hui, mais le nouveau modèle d’IA open source de la société pour l’édition d’images montre ce qu’elle est capable de contribuer à l’espace. Le modèle appelé MLLM-Guided Image Editing (MGIE), qui utilise des modèles multimodaux de grand langage (MLLM) pour interpréter les commandes basées sur du texte lors de la manipulation d’images. En d’autres termes, l’outil a la capacité de modifier des photos en fonction du texte saisi par l’utilisateur. Bien que ce ne soit pas le premier outil capable de le faire, « les instructions humaines sont parfois trop brèves pour être capturées et suivies par les méthodes actuelles ». papier (PDF) lit.

La société a développé MGIE avec des chercheurs de l’Université de Californie à Santa Barbara. Les MLLM ont le pouvoir de transformer des invites textuelles simples ou ambiguës en instructions plus détaillées et plus claires que l’éditeur de photos lui-même peut suivre. Par exemple, si un utilisateur souhaite modifier la photo d’une pizza au pepperoni pour la « rendre plus saine », les MLLM peuvent l’interpréter comme « ajouter des garnitures de légumes » et modifier la photo en tant que telle.

Photos de pizzas, de cheetas, d'un ordinateur et d'une personne.

Pomme

En plus d’apporter des modifications majeures aux images, MGIE peut également recadrer, redimensionner et faire pivoter des photos, ainsi qu’améliorer leur luminosité, leur contraste et leur balance des couleurs, le tout via des invites textuelles. Il peut également éditer des zones spécifiques d’une photo et peut, par exemple, modifier les cheveux, les yeux et les vêtements d’une personne qui s’y trouve, ou supprimer des éléments en arrière-plan.

Comme EntrepriseBeat Remarques, Apple a publié le modèle via GitHub, mais les personnes intéressées peuvent également essayer une démo actuellement hébergée sur Hugging Face Spaces. Apple n’a pas encore dit s’il envisageait d’utiliser ce qu’il avait appris de ce projet dans un outil ou une fonctionnalité qu’il pourrait intégrer dans l’un de ses produits.

Source-145