La retouche photo pourrait devenir le prochain domaine conquis par l’IA grâce à un nouvel outil passionnant dévoilé par un groupe de chercheurs de Google.
En collaboration avec l’Institut d’informatique Max Planck, ils ont créé un outil de manipulation d’images basé sur des points appelé DragGAN. Essentiellement, il est capable de déplacer progressivement plusieurs points d’une image le long d’une trajectoire cible définie par l’utilisateur. La partie vraiment intelligente est que l’IA maintient la sortie dans les limites d’une image réaliste.
Donc en théorie, sans aucune expertise préalable en retouche d’image, vous pourriez manipuler les dimensions d’un véhicule ou l’expression d’un visage sans que cela paraisse déformé. Et vous pouvez tout faire d’un simple clic de curseur.
À l’heure actuelle, DragGAN n’est encore qu’un livre blanc de recherche. Mais l’intérêt est tel que le trafic entrant a planté à plusieurs reprises la page d’accueil de l’équipe au cours des deux derniers jours.
« Les approches existantes permettent de contrôler les réseaux antagonistes génératifs (GAN) via des données de formation annotées manuellement ou un modèle 3D antérieur, qui manquent souvent de flexibilité, de précision et de généralité », ont écrit les chercheurs.
« Dans ce travail, nous étudions un moyen puissant mais beaucoup moins exploré de contrôler les GAN, c’est-à-dire de « faire glisser » n’importe quel point de l’image pour atteindre précisément les points cibles de manière interactive pour l’utilisateur. »
Les GAN sont toujours le roi de l’exploration spatiale latente. DragGAN a l’air incroyable. pic.twitter.com/KT3AEtdBJK19 mai 2023
Bien que les éditeurs de photos existants vous permettent de redimensionner ou de retravailler rapidement les images (comme l’outil « Warp » dans Photoshop), il s’agit fondamentalement d’un processus différent. Ces outils tirent littéralement l’image dans un sens ou dans l’autre en réponse à l’entrée. Mais DragGAN régénère l’intégralité de l’objet sous-jacent pour s’adapter aux modifications que vous souhaitez apporter.
Que puis-je faire d’autre?
Dans un contexte plus large, il pourrait être utilisé en conjonction avec un outil d’IA génératif texte-image comme Midjourney ou Runway. Si la sortie de vos invites n’est pas tout à fait ce que vous voulez, vous pouvez utiliser DragGAN pour l’éditer plus rapidement et plus efficacement que vous ne le pourriez dans une suite d’édition de niveau professionnel.
Certains des autres exemples expliqués dans le document de recherche incluent le changement de la hauteur d’une montagne, le déplacement de la position d’un modèle et le redimensionnement de ses vêtements ainsi que l’ouverture ou la fermeture de la gueule d’un lion pour indiquer un rugissement. Et là où un élément de l’image ne serait normalement pas disponible, l’IA peut combler les lacunes.
« Notre approche peut halluciner le contenu occlus, comme les dents à l’intérieur de la gueule d’un lion, et peut se déformer en fonction de la rigidité de l’objet, comme la flexion d’une jambe de cheval », a ajouté l’équipe.
On ne sait pas encore quand l’outil DragGAN sera publié pour une utilisation grand public, mais une note sur la page Github de l’équipe suggère que le code sera disponible en juin 2023. En attendant, voici les 5 meilleurs générateurs d’images AI que vous pouvez utiliser correctement maintenant.