La génération d’images AI est ici de manière considérable. Un nouveau modèle de synthèse d’images open source appelé Stable Diffusion permet à quiconque disposant d’un PC et d’un GPU décent d’évoquer presque toutes les réalités visuelles qu’il peut imaginer. Il peut imiter pratiquement n’importe quel style visuel, et si vous lui donnez une phrase descriptive, les résultats apparaissent sur votre écran comme par magie.
Quelques artistes sont ravis par la perspective, d’autres n’en sont pas contents, et la société dans son ensemble semble encore largement inconsciente de la révolution technologique en évolution rapide qui se déroule à travers les communautés sur Twitter, Discord et Github. La synthèse d’images a sans doute des implications aussi importantes que l’invention de l’appareil photo ou peut-être la création de l’art visuel lui-même. Même notre sens de l’histoire pourrait être en jeu, selon l’évolution des choses. Quoi qu’il en soit, Stable Diffusion est à la tête d’une nouvelle vague d’outils créatifs d’apprentissage en profondeur qui sont sur le point de révolutionner la création de médias visuels.
L’essor de la synthèse d’images d’apprentissage en profondeur
Stable Diffusion est une idée originale d’Emad Mostaque, un ancien gestionnaire de fonds spéculatifs basé à Londres dont le but est d’apporter de nouvelles applications d’apprentissage en profondeur aux masses par le biais de sa société, Stability AI. Mais les racines de la synthèse d’images moderne remontent à 2014, et Stable Diffusion n’a pas été le premier modèle de synthèse d’images (ISM) à faire des vagues cette année.
En avril 2022, OpenAI a annoncé DALL-E 2, qui a choqué les médias sociaux avec sa capacité à transformer une scène écrite avec des mots (appelée « invite ») en une myriade de styles visuels qui peuvent être fantastiques, photoréalistes ou même banals. Les personnes ayant un accès privilégié à l’outil fermé ont généré des astronautes à cheval, des ours en peluche achetant du pain dans l’Égypte ancienne, des sculptures inédites dans le style d’artistes célèbres, et bien plus encore.
Peu de temps après DALL-E 2, Google et Meta ont annoncé leurs propres modèles d’IA texte-image. MidJourney, disponible en tant que serveur Discord depuis mars 2022 et ouvert au public quelques mois plus tard, facture l’accès et produit des effets similaires mais avec une qualité plus picturale et illustrative par défaut.
Ensuite, il y a la diffusion stable. Le 22 août, Stability AI a publié son modèle de génération d’images open source qui correspond sans doute à DALL-E 2 en qualité. Il a également lancé son propre site Web commercial, appelé DreamStudio, qui vend l’accès au temps de calcul pour générer des images avec Stable Diffusion. Contrairement à DALL-E 2, tout le monde peut l’utiliser, et comme le code Stable Diffusion est open source, les projets peuvent s’en inspirer avec peu de restrictions.
Au cours de la seule semaine dernière, des dizaines de projets qui emmènent Stable Diffusion dans de nouvelles directions radicales ont vu le jour. Et les gens ont obtenu des résultats inattendus en utilisant une technique appelée « img2img » qui a « amélioré » l’art du jeu MS-DOS, graphiques Minecraft convertis en réalistes, transformé une scène d’Aladdin en 3D, traduit des gribouillis enfantins en illustrations riches, et bien plus encore. La synthèse d’images peut apporter la capacité de visualiser richement des idées à un public de masse, réduisant les barrières à l’entrée tout en accélérant les capacités des artistes qui adoptent la technologie, tout comme Adobe Photoshop l’a fait dans les années 1990.
Vous pouvez exécuter vous-même Stable Diffusion localement si vous suivez une série d’étapes quelque peu mystérieuses. Au cours des deux dernières semaines, nous l’avons exécuté sur un PC Windows avec un GPU Nvidia RTX 3060 12 Go. Il peut générer 512×512 images en 10 secondes environ. Sur un 3090 Ti, ce temps descend à quatre secondes par image. Les interfaces continuent également d’évoluer rapidement, passant des interfaces de ligne de commande brutes et des ordinateurs portables Google Colab à des interfaces graphiques frontales plus raffinées (mais toujours complexes), avec des interfaces beaucoup plus raffinées à venir. Donc, si vous n’êtes pas techniquement enclin, tenez-vous bien : des solutions plus simples sont en route. Et si tout le reste échoue, vous pouvez essayer une démo en ligne.