La semaine dernière, un amateur qui expérimentait le nouveau modèle de synthèse d’images Flux AI a découvert qu’il était étonnamment efficace pour restituer des reproductions de polices de caractères personnalisées. Bien que des méthodes beaucoup plus efficaces d’affichage des polices informatiques existent depuis des décennies, la nouvelle technique est utile pour les amateurs d’images IA car Flux est capable de restituer des représentations de texte précises, et les utilisateurs peuvent désormais insérer directement des mots rendus dans des polices personnalisées dans les générations d’images IA.
Depuis les années 1980 (1970 dans le domaine de la recherche), nous disposons de la technologie nécessaire pour produire avec précision des polices de caractères fluides et de formes personnalisées, donc la création d’une police reproduite par l’IA n’est pas une grande nouveauté en soi. Mais une nouvelle technique permet de voir une police particulière apparaître dans des images générées par l’IA, par exemple, d’un menu sur tableau noir dans un restaurant photoréaliste ou d’une carte de visite imprimée tenue par un renard cyborg.
Peu de temps après l’émergence de modèles de synthèse d’images d’IA grand public comme Stable Diffusion en 2022, certaines personnes ont commencé à se demander : comment puis-je insérer mon propre produit, vêtement, personnage ou style dans une image générée par l’IA ? L’une des réponses qui a émergé est venue sous la forme de LoRA (low-rank adaptation), une technique découverte en 2021 qui permet aux utilisateurs d’enrichir les connaissances d’un modèle de base d’IA avec des modules complémentaires modulaires qui ont été formés sur mesure.
Ces modules LoRA, comme on les appelle, permettent aux modèles de synthèse d’images de créer de nouveaux concepts qui n’étaient pas présents à l’origine (ou mal représentés) dans les données d’entraînement du modèle de base. En pratique, les amateurs de synthèse d’images les utilisent pour restituer des styles uniques (par exemple, tout ce qui est dessiné à la craie) ou des sujets (des images détaillées de Spider-Man, par exemple). Chaque LoRA doit être spécialement entraîné à l’aide d’exemples fournis par l’utilisateur.
Avant Flux, la plupart des générateurs d’images IA n’étaient pas très efficaces pour restituer du texte précis dans une scène. Si vous demandiez à Stable Diffusion 1.5 de restituer un panneau indiquant « fromage », il renverrait du charabia. Le DALL-E 3 d’OpenAI, sorti l’année dernière, a été le premier modèle grand public à restituer assez bien le texte. Flux fait encore parfois des erreurs avec les mots et les lettres, mais c’est le modèle d’IA le plus performant pour restituer du « texte du monde réel » (comme on pourrait l’appeler) que nous ayons vu jusqu’à présent.
Étant donné que Flux est un modèle ouvert disponible pour téléchargement et réglage, ce mois-ci a été la première fois que la formation d’une police de caractères LoRA pourrait avoir du sens. C’est exactement ce qu’un Un passionné d’IA nommé Vadim Fedenko (qui n’a pas répondu à une demande d’interview au moment de la mise sous presse) a récemment découvert. « Je suis vraiment impressionné par le résultat », a écrit Fedenko dans un post sur Reddit. « Flux détecte l’apparence des lettres dans un style/une police particulière, ce qui permet d’entraîner Loras avec des polices, des polices de caractères, etc. spécifiques. Je vais bientôt en entraîner davantage. »
Pour sa première expérience, Fedenko a choisi une police de caractères pétillante de style « Y2K » rappelant celles populaires à la fin des années 1990 et au début des années 2000, publiant le modèle résultant sur la plateforme Civitai le 20 août. Deux jours plus tard, un utilisateur de Civitai nommé « AggravatingScree7189 » a publié une deuxième police LoRA qui reproduit une police similaire à celle trouvée dans le Cyberpunk 2077 jeu vidéo.
« Le texte était si mauvais avant qu’il ne m’est jamais venu à l’idée que l’on puisse faire ça », a écrit un utilisateur de Reddit nommé eggs-benedryl en réaction à la publication de Fedenko sur la police Y2K. Un autre utilisateur de Reddit a écrit : « Je ne savais pas que le journal Y2K était faux jusqu’à ce que je le zoome. »
Est-ce exagéré ?
Il est vrai que l’utilisation d’un réseau neuronal de synthèse d’images très bien entraîné pour restituer une police de caractères simple sur un arrière-plan simple est probablement excessive. Vous ne voudriez probablement pas utiliser cette méthode pour remplacer Adobe Illustrator lors de la conception d’un document.
« Cela semble bien, mais c’est assez drôle de voir comment nous réinventons l’idée des polices en tant que LoRA de 300 Mo », a écrit un commentateur de Reddit sur un fil de discussion sur le Cyberpunk 2077 fonte.
L’IA générative est souvent critiquée pour son impact environnemental, et c’est une préoccupation légitime pour les centres de données cloud massifs. Mais nous constatons que Flux peut insérer ces polices dans des scènes générées par l’IA tout en s’exécutant localement sur une RTX 3060 sous une forme quantifiée (taille réduite) (et le modèle de développement complet peut s’exécuter sur une RTX 3090). La consommation d’électricité est similaire à celle d’un jeu vidéo sur le même PC. Il en va de même pour la création de LoRA : le créateur de la Cyberpunk 2077 Le module de police pour Flux a formé le LoRA en trois heures sur un GPU 3090.
L’utilisation de générateurs d’images IA pose également des problèmes éthiques, notamment la manière dont ils sont formés à partir de données collectées sans le consentement du propriétaire du contenu. Même si cette technologie divise certains artistes, une large communauté de personnes l’utilisent tous les jours et partagent les résultats en ligne via des plateformes de médias sociaux comme Reddit, ce qui donne lieu à de nouvelles applications de cette technologie comme celle-ci.
Au moment où nous écrivons ces lignes, il n’existe que deux polices de caractères personnalisées Flux LoRA, mais nous avons déjà entendu parler de projets de création d’autres polices de caractères au moment où nous écrivons ces lignes. Bien qu’elle en soit encore à ses débuts, la technique de création de polices de caractères LoRA pourrait devenir fondamentale si la synthèse d’images par IA se déploie plus largement à l’avenir. Adobe, avec ses propres modèles de synthèse d’images, est probablement en train de surveiller la situation.