Une brève histoire de la diffusion, la technologie au cœur de l’IA moderne génératrice d’images

L’IA text-to-image a explosé cette année alors que les progrès techniques ont considérablement amélioré la fidélité de l’art que les systèmes d’IA pourraient créer. Aussi controversés que soient des systèmes tels que Stable Diffusion et DALL-E 2 d’OpenAI, des plates-formes telles que DeviantArt et Canva les ont adoptés pour alimenter des outils créatifs, personnaliser l’image de marque et même imaginer de nouveaux produits.

Mais la technologie au cœur de ces systèmes est capable de bien plus que générer de l’art. Appelé diffusion, il est utilisé par certains groupes de recherche intrépides pour produire de la musique, synthétiser des séquences d’ADN et même découvrir de nouveaux médicaments.

Alors, qu’est-ce que la diffusion, exactement, et pourquoi est-ce un saut si important par rapport à l’état de l’art précédent ? À la fin de l’année, il vaut la peine de jeter un coup d’œil aux origines de la diffusion et à la façon dont elle a évolué au fil du temps pour devenir la force influente qu’elle est aujourd’hui. L’histoire de Diffusion n’est pas terminée – des améliorations sur les techniques arrivent avec chaque mois qui passe – mais la dernière année ou deux a surtout apporté des progrès remarquables.

La naissance de la diffusion

Vous vous souvenez peut-être de la tendance des applications de deepfaking il y a plusieurs années – des applications qui inséraient des portraits de personnes dans des images et des vidéos existantes pour créer des substitutions réalistes des sujets originaux dans ce contenu cible. En utilisant l’IA, les applications « inséraient » le visage d’une personne – ou dans certains cas, tout son corps – dans une scène, souvent de manière suffisamment convaincante pour tromper quelqu’un au premier coup d’œil.

La plupart de ces applications s’appuyaient sur une technologie d’intelligence artificielle appelée réseaux antagonistes génératifs, ou GAN en abrégé. Les GAN se composent de deux parties : un Générateur qui produit des exemples synthétiques (par exemple des images) à partir de données aléatoires et un discriminateur qui tente de faire la distinction entre les exemples synthétiques et les exemples réels à partir d’un ensemble de données d’apprentissage. (Les ensembles de données de formation GAN typiques se composent de centaines à des millions d’exemples de choses que le GAN devrait éventuellement capturer.) Le générateur et le discriminateur améliorent leurs capacités respectives jusqu’à ce que le discriminateur soit incapable de distinguer les exemples réels des exemples synthétisés avec mieux que la précision de 50% attendue du hasard.

Sculptures de sable d’Harry Potter et de Poudlard, générées par Stable Diffusion. Crédits image : IA de stabilité

Les GAN les plus performants peuvent créer, par exemple, des instantanés d’immeubles d’appartements fictifs. StyleGAN, un système développé par Nvidia il y a quelques années, peut générer des portraits haute résolution de personnes fictives en apprenant des attributs tels que la pose du visage, les taches de rousseur et les cheveux. Au-delà de la génération d’images, les GAN ont été appliqués à l’espace de modélisation 3D et aux croquis vectoriels, montrant une aptitude à produire des clips vidéo ainsi que des échantillons de parole et même d’instruments en boucle dans les chansons.

En pratique, cependant, les GAN souffraient d’un certain nombre de lacunes dues à leur architecture. La formation simultanée des modèles générateur et discriminateur était intrinsèquement instable ; parfois, le générateur « s’effondrait » et produisait de nombreux échantillons semblant similaires. Les GAN avaient également besoin de beaucoup de données et de puissance de calcul pour fonctionner et s’entraîner, ce qui les rendait difficiles à faire évoluer.

Entrez la diffusion.

Comment fonctionne la diffusion

La diffusion a été inspirée par la physique – étant le processus en physique où quelque chose passe d’une région de concentration plus élevée à une région de concentration plus faible, comme un morceau de sucre se dissolvant dans le café. Les granules de sucre dans le café sont initialement concentrées au sommet du liquide, mais se répartissent progressivement.

Les systèmes de diffusion empruntent à la diffusion dans thermodynamique hors équilibre Plus précisément, où le processus augmente l’entropie – ou le caractère aléatoire – du système au fil du temps. Considérez un gaz – il finira par se répandre pour remplir uniformément un espace entier par un mouvement aléatoire. De même, des données telles que des images peuvent être transformées en une distribution uniforme en ajoutant du bruit de manière aléatoire.

Les systèmes de diffusion détruisent lentement la structure des données en ajoutant du bruit jusqu’à ce qu’il ne reste plus que du bruit.

En physique, la diffusion est spontanée et irréversible – le sucre diffusé dans le café ne peut pas être reconstitué sous forme de cube. Mais les systèmes de diffusion dans l’apprentissage automatique visent à apprendre une sorte de processus de « diffusion inverse » pour restaurer les données détruites, en obtenant la capacité de récupérer les données du bruit.

Stabilité IA OpenBioML

Crédits image : OpenBioML

Les systèmes de diffusion existent depuis près d’une décennie. Mais une innovation relativement récente d’OpenAI appelée CLIP (abréviation de « Contrastive Language-Image Pre-Training ») les a rendus beaucoup plus pratiques dans les applications quotidiennes. CLIP classe les données – par exemple, les images – pour « noter » chaque étape du processus de diffusion en fonction de la probabilité qu’elles soient classées sous une invite de texte donnée (par exemple « un croquis d’un chien dans une pelouse fleurie »).

Au début, les données ont un score CLIP très faible, car il s’agit principalement de bruit. Mais au fur et à mesure que le système de diffusion reconstruit les données à partir du bruit, il se rapproche lentement de la correspondance avec l’invite. Une analogie utile est le marbre non sculpté – comme un maître sculpteur indiquant à un novice où sculpter, CLIP guide le système de diffusion vers une image qui donne un score plus élevé.

OpenAI a introduit CLIP aux côtés du système de génération d’images DALL-E. Depuis lors, il a fait son chemin dans le successeur de DALL-E, DALL-E 2, ainsi que dans des alternatives open source comme Stable Diffusion.

Que peut faire la diffusion ?

Alors, que peuvent faire les modèles de diffusion guidés par CLIP ? Eh bien, comme mentionné précédemment, ils sont assez bons pour générer de l’art – de l’art photoréaliste aux croquis, dessins et peintures dans le style de pratiquement n’importe quel artiste. En fait, il existe des preuves suggérant qu’ils régurgitent de manière problématique certaines de leurs données d’entraînement.

Mais le talent des mannequins, aussi controversé soit-il, ne s’arrête pas là.

Les chercheurs ont également expérimenté l’utilisation de modèles de diffusion guidée pour composer de la nouvelle musique. Harmonai, une organisation bénéficiant du soutien financier de Stability AI, la startup basée à Londres à l’origine de Stable Diffusion, a lancé un modèle basé sur la diffusion qui peut produire des clips de musique en s’entraînant sur des centaines d’heures de chansons existantes. Plus récemment, les développeurs Seth Forsgren et Hayk Martiros ont créé un projet de passe-temps baptisé Riffusion qui utilise un modèle de diffusion intelligemment formé sur des spectrogrammes – des représentations visuelles – de l’audio pour générer des chansonnettes.

Au-delà du domaine de la musique, plusieurs laboratoires tentent d’appliquer la technologie de diffusion à la biomédecine dans l’espoir de découvrir de nouveaux traitements contre les maladies. Startup Generate Biomedicines et une équipe de l’Université de Washington ont formé des modèles basés sur la diffusion pour produire des conceptions de protéines avec des propriétés et des fonctions spécifiques, comme l’a rapporté MIT Tech Review plus tôt ce mois-ci.

Les modèles fonctionnent de différentes manières. Générer du bruit ajoute des biomédicaments en démêlant les chaînes d’acides aminés qui composent une protéine, puis en assemblant des chaînes aléatoires pour former une nouvelle protéine, guidé par des contraintes spécifiées par les chercheurs. Le modèle de l’Université de Washington, d’autre part, commence par une structure brouillée et utilise des informations sur la façon dont les morceaux d’une protéine doivent s’emboîter fournies par un système d’IA séparé formé pour prédire la structure des protéines.

Crédits image : PASIEKA/BIBLIOTHÈQUE DE PHOTOS SCIENTIFIQUES/Getty Images

Ils ont déjà obtenu un certain succès. Le modèle conçu par le groupe de l’Université de Washington a pu trouver une protéine qui peut se fixer à l’hormone parathyroïdienne – l’hormone qui contrôle les niveaux de calcium dans le sang – mieux que les médicaments existants.

Pendant ce temps, chez OpenBioML, un effort soutenu par Stability AI pour apporter des approches basées sur l’apprentissage automatique à la biochimie, les chercheurs ont développé un système appelé DNA-Diffusion pour générer des séquences d’ADN régulatrices spécifiques au type de cellule – des segments de molécules d’acide nucléique qui influencent le l’expression de gènes spécifiques au sein d’un organisme. DNA-Diffusion générera – si tout se passe comme prévu – des séquences d’ADN régulatrices à partir d’instructions textuelles telles que « Une séquence qui activera un gène à son niveau d’expression maximal dans le type de cellule X » et « Une séquence qui active un gène dans le foie et le cœur , mais pas dans le cerveau.

Quel avenir pour les modèles de diffusion ? Le ciel pourrait bien être la limite. Déjà, les chercheurs l’ont appliqué pour générer des vidéos, compresser des images et synthétiser la parole. Cela ne veut pas dire que la diffusion ne sera finalement pas remplacée par une technique d’apprentissage automatique plus efficace et plus performante, comme les GAN l’étaient avec la diffusion. Mais c’est l’architecture du jour pour une raison ; la diffusion n’est rien sinon polyvalente.

Source-146