lundi, décembre 23, 2024

Essayez « Riffusion », un modèle d’IA qui compose de la musique en la visualisant

La musique générée par l’IA est déjà un concept suffisamment innovant, mais Riffusion l’amène à un autre niveau avec une approche intelligente et étrange qui produit une musique étrange et convaincante en utilisant non pas l’audio mais images du son.

Cela semble étrange, c’est étrange. Mais si ça marche, ça marche. Et ça marche ! En quelque sorte.

La diffusion est une technique d’apprentissage automatique pour générer des images qui a suralimenté le monde de l’IA au cours de la dernière année. DALL-E 2 et Stable Diffusion sont les deux modèles les plus en vue qui fonctionnent en remplaçant progressivement le bruit visuel par ce à quoi l’IA pense qu’une invite devrait ressembler.

La méthode s’est avérée puissante dans de nombreux contextes et est très susceptible d’être affinée, où vous donnez au modèle le plus formé beaucoup d’un type de contenu spécifique afin de le spécialiser dans la production de plus d’exemples de ce contenu. Par exemple, vous pouvez l’affiner sur des aquarelles ou sur des photos de voitures, et il se révélera plus capable de reproduire l’une ou l’autre de ces choses.

Ce que Seth Forsgren et Hayk Martiros ont fait pour leur projet amateur Riffusion a été d’affiner la diffusion stable sur les spectrogrammes.

« Hayk et moi jouons ensemble dans un petit groupe, et nous avons commencé le projet simplement parce que nous aimons la musique et ne savions pas s’il serait même possible pour Stable Diffusion de créer une image de spectrogramme avec suffisamment de fidélité pour être convertie en audio », Forsgren dit TechCrunch. « A chaque étape du chemin, nous avons été de plus en plus impressionnés par ce qui est possible, et une idée mène à la suivante. »

Quels sont les spectrogrammes, demandez-vous? Ce sont des représentations visuelles de l’audio qui montrent l’amplitude de différentes fréquences au fil du temps. Vous avez probablement vu des formes d’onde, qui affichent le volume au fil du temps et font ressembler l’audio à une série de collines et de vallées ; imaginez si au lieu du volume total, il affichait le volume de chaque fréquence, du bas au haut de gamme.

Voici une partie de celle que j’ai faite d’une chanson (« Marconi’s Radio » de Secret Machines, si vous vous demandez):

Crédits image : Devin Coldwey

Vous pouvez voir comment il devient plus fort dans toutes les fréquences au fur et à mesure que la chanson se construit, et vous pouvez même repérer des notes et des instruments individuels si vous savez quoi rechercher. Le processus n’est pas intrinsèquement parfait ou sans perte, mais il s’agit d’une représentation précise et systématique du son. Et vous pouvez le reconvertir en son en effectuant le même processus en sens inverse.

Forsgren et Martiros ont fait des spectrogrammes d’un tas de musique et ont étiqueté les images résultantes avec les termes pertinents, comme « guitare blues », « piano jazz », « afrobeat », des trucs comme ça. Nourrir le modèle de cette collection lui a donné une bonne idée de ce à quoi certains sons « ressemblent » et comment il pourrait les recréer ou les combiner.

Voici à quoi ressemble le processus de diffusion si vous l’échantillonnez pendant qu’il affine l’image :

Crédits image : Seth Forsgren / Hayk Martiros

Et en effet, le modèle s’est avéré capable de produire des spectrogrammes qui, une fois convertis en son, correspondent assez bien à des invites telles que « piano funky », « saxophone jazz », etc. Voici un exemple :

Crédits image : Seth Forsgren / Hayk Martiros


Mais bien sûr, un spectrogramme carré (512 x 512 pixels, une résolution standard de diffusion stable) ne représente qu’un court clip ; une chanson de trois minutes serait un rectangle beaucoup, beaucoup plus large. Personne ne veut écouter de la musique cinq secondes à la fois, mais les limites du système qu’ils avaient créé signifient qu’ils ne pouvaient pas simplement créer un spectrogramme de 512 pixels de haut et 10 000 de large.

Après avoir essayé quelques petites choses, ils ont profité de la structure fondamentale de grands modèles comme Stable Diffusion, qui ont beaucoup d' »espace latent ». C’est un peu comme le no man’s land entre des nœuds plus bien définis. Par exemple, si vous aviez une zone du modèle représentant des chats et une autre représentant des chiens, ce qu’il y a « entre » eux est un espace latent qui, si vous venez de dire à l’IA de dessiner, serait une sorte de chien chat ou de chat, même s’il n’y a pas telle chose.

Incidemment, les choses spatiales latentes deviennent beaucoup plus étranges que cela :

Pas de mondes cauchemardesques effrayants pour le projet Riffusion, cependant. Au lieu de cela, ils ont découvert que si vous avez deux invites, comme « cloches d’église » et « rythmes électroniques », vous pouvez en quelque sorte passer de l’un à l’autre un peu à la fois et cela s’estompe progressivement et étonnamment naturellement de l’un à l’autre, sur le rythme même:

C’est un son étrange et intéressant, bien qu’évidemment pas particulièrement complexe ou de haute fidélité ; rappelez-vous, ils n’étaient même pas sûrs que les modèles de diffusion puissent faire cela du tout, donc la facilité avec laquelle celui-ci transforme les cloches en rythmes ou les taps de machine à écrire en piano et basse est assez remarquable.

Produire des clips plus longs est possible mais encore théorique :

« Nous n’avons pas vraiment essayé de créer une chanson classique de 3 minutes avec des refrains et des couplets répétés », a déclaré Forsgren. «Je pense que cela pourrait être fait avec quelques astuces astucieuses telles que la construction d’un modèle de niveau supérieur pour la structure de la chanson, puis l’utilisation du modèle de niveau inférieur pour les clips individuels. Alternativement, vous pouvez entraîner notre modèle en profondeur avec des images de résolution beaucoup plus grande de chansons complètes.

Où va-t-il à partir d’ici ? D’autres groupes tentent de créer de la musique générée par l’IA de diverses manières, allant de l’utilisation de modèles de synthèse vocale à des modèles audio spécialement formés comme Dance Diffusion.

Riffusion est plus une démo « wow, regardez ça » qu’un grand plan pour réinventer la musique, et Forsgren a déclaré que lui et Martiros étaient simplement heureux de voir les gens s’engager dans leur travail, s’amuser et répéter:

« Il y a de nombreuses directions que nous pourrions prendre à partir d’ici, et nous sommes ravis de continuer à apprendre en cours de route. C’était amusant de voir d’autres personnes construire déjà leurs propres idées sur notre code ce matin aussi. L’une des choses étonnantes à propos de la communauté Stable Diffusion est la rapidité avec laquelle les gens construisent au-dessus des choses dans des directions que les auteurs originaux ne peuvent pas prédire.

Vous pouvez le tester dans une démo en direct sur Riffusion.com, mais vous devrez peut-être attendre un peu que votre clip soit rendu – cela a attiré un peu plus d’attention que les créateurs ne l’avaient prévu. Le code est entièrement disponible via la page À propos, alors n’hésitez pas à exécuter le vôtre également, si vous avez les puces pour cela.

Source-146

- Advertisement -

Latest