mercredi, novembre 27, 2024

La nouvelle IA de Google transforme le texte en musique

Les chercheurs de Google ont créé une IA capable de générer des morceaux de musique de plusieurs minutes à partir d’invites textuelles, et peut même transformer une mélodie sifflée ou fredonnée en d’autres instruments, de la même manière que des systèmes comme DALL-E génèrent des images à partir d’invites écrites (via Tech Crunch). Le modèle s’appelle MusicLM, et bien que vous ne puissiez pas jouer avec vous-même, la société a téléchargé un tas d’échantillons qu’il a produit à l’aide du modèle.

Les exemples sont impressionnants. Il y a des extraits de 30 secondes de ce qui ressemble à de vraies chansons créées à partir de descriptions de paragraphes qui prescrivent un genre, une ambiance et même des instruments spécifiques, ainsi que des morceaux de cinq minutes générés à partir d’un ou deux mots comme « techno mélodique ». ” Peut-être que mon préféré est une démo du «mode histoire», où le modèle reçoit essentiellement un script à transformer entre les invites. Par exemple, cette invite :

chanson électronique jouée dans un jeu vidéo (0:00-0:15)

chanson de méditation jouée à côté d’une rivière (0:15-0:30)

feu (0:30-0:45)

feux d’artifice (0:45-0:60)

Résulté en l’audio que vous pouvez écouter ici.

Ce n’est peut-être pas pour tout le monde, mais je pouvais totalement voir que cela était composé par un humain (je l’ai aussi écouté en boucle des dizaines de fois en écrivant cet article). Le site de démonstration présente également des exemples de ce que le modèle produit lorsqu’on lui demande de générer des clips de 10 secondes d’instruments comme le violoncelle ou les maracas (le dernier exemple est celui où le système fait un travail relativement médiocre), des clips de huit secondes d’un certain genre, la musique qui conviendrait à une évasion de prison, et même à quoi ressemblerait un pianiste débutant par rapport à un pianiste avancé. Il comprend également des interprétations de phrases telles que « club futuriste » et « accordion death metal ».

MusicLM peut même simuler la voix humaine, et bien qu’il semble obtenir le ton et le son général des voix, il y a une qualité qui est définitivement fausse. La meilleure façon dont je peux le décrire est qu’ils sonnent granuleux ou statiques. Cette qualité n’est pas aussi claire dans l’exemple ci-dessus, mais je pense celui-ci l’illustre assez bien.

Soit dit en passant, c’est le résultat de lui avoir demandé de faire de la musique qui jouerait dans une salle de sport. Vous avez peut-être également remarqué que les paroles sont absurdes, mais d’une manière que vous ne saisirez pas nécessairement si vous ne faites pas attention – un peu comme si vous écoutiez quelqu’un chanter en simlish ou cette chanson qui est censée ressembler à l’anglais mais qui n’est pas.

Je ne prétendrai pas savoir comment Google a obtenu ces résultats, mais c’est a publié un document de recherche l’expliquer en détail si vous êtes le genre de personne qui comprendrait ce chiffre:

Figure montrant une partie du processus de MusicLM, qui implique SoundStream, w2v-BERT et MuLan.
Une figure expliquant la « tâche de modélisation hiérarchique séquence à séquence » que les chercheurs utilisent avec AudioLM, un autre projet Google.
Graphique : Google

La musique générée par l’IA a une longue histoire qui remonte à des décennies ; il y a des systèmes qui ont été crédités composer des chansons popcopie de Bach mieux qu’un humain ne pouvait le faire dans les années 90et accompagnement de spectacles vivants. Une version récente utilise le moteur de génération d’images AI StableDiffusion pour transformer les invites de texte en spectrogrammes qui sont ensuite transformés en musique. L’article indique que MusicLM peut surpasser d’autres systèmes en termes de « qualité et de respect de la légende », ainsi que du fait qu’il peut prendre de l’audio et copier la mélodie.

Cette dernière partie est peut-être l’une des démos les plus cool des chercheurs. Le site vous permet de jouer l’audio d’entrée, où quelqu’un fredonne ou siffle un air, puis vous permet d’entendre comment le modèle le reproduit en tant que lead de synthé électronique, quatuor à cordes, solo de guitare, etc. D’après les exemples que j’ai écoutés, il gère le tâche très bien.

Comme avec d’autres incursions dans ce type d’IA, Google est en train d’être nettement plus prudent avec MusicLM que certains de ses pairs peuvent être avec une technologie similaire. « Nous n’avons pas l’intention de publier des modèles à ce stade », conclut le document, citant les risques de « détournement potentiel de contenu créatif » (lire : plagiat) et d’appropriation ou de fausse représentation culturelle potentielle.

Il est toujours possible que la technologie apparaisse dans l’une des expériences musicales amusantes de Google à un moment donné, mais pour l’instant, les seules personnes qui pourront utiliser la recherche sont d’autres personnes qui construisent des systèmes d’IA musicale. Google dit qu’il publie publiquement un ensemble de données avec environ 5 500 paires musique-texte, ce qui pourrait aider lors de la formation et de l’évaluation d’autres IA musicales.

source site-132

- Advertisement -

Latest