Le générateur audio de Stability AI peut désormais produire des « chansons » de 3 minutes

Stability AI, une version améliorée de sa plateforme de génération musicale. Ce système permet aux utilisateurs de créer jusqu’à trois minutes d’audio via une invite texte. C’est à peu près la durée d’une chanson réelle, donc elle comportera également une intro, une progression d’accords complète et une sortie.

Tout d’abord, la bonne nouvelle. Trois minutes, c’est énorme. La version précédente du logiciel plafonnait à 90 secondes. Imaginez simplement la fausse chanson d’anniversaire que vous pourriez créer dans le style de ce morceau de Rob Thomas/Santana. Une autre aubaine ? L’outil est gratuit et accessible au public sur le site Web de l’entreprise, alors n’hésitez pas.

Cela fonctionne principalement via une invite de texte, mais il existe une option pour télécharger un clip audio. Le système analysera le clip et produira quelque chose de similaire. Tous les fichiers audio téléchargés doivent être libres de droits, ce n’est donc pas dans le but d’imiter quelque chose qui existe déjà. Cela pourrait plutôt être utile, par exemple, pour fredonner une partie de batterie ou pour prolonger un clip de 20 secondes en quelque chose de plus long.

Maintenant, la mauvaise nouvelle. Il s’agit toujours de musique générée par l’IA. C’est cool comme sujet de conversation et comme emblème d’un avenir possible, idéal pour les bricoleurs et mauvais pour les musiciens, mais c’est tout. Les chansons peuvent effectivement paraître chouettes, au début, jusqu’à ce que les coutures commencent à apparaître. Ensuite, les choses deviennent un peu effrayantes.

Par exemple, le système adore ajouter des voix, mais pas dans une langue humaine connue. Je suppose que c’est dans la langue qui compose le texte dans les images générées par l’IA. Les voix ressemblent en quelque sorte à de vraies personnes, et d’autres fois, elles sonnent à des chantres grégoriens filtrés à travers l’espace. C’est juste en plein milieu de cette étrange vallée. Le bord « sans âme et bizarre », en les comparant aux sons des baleines.

Stable Audio 2.0 fait les mêmes petites erreurs étranges que tous ces systèmes, quel que soit le type de sortie. Les pièces peuvent disparaître dans les airs, remplacées par autre chose. Parfois, des éléments mélodiques doublent de nulle part, comme une version audio de ces doigts supplémentaires dans des images générées par l’IA.

Il y a aussi le côté ennuyeux de tout cela. Ce n’est de la musique que le nom. Sans connexion humaine, à quoi ça sert ? J’écoute de la musique pour entrer dans la tête d’une autre personne ou d’un groupe de personnes. Il n’y a personne pour entrer ici, malgré les proclamations constantes selon lesquelles l’intelligence artificielle générale (IAG) n’arrivera que dans quelques mois.

Cette technologie est donc un cadeau absolu pour ceux qui réalisent des vidéos d’anniversaire idiotes ou de la musique de banque. Pour tout le monde ? Hausser les épaules. Une chose que je peux dire par expérience personnelle : c’est assez rapide. Le système a concocté une chanson de big band absolument terrifiante sur mon chat en une minute environ.

Source-145