Stability AI lance une plateforme audio AI

Stability AI, une société principalement connue pour ses visuels générés par l’IA, a lancé une plate-forme d’IA générative texte-audio appelée Stable Audio.

Audio stable utilise un modèle de diffusion, le même modèle d’IA qui alimente la plate-forme d’image la plus populaire de l’entreprise, Stable Diffusion, mais entraîné avec de l’audio plutôt qu’avec des images. Les utilisateurs peuvent l’utiliser pour générer des chansons ou de l’audio de fond pour n’importe quel projet.

Les modèles de diffusion audio ont tendance à générer une durée fixe d’audio, ce qui est terrible pour la production musicale car la longueur des chansons peut varier. La nouvelle plate-forme de Stability AI permet aux utilisateurs de produire des sons de différentes longueurs, ce qui oblige l’entreprise à s’entraîner sur la musique et à ajouter des métadonnées textuelles autour de l’heure de début et de fin d’une chanson.

Auparavant, l’audio enseigné sur un clip de 30 secondes ne pouvait générer que 30 secondes d’audio et créer des sections arbitraires de chansons. Stability AI a déclaré que la modification du modèle permet désormais aux utilisateurs de Stable Audio d’avoir plus de contrôle sur la durée de la chanson.

« Stable Audio représente la recherche de pointe en matière de génération audio menée par le laboratoire de recherche audio génératif de Stability AI, Harmonai », a déclaré la société dans un communiqué. «Nous continuons d’améliorer nos architectures de modèles, nos ensembles de données et nos procédures de formation pour améliorer la qualité des résultats, la contrôlabilité, la vitesse d’inférence et la longueur des résultats.»

Selon la société, elle a formé Stable Audio avec « un ensemble de données composé de plus de 800 000 fichiers audio contenant de la musique, des effets sonores et des tiges d’instrument unique » et des métadonnées textuelles de la société de licences musicales AudioSparx. L’ensemble de données représente plus de 19 500 heures de sons. En s’associant à une société de licence, Stability AI déclare avoir l’autorisation d’utiliser du matériel protégé par le droit d’auteur.

Un audio stable aura trois niveaux de tarification: une version gratuite qui permet aux utilisateurs de créer jusqu’à 45 secondes d’audio pour 20 pistes par mois ; un niveau professionnel à 11,99 $ pour 500 pistes d’une durée maximale de 90 secondes ; et un abonnement Entreprise, grâce auquel les entreprises peuvent personnaliser leur utilisation et leur prix. Ceux qui utilisent la version gratuite ne peuvent pas utiliser commercialement l’audio qu’ils créent avec Stable Audio.

La génération texte-audio n’est pas nouvelle, car d’autres grands noms de l’IA générative ont joué avec ce concept. Meta a publié AudioCraft en août, une suite de modèles d’IA générative qui aident à créer une ERM, un son et une musique au son naturel à partir d’invites. Il n’est pour l’instant accessible qu’aux chercheurs et à certains professionnels de l’audio. MusicLM de Google permet également aux utilisateurs de générer des sons, mais n’est disponible que pour les chercheurs.

Comme pour d’autres plates-formes audio génératives d’IA, une grande partie des cas d’utilisation potentiels de Stable Audio consistera à créer de la musique de fond pour des podcasts ou des vidéos afin d’accélérer ces flux de travail.

source site-132