La nouvelle technologie d’IA de Google DeepMind générera des bandes sonores pour les vidéos

Le laboratoire d’intelligence artificielle DeepMind de Google travaille sur une nouvelle technologie capable de générer des bandes sonores, voire des dialogues, pour accompagner les vidéos. Le laboratoire a partagé ses progrès sur le projet de technologie vidéo-audio (V2A), qui peut être associé à Google Veo et à d’autres outils de création vidéo comme Sora d’OpenAI. Dans son article de blog, l’équipe DeepMind explique que le système peut comprendre les pixels bruts et combiner ces informations avec des invites textuelles pour créer des effets sonores pour ce qui se passe à l’écran. A noter que l’outil peut également être utilisé pour créer des bandes sonores pour des séquences traditionnelles, telles que des films muets et toute autre vidéo sans son.

Les chercheurs de DeepMind ont formé la technologie sur des vidéos, des audios et des annotations générées par l’IA qui contiennent des descriptions détaillées des sons et des transcriptions de dialogues. Ils ont dit que ce faisant, la technologie avait appris à associer des sons spécifiques à des scènes visuelles. Comme TechCrunch Remarques, l’équipe de DeepMind n’est pas la première à publier un outil d’IA capable de générer des effets sonores – ElevenLabs en a également publié un récemment – et ce ne sera pas la dernière. « Notre recherche se démarque des solutions vidéo-audio existantes car elle peut comprendre les pixels bruts et l’ajout d’une invite de texte est facultatif », écrit l’équipe.

Bien que l’invite textuelle soit facultative, elle peut être utilisée pour façonner et affiner le produit final afin qu’il soit aussi précis et réaliste que possible. Vous pouvez saisir des invites positives pour orienter la sortie vers la création des sons souhaités, par exemple, ou des invites négatives pour l’éloigner des sons que vous ne souhaitez pas. Dans l’exemple ci-dessous, l’équipe a utilisé le message suivant : « Cinématique, thriller, film d’horreur, musique, tension, ambiance, pas sur le béton.

Les chercheurs admettent qu’ils tentent toujours de remédier aux limites existantes de leur technologie V2A, comme la baisse de la qualité audio de la sortie qui peut survenir en cas de distorsions dans la vidéo source. Ils travaillent également toujours à l’amélioration des synchronisations labiales pour les dialogues générés. En outre, ils s’engagent à soumettre la technologie à « des évaluations et des tests de sécurité rigoureux » avant de la diffuser dans le monde.

Cet article contient des liens d’affiliation ; si vous cliquez sur un tel lien et effectuez un achat, nous pouvons gagner une commission.

Source-145