Peux tu m’entendre maintenant? L’IA-coustique pour lutter contre l’audio bruyant grâce à l’IA générative

Les enregistrements bruyants d’interviews et de discours sont le fléau de l’existence des ingénieurs du son. Mais une startup allemande espère résoudre ce problème avec une approche technique unique qui utilise l’IA générative pour améliorer la clarté des voix dans la vidéo.

Aujourd’hui, AI-coustics est sorti furtivement avec un financement de 1,9 million d’euros. Selon le co-fondateur et PDG Fabian Seipel, la technologie d’AI-coustics va au-delà de la suppression du bruit standard pour fonctionner sur et avec n’importe quel appareil et haut-parleur.

« Notre mission principale est de rendre chaque interaction numérique, que ce soit lors d’une conférence téléphonique, d’un appareil grand public ou d’une vidéo occasionnelle sur les réseaux sociaux, aussi claire qu’une diffusion provenant d’un studio professionnel », a déclaré Seipel à TechCrunch dans une interview.

Seipel, ingénieur du son de formation, a cofondé AI-coustics avec Corvin Jaedicke, maître de conférences en apprentissage automatique à l’Université technique de Berlin, en 2021. Seipel et Jaedicke se sont rencontrés alors qu’ils étudiaient la technologie audio à la TU Berlin, où ils ont souvent rencontré un son de mauvaise qualité. qualité des cours et tutoriels en ligne qu’ils ont dû suivre.

« Nous avons été motivés par une mission personnelle : surmonter le défi omniprésent que représente la mauvaise qualité audio dans les communications numériques », a déclaré Seipel. « Même si mon audition est légèrement altérée à cause de la production musicale au début de la vingtaine, j’ai toujours eu du mal avec le contenu et les conférences en ligne, ce qui nous a amenés à travailler en premier lieu sur le sujet de la qualité de la parole et de l’intelligibilité.

Le marché des logiciels de suppression du bruit et d’amélioration de la voix basés sur l’IA est déjà très robuste. Les rivaux d’AI-coustics incluent Insoundz, qui utilise l’IA générative pour améliorer les clips vocaux diffusés et préenregistrés, et Veed.io, une suite de montage vidéo avec des outils pour supprimer le bruit de fond des clips.

Mais Seipel affirme que l’IA-coustics a une approche unique pour développer les mécanismes d’IA qui effectuent le véritable travail de réduction du bruit.

La startup utilise un modèle formé sur des échantillons de parole enregistrés dans le studio de la startup à Berlin, ville natale d’AI-coustics. Les gens sont payés pour enregistrer des échantillons – Seipel ne dirait pas combien – qui sont ensuite ajoutés à un ensemble de données pour entraîner le modèle de réduction du bruit d’AI-coustics.

« Nous avons développé une approche unique pour simuler les artefacts et problèmes audio – par exemple le bruit, la réverbération, la compression, les microphones à bande limitée, la distorsion, l’écrêtage, etc. – pendant le processus de formation », a déclaré Seipel.

Je parierais que certains contesteront le système de rémunération unique d’AI-coustics pour les créateurs, étant donné que le modèle que la startup forme pourrait s’avérer assez lucratif à long terme. (Il y a un débat sain sur la question de savoir si les créateurs de données de formation pour les modèles d’IA méritent des résidus pour leurs contributions.) Mais la préoccupation la plus importante et la plus immédiate est peut-être la partialité.

Il est bien établi que les algorithmes de reconnaissance vocale peuvent développer des biais qui finissent par nuire aux utilisateurs. Une étude publiée dans The Proceedings of the National Academy of Sciences a montré que la reconnaissance vocale des grandes entreprises était deux fois plus susceptible de transcrire incorrectement l’audio des locuteurs noirs par rapport aux locuteurs blancs.

Dans un effort pour lutter contre cela, Seipel affirme qu’AI-coustics se concentre sur le recrutement de contributeurs d’échantillons de parole « divers ». Il a ajouté : « La taille et la diversité sont essentielles pour éliminer les préjugés et faire en sorte que la technologie fonctionne pour toutes les langues, identités de locuteurs, âges, accents et sexes. »

Ce n’était pas le test le plus scientifique, mais j’ai mis en ligne trois clips vidéo – une interview avec un agriculteur du XVIIIe siècle, une démonstration de conduite automobile et une manifestation contre le conflit israélo-palestinien – sur la plateforme d’AI-coustics pour voir dans quelle mesure il fonctionnait avec chacun. . AI-coustics a en effet tenu sa promesse d’améliorer la clarté ; à mes oreilles, les clips traités avaient beaucoup moins de bruit de fond ambiant noyant les haut-parleurs.

Voici le clip d’un fermier du XVIIIe siècle avant :


Et après:

Seipel estime que la technologie d’AI-coustics est utilisée pour améliorer la parole en temps réel et enregistrée, et peut-être même être intégrée dans des appareils tels que les barres de son, les smartphones et les écouteurs pour améliorer automatiquement la clarté de la voix. Actuellement, AI-coustics propose une application Web et une API pour le post-traitement des enregistrements audio et vidéo, ainsi qu’un SDK qui intègre la plate-forme AI-coustics dans les flux de travail, les applications et le matériel existants.

Seipel affirme qu’AI-coustics – qui gagne de l’argent grâce à une combinaison d’abonnements, de tarifs à la demande et de licences – compte actuellement cinq entreprises clientes et 20 000 utilisateurs (bien que tous ne paient pas). La feuille de route des prochains mois consiste à élargir l’équipe de quatre personnes de l’entreprise et à améliorer le modèle sous-jacent d’amélioration de la parole.

« Avant notre investissement initial, AI-coustics gérait une opération assez simple avec un faible taux de combustion afin de survivre aux difficultés du marché de l’investissement en capital-risque », a déclaré Seipel. « AI-coustics dispose désormais d’un important réseau d’investisseurs et de mentors en Allemagne et au Royaume-Uni pour nous conseiller. Une base technologique solide et la capacité d’adresser différents marchés avec la même base de données et la même technologie de base donnent à l’entreprise de la flexibilité et la possibilité d’opérer des pivots plus petits.

Lorsqu’on lui a demandé si une technologie de mastering audio telle que l’IA-coustics pourrait voler des emplois comme le craignent certains experts, Seipel a noté le potentiel de l’IA-coustics à accélérer les tâches fastidieuses qui incombent actuellement aux ingénieurs du son humains.

« Un studio de création de contenu ou un gestionnaire de diffusion peut économiser du temps et de l’argent en automatisant certaines parties du processus de production audio avec l’IA-coustics tout en conservant la meilleure qualité vocale », a-t-il déclaré. « La qualité et l’intelligibilité de la parole restent un problème ennuyeux chez presque tous les consommateurs ou appareils professionnels, ainsi que dans la production ou la consommation de contenu. Chaque application dans laquelle la parole est enregistrée, traitée ou transmise peut potentiellement bénéficier de notre technologie.

Le financement a pris la forme d’une tranche de capitaux propres et de dette de Connect Ventures, Inovia Capital, FOV Ventures et Jan Bohl, directeur financier d’Ableton.

Source-146