Les voix synthétiques veulent prendre le contrôle des livres audio

Quand le doubleur Heath Miller s’assoit dans son hangar à bateaux transformé en studio à domicile dans le Maine pour enregistrer une nouvelle narration de livre audio, il a déjà lu attentivement le texte au moins une fois. Pour offrir sa meilleure performance, il prend des notes sur chaque personnage et des indices sur la façon dont ils devraient sonner. Au cours des deux dernières années, des rôles de livre audio, comme la narration de séries fantastiques populaires Celui qui se bat avec des monstres, sont devenus la principale source de travail de Miller. Mais en décembre, il est brièvement devenu détective en ligne après avoir vu un tweet de l’auteur de science-fiction britannique Jon Richter révélant que son dernier livre audio n’avait pas besoin du genre d’art qu’offre Miller : il était raconté par une voix synthétique.

La liste des livres de Richter sur Audible d’Amazon a crédité cette voix comme « Nicholas Smith » sans révéler qu’elle n’était pas humaine. À la surprise de Miller, il a découvert que « Smith » avait exprimé un total d’environ une demi-douzaine sur le site de plusieurs éditeurs, enfreignant les règles d’Audible qui stipulent que les livres audio « doivent être racontés par un humain ». Bien que « Smith » ait semblé plus expressif qu’une voix synthétique typique, à l’oreille de Miller, il était tout simplement artificiel et offrait une expérience pire qu’un narrateur humain. Il a fait des erreurs de cadeau, comme prononcer Covid comme «kah-viid» en se référant à la pandémie.

Miller a retrouvé « Smith » – la voix correspondait à un échantillon publié sur SoundCloud par Speechki, une startup de San Francisco qui propose plus de 300 voix synthétiques pour la publication de livres audio dans 77 dialectes et langues. Lui et d’autres narrateurs et fans audio qui discuté les livres audio artificiels en ligne ont signalé les titres à Audible, qui les a finalement supprimés. Bien que ce ne soit pas un grand nombre, découvrir que les voix synthétiques étaient assez bonnes pour que certains éditeurs les mettent au travail a incité Miller à s’interroger sur l’avenir de son art et de ses revenus. « C’est un peu terrifiant parce que c’est mon gagne-pain et celui de beaucoup de gens que je respecte », dit-il.

Richter dit qu’il a choisi une voix artificielle parce que le concept et son son « uncanny valley » convenaient à son livre, qui a un logiciel d’intelligence comme l’un de ses personnages principaux, et qu’il n’était pas au courant des politiques d’Audible. « Mon intention n’a jamais été de contrarier ou d’offenser qui que ce soit », dit-il. Speechki dit qu’il recommande aux éditeurs d’identifier que les narrations sont synthétiques et qu’il les informe des politiques d’Audible. Will Farrell-Green, directeur principal d’Audible, a déclaré dans un communiqué envoyé par e-mail que la société utilise des processus automatisés et manuels pour appliquer ses règles, mais qu ‘ »en raison du volume de contenu sur notre service, les titres qui ne sont pas conformes passent de de temps en temps. » La politique «humaine uniquement» d’Audible remonte à au moins 2014, lorsque les voix synthétiques étaient beaucoup moins convaincantes, et la société a déclaré que la règle aide à fournir aux auditeurs les performances qu’ils attendent.

Les voix synthétiques sont devenues moins grinçantes ces dernières années, en partie grâce aux recherches sur l’intelligence artificielle menées par des entreprises telles que Google et Amazon, qui se font concurrence pour proposer des assistants virtuels et des services cloud avec des tonalités artificielles plus douces. Ces avancées ont également été utilisées pour créer des « deepfakes » usurpant la réalité. Speechki est l’une des nombreuses startups développant la synthèse vocale pour les livres audio. Il analyse le texte avec un logiciel interne pour indiquer comment infléchir différents mots, l’exprime avec une technologie adaptée de fournisseurs de cloud tels qu’Amazon, Microsoft et Google, et emploie des auditeurs de preuve qui vérifient les erreurs. Google teste son propre service « de narration automatique » que les éditeurs peuvent utiliser pour générer gratuitement des livres audio en anglais, en utilisant plus de 20 voix synthétiques différentes. Les livres audio publiés dans le cadre du programme comprennent une histoire académique du théâtre et l’exploration par un romancier des attitudes culturelles à l’égard du sexe. Le porte-parole de Google, Dan Jackson, a déclaré que ses livres à narration automatique complètent plutôt que de remplacer les livres à narration professionnelle. « Notre objectif avec la narration automatique est de permettre de créer un livre audio à faible coût pour n’importe quel titre d’ebook et d’augmenter l’accessibilité du contenu pour ceux qui ne peuvent pas lire via ebook », dit-il.

Contenu

Ce contenu peut également être consulté sur le site dont il provient.

Écoutez un extrait de l’article de WIRED sur l’éjection du chercheur en intelligence artificielle Timnit Gebru de Google, raconté par la technologie de Speechki.

Certains éditeurs considèrent les voix synthétiques comme un moyen d’exploiter la demande croissante de livres audio, un segment en meilleure santé que d’autres secteurs de l’industrie du livre. Les revenus totaux des éditeurs de livres aux États-Unis ont légèrement diminué entre 2015 et 2020 et les revenus des livres électroniques ont diminué, mais les revenus des livres audio ont bondi de 157%, selon l’Association of American Publishers. Les consommateurs sont de plus en plus à l’aise avec le format, aidés par les améliorations techniques apportées aux applications mobiles, aux haut-parleurs intelligents et aux écouteurs sans fil. Mais en raison du coût d’un narrateur et de la production audio, la plupart des titres ne deviennent jamais des livres audio, en particulier chez les petits éditeurs, explique Brian Carroll, responsable des droits chez Indiana University Press.

IU Press concède sous licence une fraction de son catalogue pour la production audio traditionnelle, mais est désormais client de Speechki. Il prévoit de publier ses premiers livres audio à narration synthétique plus tard cette année. « Tous les autres livres ont enfin une chance de devenir des livres audio maintenant », dit Carroll.

La technologie de Speechki a été impressionnante dans les tests jusqu’à présent, dit Carroll, naviguant dans le langage académique des titres sur la paléontologie et la philosophie. Un livre choisi pour la production est Le tour du monde en 80 toasts, dans lequel le logiciel doit gérer du texte parsemé de mots d’autres langues. « Nous pensions que s’il pouvait le faire, il serait probablement capable de faire n’importe quoi, et il a fait du bon travail », a déclaré Carroll.

Source-144