La parole synthétique peut être un objet effrayant de nos jours lorsqu’elle est associée à des deepfakes et à d’autres tromperies de l’IA, mais c’est aussi un outil indispensable pour quiconque ne peut plus parler par lui-même. Acapela Group a ces gens à l’esprit avec son nouveau service « ma propre voix », qui permet à quiconque de former gratuitement un profil vocal IA.
Acapela est dans le domaine de la synthèse vocale depuis environ 25 ans et a récemment été acquis par le géant de l’accessibilité technologique Tobii Dynavox, bien qu’ils fonctionnent toujours de manière indépendante.
Comme de nombreuses industries, l’accessibilité a été fortement influencée par l’avènement des processus d’apprentissage automatique à l’échelle du consommateur. Il y a sept ou huit ans, se souvient Remy Cadic, co-fondateur d’Acapela, il n’était pas seulement fastidieux de personnaliser soi-même une voix de synthèse, mais les résultats n’étaient pas particulièrement bons.
« Cela prenait beaucoup de temps – le patient devait s’entraîner pendant 8 heures. Maintenant, nous pouvons enregistrer une voix avec seulement 50 phrases enregistrées ; cela prend environ 10 minutes et la voix est prête le lendemain », a-t-il déclaré. « Il y a définitivement une révolution en cours avec les techniques neuronales de synthèse vocale. »
Avoir un générateur de parole qui utilise sa propre voix est certainement quelque chose qu’un nombre croissant de personnes peuvent apprécier – choisir dans une liste est un peu déshumanisant. Beaucoup ont des voix qu’ils préféreraient utiliser, mais ce n’est que récemment que c’était une option.
Ils ne plaisantaient pas sur la rapidité et la facilité du processus : j’ai suivi le nouveau processus de « ma propre voix », et il ne s’agissait en réalité que de 50 phrases courtes, tirées d’un corpus (aléatoire, semblait-il) de romans, de livres de recettes, et articles. L’interface d’enregistrement était simple et facile à naviguer, et bien sûr, un jour ou deux plus tard, ma voix était prête à être utilisée. La qualité est bonne – pas étrange comme certains modèles peuvent l’être, mais clairement ma propre voix (comme annoncé) et capable de gérer n’importe quelle phrase que je lui ai lancée dans la page de démonstration.
Maintenant qu’il est là, si jamais j’en ai besoin, je peux aller le télécharger moyennant des frais pour l’utiliser sur n’importe quel système de génération de parole compatible. Évidemment, cela inclut le TD Talk et les appareils de Tobii Dynavox ; la société vient d’en publier un nouveau la semaine dernière, en fait – ces choses deviennent assez élégantes.
Et c’est le vrai point de tout cela – ce n’est pas une démonstration technique de la puissance de la technologie de la voix neurale ou une démo qui permet à quiconque de lui donner une voix de célébrité à cloner. C’est un outil spécialement conçu pour les personnes qui, jusqu’à récemment, n’avaient peut-être pas d’options ou, au mieux, un processus difficile et complexe si elles voulaient préserver leur voix.
Beaucoup de personnes confrontées à des maladies dégénératives, à un cancer ou à certaines procédures savent que d’ici quelques mois ou quelques années, elles pourraient ne plus être capables de parler correctement ou plus du tout. Rendre le processus bancaire de leur voix aussi simple que possible est un service que beaucoup apprécieront.
« Un gros avantage est que nous personnalisons également pour les enfants — nous avons rendu le script d’enregistrement plus facile à lire et réglé le système pour améliorer la qualité des voix synthétiques des enfants. Nous avons été les premiers au monde à faire cela, et nous allons toujours dans cette direction », a déclaré Cadic.
Être capable d’enregistrer et de réenregistrer ou de vieillir artificiellement la voix mise en banque est une capacité nouvelle et stimulante, mais qui semble donner des résultats :
La compatibilité avec les appareils hors ligne qui ne disposent pas de la dernière puce de traitement neuronal est également un différenciateur clé. « Il existe des solutions en ligne où il est facile de créer une voix, mais elle n’est disponible que via le cloud, et ce n’est tout simplement pas pratique », a-t-il déclaré.
Incidemment, alors que la chose de 50 phrases est idéale pour les personnes qui peuvent encore lire et parler, une voix peut également être formée sur des enregistrements vocaux de personnes qui ont depuis perdu cette capacité – ce n’est tout simplement pas si simple.
L’entreprise a également constaté que la diversité et la réflexion dans le processus de formation sont aussi importantes que dans d’autres applications d’IA. Cadic a souligné qu’un problème avec certaines techniques de formation ultra-rapides est qu’« il va à peu près juste essayer de trouver l’orateur dans le matériel de formation qui est le plus proche de l’utilisateur. Mais s’il n’y a pas d’orateur dans la formation proche de la voix d’origine, ça ne sonnera tout simplement pas comme ça.
Le chef de produit Acapela, Nicolas Mazars, a ajouté que, comme de nombreux problèmes d’IA avec leur origine dans des données de formation insuffisantes, celui-ci n’est pas uniformément réparti : « Ce processus fonctionne bien pour l’homme blanc moyen de 50 ans, mais pas si vous êtes un homme afro-américain, ou vous ne parlez pas bien anglais. Nous travaillons dans 23 langues et avons de nombreux utilisateurs handicapés. Nous essayons de nous appuyer sur les commentaires des utilisateurs et de développer quelque chose pour eux, par eux. »
Le processus d’enregistrement et de banque est gratuit; vous pouvez créer un compte ici et former votre propre voix synthétique en quelques minutes. Vous ne payez que si vous souhaitez le télécharger et l’installer sur un appareil.