OpenAI a construit un outil de clonage vocal, mais vous ne pouvez pas l’utiliser… pour le moment

Alors que les deepfakes prolifèrent, OpenAI affine la technologie utilisée pour cloner les voix – mais l’entreprise insiste sur le fait qu’elle le fait de manière responsable.

Aujourd’hui marque les débuts en avant-première du moteur vocal d’OpenAI, une extension de l’API de synthèse vocale existante de l’entreprise. En développement depuis environ deux ans, Voice Engine permet aux utilisateurs de télécharger n’importe quel échantillon vocal de 15 secondes pour générer une copie synthétique de cette voix. Mais il n’y a pas encore de date de disponibilité publique, ce qui laisse à l’entreprise le temps de réagir à la manière dont le modèle est utilisé et abusé.

« Nous voulons nous assurer que tout le monde se sent bien dans la façon dont elle est déployée – que nous comprenons dans quel contexte cette technologie est dangereuse et que nous avons mis en place des mesures d’atténuation pour cela », a déclaré Jeff Harris, membre de l’équipe produit chez OpenAI. TechCrunch dans une interview.

Entraîner le modèle

Le modèle d’IA générative qui alimente Voice Engine est caché à la vue de tous depuis un certain temps, a déclaré Harris.

Le même modèle sous-tend les capacités vocales et de « lecture à haute voix » de ChatGPT, le chatbot alimenté par l’IA d’OpenAI, ainsi que les voix prédéfinies disponibles dans l’API de synthèse vocale d’OpenAI. Et Spotify l’utilise depuis début septembre pour doubler des podcasts pour des animateurs de premier plan comme Lex Fridman dans différentes langues.

J’ai demandé à Harris d’où provenaient les données d’entraînement du modèle – un sujet un peu délicat. Il dirait seulement que le modèle Voice Engine a été formé sur un mélange de données sous licence et accessibles au public.

Les modèles comme celui qui alimente Voice Engine sont formés sur un très grand nombre d’exemples – dans ce cas, des enregistrements vocaux – provenant généralement de sites publics et d’ensembles de données sur le Web. De nombreux générateurs Les fournisseurs d’IA considèrent les données de formation comme un avantage concurrentiel et les gardent donc ainsi que les informations s’y rapportant près de la poitrine. Mais les détails des données de formation sont également une source potentielle de poursuites liées à la propriété intellectuelle, ce qui dissuade également d’en révéler beaucoup.

OpenAI est étant déjà poursuivi suite à des allégations selon lesquelles la société aurait violé la loi sur la propriété intellectuelle en entraînant son IA sur du contenu protégé par le droit d’auteur, notamment des photos, des illustrations, du code, des articles et des livres électroniques, sans fournir de crédit ou de paiement aux créateurs ou aux propriétaires.

OpenAI a conclu des accords de licence avec certains fournisseurs de contenu, comme Shutterstock et l’éditeur de presse Axel Springer, et permet aux webmasters d’empêcher son robot d’exploration de récupérer leur site pour les données de formation. OpenAI permet également aux artistes de « se désinscrire » et de supprimer leur travail des ensembles de données que l’entreprise utilise pour former ses modèles de génération d’images, y compris son dernier DALL-E 3.

Mais OpenAI ne propose pas de système de désinscription de ce type pour ses autres produits. Et dans une récente déclaration à la Chambre des Lords du Royaume-Uni, OpenAI a suggéré qu’il était « impossible » de créer des modèles d’IA utiles sans matériel protégé par le droit d’auteur, affirmant que l’utilisation équitable – la doctrine juridique qui permet l’utilisation d’œuvres protégées par le droit d’auteur pour en faire une création secondaire comme tant qu’il est transformateur, il le protège lorsqu’il s’agit de formation de modèles.

Synthétiser la voix

Étonnamment, Voice Engine n’est-ce pas formés ou affinés sur les données des utilisateurs. Cela est dû en partie à la manière éphémère dont le modèle – une combinaison d’un processus de diffusion et d’un transformateur – génère la parole.

« Nous prenons un petit échantillon audio et du texte et générons un discours réaliste qui correspond à l’orateur d’origine », a déclaré Harris. « L’audio utilisé est supprimé une fois la demande terminée. »

Comme il l’a expliqué, le modèle analyse simultanément les données vocales dont il extrait et les données textuelles destinées à être lues à haute voix, générant ainsi une voix correspondante sans avoir à créer un modèle personnalisé par locuteur.

Ce n’est pas une nouvelle technologie. Un certain nombre de startups proposent des produits de clonage vocal depuis des années, d’ElevenLabs à Replica Studios en passant par Papercup, Deepdub et Respeecher. Il en va de même pour les géants de la technologie historiques tels qu’Amazon, Google et Microsoft, dont le dernier est d’ailleurs un investisseur majeur d’OpenAI.

Harris a affirmé que l’approche d’OpenAI permet d’obtenir une parole globale de meilleure qualité.

Nous savons également que les prix seront agressifs. Bien qu’OpenAI ait supprimé les prix de Voice Engine des supports marketing publiés aujourd’hui, dans les documents consultés par TechCrunch, Voice Engine coûte 15 $ pour un million de caractères, soit environ 162 500 mots. Cela conviendrait à « Oliver Twist » de Dickens avec un peu de place libre. (Une option de qualité « HD » coûte le double, mais, ce qui prête à confusion, un porte-parole d’OpenAI a déclaré à TechCrunch qu’il n’y avait aucune différence entre les voix HD et non HD. Faites-en ce que vous voulez.)

Cela se traduit par environ 18 heures d’audio, ce qui rend le prix légèrement inférieur à 1 $ de l’heure. C’est en effet moins cher que ce que facture l’un des fournisseurs concurrents les plus populaires, ElevenLabs : 11 $ pour 100 000 caractères par mois. Mais ça fait se faire au détriment d’une certaine personnalisation.

Voice Engine n’offre pas de commandes pour ajuster le ton, la hauteur ou la cadence d’une voix. En fait, il n’offre pas n’importe lequel peaufiner les boutons ou les cadrans pour le moment, bien que Harris note que toute expressivité dans l’échantillon de voix de 15 secondes se poursuivra à travers les générations suivantes (par exemple, si vous parlez sur un ton excité, la voix synthétique résultante semblera constamment excitée) . Nous verrons comment la qualité de la lecture se compare à d’autres modèles lorsqu’ils peuvent être comparés directement.

Le talent vocal comme marchandise

Les salaires des doubleurs sur ZipRecruiter varient de 12 $ à 79 $ de l’heure – beaucoup plus chers que Voice Engine, même dans le bas de gamme (les acteurs avec des agents exigeront un prix beaucoup plus élevé par projet). S’il devait faire son chemin, l’outil d’OpenAI pourrait banaliser le travail vocal. Alors, où cela laisse-t-il les acteurs ?

L’industrie du talent ne serait pas exactement prise au dépourvu : elle est aux prises depuis un certain temps avec la menace existentielle de l’IA générative. Il est de plus en plus demandé aux acteurs de la voix de renoncer aux droits sur leur voix afin que les clients puissent utiliser l’IA pour générer des versions synthétiques qui pourraient éventuellement les remplacer. Le travail vocal – en particulier le travail d’entrée de gamme bon marché – risque d’être éliminé au profit du discours généré par l’IA.

Désormais, certaines plates-formes vocales d’IA tentent de trouver un équilibre.

Replica Studios a signé l’année dernière un accord quelque peu controversé avec SAG-AFTRA pour créer et concéder sous licence des copies des voix des membres du syndicat des artistes médiatiques. Les organisations ont déclaré que l’accord établissait des conditions justes et éthiques pour garantir le consentement de l’artiste interprète lors de la négociation des conditions d’utilisation de voix synthétiques dans de nouvelles œuvres, y compris les jeux vidéo.

ElevenLabs, quant à lui, héberge un marché de voix synthétiques qui permet aux utilisateurs de créer une voix, de la vérifier et de la partager publiquement. Lorsque d’autres utilisent une voix, les créateurs originaux reçoivent une compensation – un montant fixe pour 1 000 caractères.

OpenAI n’établira aucun accord ou marché syndical de ce type, du moins pas à court terme, et exige seulement que les utilisateurs obtiennent le « consentement explicite » des personnes dont les voix sont clonées, fassent des « divulgations claires » indiquant quelles voix sont générées par l’IA et s’engager à ne pas utiliser la voix de mineurs, de personnes décédées ou de personnalités politiques de leurs générations.

« La manière dont cela se recoupe avec l’économie des doubleurs est quelque chose que nous surveillons de près et que nous sommes vraiment curieux », a déclaré Harris. «Je pense qu’il y aura de nombreuses opportunités d’étendre votre portée en tant qu’acteur vocal grâce à ce type de technologie. Mais c’est tout ce que nous allons apprendre au fur et à mesure que les gens déploieront et joueront un peu avec la technologie.

Éthique et deepfakes

Les applications de clonage vocal peuvent être – et ont été – utilisées à des fins abusives qui vont bien au-delà de la menace pour les moyens de subsistance des acteurs.

Le tristement célèbre forum de discussion 4chan, connu pour son contenu conspirateur, a utilisé la plateforme d’ElevenLabs pour partager des messages haineux imitant des célébrités comme Emma Watson. James Vincent de The Verge a pu exploiter des outils d’IA pour cloner rapidement et de manière malveillante des voix, générant des échantillons contenant tout, des menaces violentes aux remarques racistes et transphobes. Et chez Vice, le journaliste Joseph Cox a documenté la génération d’un clone vocal suffisamment convaincant pour tromper le système d’authentification d’une banque.

On craint que de mauvais acteurs tentent d’influencer les élections grâce au clonage de la voix. Et elles ne sont pas sans fondement : en janvier, une campagne téléphonique a utilisé un président Biden truqué pour dissuader les citoyens du New Hampshire de voter – ce qui a incité la FCC à prendre des mesures pour rendre illégales de telles campagnes à l’avenir.

Ainsi, outre l’interdiction des deepfakes au niveau politique, quelles mesures OpenAI prend-elle, le cas échéant, pour empêcher l’utilisation abusive de Voice Engine ? Harris en a mentionné quelques-uns.

Premièrement, Voice Engine n’est mis à la disposition que d’un groupe exceptionnellement restreint de développeurs – environ 10 – pour commencer. OpenAI donne la priorité aux cas d’utilisation « à faible risque » et « socialement bénéfiques », explique Harris, comme ceux des soins de santé et de l’accessibilité, en plus d’expérimenter des médias synthétiques « responsables ».

Parmi les premiers utilisateurs de Voice Engine figurent Age of Learning, une société de technologie éducative qui utilise l’outil pour générer des voix off d’acteurs déjà présents, et HeyGen, une application de narration exploitant Voice Engine pour la traduction. Livox et Lifespan utilisent Voice Engine pour créer des voix pour les personnes souffrant de troubles de la parole et de handicaps, et Dimagi développe un outil basé sur Voice Engine pour donner des commentaires aux agents de santé dans leur langue principale.

Voici les voix générées par Lifespan :


Et en voici un de Livox :

Deuxièmement, les clones créés avec Voice Engine sont filigranés à l’aide d’une technique développée par OpenAI qui intègre des identifiants inaudibles dans les enregistrements. (D’autres fournisseurs, dont Resemble AI et Microsoft, utilisent des filigranes similaires.) Harris n’a pas promis qu’il n’existait aucun moyen de contourner le filigrane, mais l’a décrit comme « inviolable ».

« S’il existe un clip audio, il est très facile pour nous de le regarder et de déterminer qu’il a été généré par notre système et par le développeur qui a réellement réalisé cette génération », a déclaré Harris. dit. « Pour l’instant, il n’est pas open source ; nous l’avons en interne pour l’instant. Nous sommes curieux de le rendre public, mais évidemment, cela comporte des risques supplémentaires en termes d’exposition et de rupture.

Troisièmement, OpenAI prévoit de fournir aux membres de son réseau Red Teaming, un groupe d’experts sous contrat qui aident à éclairer les stratégies d’évaluation et d’atténuation des risques du modèle d’IA de l’entreprise, un accès au moteur vocal pour détecter les utilisations malveillantes.

Certains experts affirment que l’équipe rouge de l’IA n’est pas assez exhaustive et qu’il incombe aux fournisseurs de développer des outils pour se défendre contre les dommages que leur IA pourrait causer. OpenAI ne va pas aussi loin avec Voice Engine, mais Harris affirme que le « principe fondamental » de l’entreprise est de diffuser la technologie en toute sécurité.

Publication générale

En fonction du déroulement de la préversion et de l’accueil du public envers Voice Engine, OpenAI pourrait proposer l’outil à sa base de développeurs plus large, mais à l’heure actuelle, la société est réticente à s’engager sur quoi que ce soit de concret.

Harris a fait donne cependant un aperçu de la feuille de route de Voice Engine, révélant qu’OpenAI teste un mécanisme de sécurité qui permet aux utilisateurs de lire du texte généré aléatoirement comme preuve qu’ils sont présents et conscients de la façon dont leur voix est utilisée. Cela pourrait donner à OpenAI la confiance dont elle a besoin pour proposer Voice Engine à un plus grand nombre de personnes, a déclaré Harris – ou ce n’est peut-être qu’un début.

« Ce qui va continuer à nous faire avancer en termes de technologie de correspondance vocale va vraiment dépendre de ce que nous apprendrons du pilote, des problèmes de sécurité découverts et des mesures d’atténuation que nous avons mises en place », a-t-il déclaré. « Nous ne voulons pas que les gens soient confus entre les voix artificielles et les voix humaines réelles. »

Et sur ce dernier point, nous pouvons être d’accord.

Source-146