Ces présentateurs de nouvelles générés par l’IA me font flipper

Agrandir / Max Headroom comme prophétie.

Aurich Lawson | Canal 1

Chez Ars, nous couvrons depuis longtemps le potentiel intéressant et le péril important (et parfois la bêtise) de la vidéo générée par l’IA mettant en scène des avatars humains de plus en plus réalistes. Bon sang, nous avons même pris la peine de créer notre propre « deepfake » Mark Zuckerberg en 2019, alors que la technologie sous-jacente n’était pas aussi robuste qu’aujourd’hui.

Mais même avec tout ce contexte, la vision de la startup Channel 1 d’un futur proche où des avatars générés par l’IA vous lisent les nouvelles a été un peu un choc pour le système. De l’entreprise récent bulletin d’information « showcase » sur la preuve de concept révèle à quel point les vidéos humaines générées par l’IA ont progressé en peu de temps et comment ces avatars réalistes pourraient bouleverser bien plus que le simple marché du travail pour les têtes parlantes.

« … les présentateurs de l’information ont été modifiés pour protéger les innocents »

Pour être clair, Channel 1 n’essaie pas de tromper les gens avec des « deepfakes » de présentateurs de nouvelles existants ou quelque chose du genre. Dans les premières secondes de son exemple de journal télévisé, il identifie ses têtes parlantes comme une « équipe de journalistes générés par l’IA ». Quelques secondes plus tard, l’une de ces têtes parlantes explique plus loin : « Vous pouvez nous entendre et voir nos lèvres bouger, mais personne n’a été enregistré disant ce que nous disons tous. Je suis alimenté par des systèmes sophistiqués en coulisses. »

Même avec ce genre d’avertissements, je me suis rendu compte que je devais constamment me rappeler que les « personnes » que je regardais livrer les nouvelles ici n’étaient que « basées sur de vraies personnes qui ont été rémunérées pour l’utilisation de leur image », comme le rapporte Deadline (comment le montant de leur compensation sera probablement une grande préoccupation pour les acteurs qui se sont récemment mis en grève, en partie à cause de la question des ressemblances avec l’IA). Tout, de la synchronisation labiale aux intonations en passant par les gestes subtils et les mouvements corporels de ces présentateurs de Channel 1, donne une présentation étrangement convaincante d’un véritable présentateur de nouvelles parlant devant la caméra.

Bien sûr, si vous regardez attentivement, il y a quelques anomalies révélatrices qui révèlent que ces journalistes sont des créations informatiques : de légères distorsions vidéo autour de la bouche, par exemple, ou des gestes de la main trop répétitifs, ou un choix d’accentuation de mots absurde. Mais ces signes sont si petits qu’il serait facile de les manquer d’un simple coup d’œil ou sur un petit écran comme celui d’un téléphone.

En d’autres termes, les avatars d’IA d’apparence humaine semblent désormais sur la bonne voie pour sortir de l’étrange vallée, du moins lorsqu’il s’agit de présentateurs de nouvelles assis à un bureau ou debout devant un écran vert. L’investisseur de Channel 1, Adam Mosam, a déclaré à Deadline qu’il « était arrivé à un endroit où il est confortable à regarder », et je dois dire que je suis d’accord.

Un clip de Channel 1 montre comment son système peut donner l’impression que les sources vidéo parlent une langue différente.

La même technologie peut également être appliquée aux vidéos d’actualités sur place. Environ huit minutes après le début du journal télévisé, la Première chaîne diffuse une vidéo d’une victime d’une tempête tropicale européenne décrivant l’épave en français. Ensuite, il montre une version générée par l’IA de la même séquence avec la source parlant un anglais parfait, en utilisant un fac-similé de sa voix originale et une synchronisation labiale artificielle placée sur sa bouche.

Sans l’avertissement à l’écran indiquant qu’il s’agissait d’une « Langue générée par l’IA : traduite du français », il serait facile de croire que la vidéo était celle d’un expatrié américain plutôt que d’un francophone natif. Et l’effet est bien plus dramatique que la pratique habituelle des journaux télévisés consistant à faire parler un interprète invisible sur les images.

Source-147