samedi, novembre 23, 2024

Les sous-titres de YouTube insèrent un langage explicite dans les vidéos pour enfants

« C’est surprenant et dérangeant », déclare Ashique KhudaBukhsh, professeur adjoint au Rochester Institute of Technology qui a étudié le problème avec ses collaborateurs Krithika Ramesh et Sumeet Kumar à l’Indian School of Business à Hyderabad.

Les sous-titres automatiques ne sont pas disponibles sur YouTube Kids, la version du service destinée aux enfants. Mais de nombreuses familles utilisent la version standard de YouTube, où elles peuvent être vues. Le Pew Research Center a rapporté en 2020 que 80% des parents d’enfants de 11 ans ou moins ont déclaré que leur enfant regardait du contenu YouTube; plus de 50 pour cent des enfants le faisaient quotidiennement.

KhudaBukhsh espère que l’étude attirera l’attention sur un phénomène qui, selon lui, a reçu peu d’attention de la part des entreprises technologiques et des chercheurs et qu’il appelle « l’hallucination de contenu inapproprié » – lorsque les algorithmes ajoutent du matériel inapproprié non présent dans le contenu original. Considérez-le comme le revers de l’observation courante selon laquelle la saisie semi-automatique sur les smartphones filtre souvent le langage des adultes à un degré ennuyeux.

La porte-parole de YouTube, Jessica Gibby, a déclaré qu’il était recommandé aux enfants de moins de 13 ans d’utiliser YouTube Kids, où les sous-titres automatisés ne peuvent pas être vus. Sur la version standard de YouTube, elle dit que la fonctionnalité améliore l’accessibilité. « Nous travaillons continuellement pour améliorer les sous-titres automatiques et réduire les erreurs », dit-elle. Alafair Hall, porte-parole de Pocket.watch, un studio de divertissement pour enfants qui publie le contenu de Ryan’s World, a déclaré dans un communiqué que la société est « en contact étroit et immédiat avec nos partenaires de plateforme tels que YouTube qui s’efforcent de mettre à jour les sous-titres vidéo incorrects ». L’opérateur de la chaîne Rob the Robot n’a pas pu être joint pour commenter.

Les hallucinations inappropriées ne sont pas propres à YouTube ou aux sous-titres vidéo. Un journaliste de WIRED a découvert qu’une transcription d’un appel téléphonique traité par la startup Trint rendait Negar, le nom d’une femme d’origine persane, comme une variante du mot N, même s’il sonne nettement différent pour l’oreille humaine. Le PDG de Trint, Jeffrey Kofman, explique que le service dispose d’un filtre grossier qui supprime automatiquement « une très petite liste de mots ». L’orthographe particulière qui figurait dans la transcription de WIRED ne figurait pas sur cette liste, a déclaré Kofman, mais elle sera ajoutée.

« Les avantages de la synthèse vocale sont indéniables, mais il existe des angles morts dans ces systèmes qui peuvent nécessiter des freins et contrepoids », déclare KhudaBukhsh.

Ces angles morts peuvent sembler surprenants pour les humains qui donnent un sens à la parole en partie en comprenant le contexte et le sens plus larges des mots d’une personne. Les algorithmes ont amélioré leur capacité à traiter le langage, mais manquent toujours d’une capacité de compréhension plus complète, ce qui a causé des problèmes à d’autres entreprises qui s’appuient sur des machines pour traiter le texte. Une startup a dû réorganiser son jeu d’aventure après avoir découvert qu’il décrivait parfois des scénarios sexuels impliquant des mineurs.

Les algorithmes d’apprentissage automatique « apprennent » une tâche en traitant de grandes quantités de données d’entraînement, dans ce cas des fichiers audio et des transcriptions correspondantes. KhudaBukhsh dit que le système de YouTube insère probablement des grossièretés parfois parce que ses données de formation comprenaient principalement la parole d’adultes et moins d’enfants. Lorsque les chercheurs ont vérifié manuellement des exemples de mots inappropriés dans les légendes, ils apparaissaient souvent avec le discours d’enfants ou de personnes qui ne semblaient pas être de langue maternelle anglaise. Des études antérieures ont montré que les services de transcription de Google et d’autres grandes entreprises technologiques font plus d’erreurs pour les locuteurs non blancs et moins d’erreurs pour l’anglais américain standard, par rapport aux dialectes américains régionaux.

Rachael Tatman, une linguiste qui a co-écrit l’une de ces études antérieures, affirme qu’une simple liste de mots à ne pas utiliser sur les vidéos YouTube des enfants traiterait bon nombre des pires exemples trouvés dans la nouvelle recherche. « Le fait qu’il n’y en ait apparemment pas est un oubli technique », dit-elle.

Source-144

- Advertisement -

Latest