Sayso lance une API pour composer un peu les accents des gens

Vous avez du mal à comprendre votre collègue fortement accentué ? Vous ne pouvez pas suivre ce que dit la personne du service clientèle à l’autre bout du fil ? La technologie se précipite à la rescousse. Il s’avère qu’écouter un accent qui ne vous est pas familier peut augmenter considérablement la charge cognitive (et, par extension, la quantité d’énergie que vous dépensez pour comprendre quelqu’un). Sayso tente de résoudre ce problème, en donnant aux développeurs une API qui peut changer l’anglais accentué d’un accent à l’autre en temps quasi réel.

En tant que personne qui parle avec un accent, j’ai des sentiments mitigés à propos de cette technologie. J’aime un peu la diversité dans la façon dont les gens autour de moi sonnent, et il est facile de voir comment cette technologie pourrait être abusée ; ce ne serait pas génial, par exemple, si tous ceux qui parlent avec un certain accent étaient automatiquement « corrigés » dans le même accent. D’un autre côté, les gens choisissent d’utiliser les arrière-plans Zoom et les filtres TikTok, et s’ils sont bien gérés, il est assez facile de voir comment quelqu’un pourrait choisir de réduire la présence d’un accent prononcé pour des raisons «esthétiques», d’accessibilité ou de lisibilité. ; et il ne manque pas de personnes qui ne sont pas capables d’utiliser les systèmes de reconnaissance vocale à cause des accents. Mis à part les mèmes amusants et les gens qui crient sur leurs voitures, c’est un vrai problème.

De nombreuses technologies de conversion de la parole en texte utilisent le traitement du langage naturel (TAL) pour deviner de manière qualifiée ce que quelqu’un dit. La technologie de Sayso ne se soucie pas des mots réels ; il prend les sons individuels et les modifie pour les rendre plus lisibles.

« Nous ne faisons rien avec des mots et des phrases. Au lieu de cela, nous effectuons une opération de forme d’onde directe – nous travaillons avec des éléments de parole désenchevêtrés. Ce que je veux dire par là, ce sont des choses comme la voix, l’intonation, la parole, le contenu, l’accent, nous pouvons travailler avec des charges, comme uhms et aahs. Et nous pouvons modifier un ou plusieurs composants à la fois, et nous pouvons le modifier en temps réel si nous le voulons », explique Ganna Tymco, fondatrice et PDG de Sayso. « Lorsque nous avons commencé, l’objectif était d’aider les gens à se comprendre facilement. Mais ensuite cette vision s’est étendue en communiquant clairement avec la technologie. C’est la vision plus grande et plus large, avec la reconnaissance vocale et les technologies intelligentes du locuteur qui sont spécifiques au locuteur.

L’entreprise explique qu’elle aborde la parole de manière organique ; la façon dont la bouche, la langue et les lèvres façonnent les sons, et comment les cordes vocales ajoutent du piquant au mélange.

« Les gestes articulatoires ne sont que des groupes de sons. La partie intéressante est que cela est indépendant de la langue et de l’accent. Notre bouche ne peut produire qu’un certain nombre de sons, quelle que soit la langue utilisée. Notre voix est filtrée avec ces gestes articulatoires, et la sortie est beaucoup plus complexe. Nous prenons cette onde sonore et nous la coupons en très petits morceaux – une milliseconde de longueur », explique Tymco. « Cela convient au traitement en temps réel. Nous mappons le discours qui est d’un accent à un accent différent. Nous avons donc des données parallèles et nous apprenons à notre système à voir à quoi ressemblerait l’onde sonore pour le locuteur avec un accent par rapport au locuteur qui parle. Et puis on modifie la forme de l’onde sonore pour mieux l’adapter aux accents recherchés. Ce qui est vraiment intéressant, c’est qu’il est universel. Donc c’est, c’est indépendant de l’accent.

La société a commencé à cartographier des paires d’accents particuliers. Sayso a commencé à former ses systèmes avec des paires d’accents anglais hindi et anglais américain, mais s’est ensuite étendu aux accents chinois, espagnol et japonais également. Le système ne tient pas compte de la cadence, du choix des mots, du ton et de l’emphase. En fait, il se targue de pouvoir modifier le moins possible le son ; juste cartographier certains sons pour rendre les accents plus lisibles. Cela peut sembler non politiquement correct (pour ne pas dire incroyablement ennuyeux) de changer la voix de tout le monde pour qu’elle sonne comme Brad Pitt ou Angelina Jolie, mais le fondateur m’a assuré que c’est plus nuancé que cela. Avec une future version de la technologie de l’entreprise, si je préfère que tous ceux à qui je parle sonnent comme s’ils avaient un accent hollandais douteux, comme le mien, c’est possible. Il serait également possible de mapper tous les accents sur celui que tout le monde connaît le mieux, ce qui signifie que tout le monde lors de l’appel pourrait entendre un accent différent, le plus similaire au sien.

« La diversité, l’inclusion et l’accessibilité sont au cœur de ce que je fais ici. J’ai commencé parce que j’ai un accent et parce que les gens ne le comprennent pas. Je travaillais pour une très grande entreprise ici dans la Silicon Valley », explique Tymco, en refusant de nommer l’entreprise en question. « J’ai fait la vidéo pour eux. J’ai utilisé ma voix pour faire une voix off. Ils ont aimé la vidéo et ils n’ont rien voulu changer, mais ils ont dit que ma voix ne convenait pas. J’étais comme, hé, comme, qu’est-ce qui ne va pas avec ma voix? Je me demandais s’il y avait un logiciel que je pourrais utiliser pour changer mon accent. Il n’y en avait pas, et ils ont dû engager un acteur et tout refaire. Mais cela m’a fait réfléchir très profondément.

L’entreprise soutient que les personnes habituées aux accents des autres se comprennent plus facilement. Si vous êtes en Nouvelle-Zélande, il est plus facile de comprendre les autres Kiwis que de déchiffrer un accent écossais, par exemple.

«Nous voulons vraiment que les gens aient plus de facilité à se comprendre, et ce qui est le plus facile à comprendre est ce que nous connaissons le mieux. Nous commençons avec quelque chose qui est relativement universel en tant que MVP », explique Tymco. «Mais nous pouvons changer n’importe quoi en n’importe quoi. Et le but est que vous choisissiez ce qui vous semble le plus facile lorsque vous écoutez quelqu’un. Je pense que les accents sont beaux et je ne veux pas les effacer.

Même si le changement d’accent peut s’avérer être un enfer moral et/ou éthique, il peut aussi y avoir des raisons plus techniques à la technologie de Sayso. Par exemple, lorsque j’interviewe des entrepreneurs, j’enregistre mes entretiens et j’utilise un service de transcription pour m’assurer d’avoir une représentation écrite de l’entretien. Il existe une très forte corrélation entre l’accent d’un fondateur et l’anglais standard d’Hollywood et la qualité de la transcription. Pour quelqu’un avec un fort accent néerlandais ou indien, les transcriptions sont bien pires – le traitement de l’audio à travers un filtre de type Sayso avant d’essayer d’exécuter la transcription sur le fichier audio peut entraîner de bien meilleures transcriptions.

« [transcription] fait partie de notre stratégie commerciale », explique Tymco. « Les sous-titres automatiques, par exemple, peuvent être très éloignés. Je suis souvent étonné de voir à quel point ils sont mauvais et personne ne les vérifie manuellement. Notre technologie est définitivement applicable à la transcription.

La société a fourni une démonstration pour montrer un instantané de ce à quoi ressemble le discours converti :

Source-146