Pourquoi l’IA est-elle si mauvaise en orthographe ? Parce que les générateurs d’images ne lisent pas réellement le texte

Les IA sont facilement vaincre le SAT, vaincre les grands maîtres d’échecs et déboguer le code comme si de rien n’était. Mais confrontez une IA à des collégiens lors du concours d’orthographe, et elle sera éliminée plus rapidement que vous ne pouvez le dire par diffusion.

Malgré tous les progrès que nous avons vus dans l’IA, elle ne sait toujours pas épeler. Si vous demandez à des générateurs de texte-image comme DALL-E de créer un menu pour un restaurant mexicain, vous remarquerez peut-être des éléments appétissants comme « taao », « burto » et « enchida » au milieu d’une mer d’autres charabia.

Et même si ChatGPT est capable de rédiger vos articles à votre place, il est comiquement incompétent lorsque vous lui demandez de proposer un mot de 10 lettres sans les lettres « A » ou « E » (il m’a dit « cagoule »). Pendant ce temps, lorsqu’un ami a essayé d’utiliser l’IA d’Instagram pour générer un autocollant indiquant « nouvelle publication », il a créé un graphique qui semblait dire quelque chose que nous ne sommes pas autorisés à répéter sur TechCrunch, un site Web familial.

Crédits images : Concepteur Microsoft (DALL-E 3)

« Les générateurs d’images ont tendance à donner de bien meilleurs résultats sur des objets tels que les voitures et les visages des gens, et moins sur des éléments plus petits comme les doigts et l’écriture manuscrite », a déclaré Asmelash Teka Hadgu, cofondatrice de Lesan et membre de l’Institut DAIR.

La technologie sous-jacente aux générateurs d’images et de texte est différente, mais les deux types de modèles ont des difficultés similaires avec des détails comme l’orthographe. Les générateurs d’images utilisent généralement des modèles de diffusion, qui reconstruisent une image à partir du bruit. En ce qui concerne les générateurs de texte, les grands modèles de langage (LLM) peuvent donner l’impression qu’ils lisent et répondent à vos invites comme un cerveau humain – mais ils utilisent en réalité des mathématiques complexes pour faire correspondre le modèle de l’invite avec celui de son espace latent. le laisser continuer le modèle avec une réponse.

« Les modèles de diffusion, le dernier type d’algorithmes utilisés pour la génération d’images, reconstruisent une entrée donnée », a déclaré Hagdu à TechCrunch. « Nous pouvons supposer que les écritures sur une image ne représentent qu’une très, très petite partie, de sorte que le générateur d’images apprend les motifs qui couvrent davantage de ces pixels. »

Les algorithmes sont incités à recréer quelque chose qui ressemble à ce qu’ils voient dans leurs données d’entraînement, mais ils ne connaissent pas nativement les règles que nous tenons pour acquises – que « bonjour » ne s’écrit pas « heeelllooo » et que les mains humaines ont généralement cinq doigts.

« Même l’année dernière, tous ces modèles étaient vraiment mauvais au niveau des doigts, et c’est exactement le même problème que le texte », a déclaré Matthew Guzdial, chercheur en IA et professeur adjoint à l’Université de l’Alberta. « Ils deviennent vraiment bons localement, donc si vous regardez une main avec six ou sept doigts dessus, vous pourriez dire : « Oh wow, ça ressemble à un doigt ». De même, avec le texte généré, on pourrait dire qu’il ressemble à un « H » et qu’il ressemble à un « P », mais ils sont vraiment mauvais pour structurer tout cela ensemble.

Les ingénieurs peuvent atténuer ces problèmes en augmentant leurs ensembles de données avec des modèles de formation spécialement conçus pour enseigner à l’IA à quoi devraient ressembler les mains. Mais les experts ne prévoient pas que ces problèmes d’orthographe se résoudront aussi rapidement.

Crédits images : Adobe Luciole

« Vous pouvez imaginer faire quelque chose de similaire : si nous créons simplement tout un tas de texte, ils peuvent former un modèle pour essayer de reconnaître ce qui est bon et ce qui est mauvais, et cela pourrait améliorer un peu les choses. Mais malheureusement, la langue anglaise est vraiment compliquée », a déclaré Guzdial à TechCrunch. Et le problème devient encore plus complexe si l’on considère le nombre de langues différentes avec lesquelles l’IA doit apprendre à travailler.

Certains modèles, comme Adobe Firefly, apprennent à ne pas générer de texte du tout. Si vous saisissez quelque chose de simple comme « menu dans un restaurant » ou « panneau d’affichage avec une publicité », vous obtiendrez l’image d’un papier vierge sur une table à manger ou d’un panneau d’affichage blanc sur l’autoroute. Mais si vous mettez suffisamment de détails dans votre invite, ces garde-fous sont faciles à contourner.

« Vous pouvez y penser presque comme s’ils jouaient à Whac-A-Mole, du genre : ‘D’accord, beaucoup de gens se plaignent de nos mains – nous allons ajouter une nouvelle chose juste pour les mains du prochain modèle’, et ainsi de suite. et ainsi de suite », a déclaré Guzdial. «Mais envoyer des SMS est beaucoup plus difficile. Pour cette raison, même ChatGPT ne sait pas vraiment épeler.

Sur Reddit, YouTube et X, quelques personnes ont mis en ligne des vidéos montrant comment ChatGPT échoue à épeler l’art ASCII, une des premières formes d’art Internet qui utilise des caractères de texte pour créer des images. Dans un récent vidéo, qui a été qualifié de « voyage rapide d’un héros de l’ingénierie », quelqu’un essaie minutieusement de guider ChatGPT à travers la création d’un art ASCII qui dit « Honda ». Ils réussissent finalement, mais non sans épreuves et tribulations odysséennes.

« Une hypothèse que j’ai est qu’ils n’avaient pas beaucoup d’art ASCII dans leur formation », a déclaré Hagdu. « C’est l’explication la plus simple. »

Mais au fond, les LLM ne comprennent tout simplement pas ce que sont les lettres, même s’ils peuvent écrire des sonnets en quelques secondes.

« Les LLM sont basés sur cette architecture de transformateur, qui ne lit notamment pas réellement de texte. Ce qui se passe lorsque vous saisissez une invite, c’est qu’elle est traduite en un encodage », a déclaré Guzdial. « Quand il voit le mot « le », il a ce seul codage de ce que « le » signifie, mais il ne connaît pas « T », « H », « E ».

C’est pourquoi lorsque vous demandez à ChatGPT de produire une liste de mots de huit lettres sans « O » ni « S », cela est incorrect environ la moitié du temps. Il ne sait pas réellement ce qu’est un « O » ou un « S » (même s’il pourrait probablement vous citer l’historique Wikipédia de la lettre).

Bien que ces images DALL-E de mauvais menus de restaurant soient amusantes, les lacunes de l’IA sont utiles lorsqu’il s’agit d’identifier la désinformation. Lorsque nous essayons de déterminer si une image douteuse est réelle ou générée par l’IA, nous pouvons en apprendre beaucoup en regardant les panneaux de signalisation, les t-shirts avec du texte, les pages d’un livre ou tout ce qui pourrait trahir une chaîne de lettres aléatoires. origines. Et avant que ces modèles ne deviennent meilleurs dans la fabrication des mains, un sixième (ou septième ou huitième) doigt pourrait également être un cadeau.

Mais, dit Guzdial, si nous y regardons d’assez près, ce ne sont pas seulement les doigts et l’orthographe que l’IA se trompe.

« Ces modèles soulèvent constamment ces petits problèmes locaux – c’est simplement que nous sommes particulièrement bien placés pour reconnaître certains d’entre eux », a-t-il déclaré.

Crédits images : Adobe Luciole

Pour une personne moyenne, par exemple, une image d’un magasin de musique générée par l’IA pourrait être facilement crédible. Mais quelqu’un qui s’y connaît un peu en musique pourrait voir la même image et remarquer que certaines guitares ont sept cordes, ou que les touches noires et blanches d’un piano ne sont pas espacées correctement.

Bien que ces modèles d’IA s’améliorent à un rythme alarmant, ces outils sont toujours confrontés à des problèmes comme celui-ci, qui limitent la capacité de la technologie.

« Il s’agit d’un progrès concret, cela ne fait aucun doute », a déclaré Hagdu. « Mais le genre de battage médiatique suscité par cette technologie est tout simplement insensé. »

Source-146