La nouvelle IA de DeepMind aide à restaurer les textes anciens endommagés

Google DeepMind a a collaboré avec des universitaires classiques pour créer un nouvel outil d’IA qui utilise des réseaux de neurones profonds pour aider les historiens à déchiffrer le texte des inscriptions endommagées de la Grèce antique. Le nouveau système, baptisé Ithaca, s’appuie sur un système de restauration de texte antérieur appelé Pythia.

Ithaca n’aide pas seulement les historiens à restaurer le texte, il peut également identifier le lieu d’origine d’un texte et la date de création, selon un nouvel article publié par l’équipe de recherche dans la revue Nature. En fait, Ithaque a déjà été utilisée pour aider à résoudre un débat en cours parmi les historiens sur les dates correctes d’un groupe d’anciens décrets athéniens. Une version interactive d’Ithaca est disponible gratuitement et l’équipe rend son code open source.

De nombreuses sources anciennes – qu’elles soient écrites sur des rouleaux, des papyrus, de la pierre, du métal ou de la poterie – sont tellement endommagées que de gros morceaux de texte sont souvent illisibles. Déterminer l’origine des textes peut également être un défi, car ils ont probablement été déplacés plusieurs fois. Quant à déterminer avec précision quand ils ont été produits, la datation au radiocarbone et les méthodes similaires ne peuvent pas être utilisées car elles peuvent endommager les artefacts inestimables. Ainsi, la tâche ardue et fastidieuse d’interpréter ces textes incomplets incombe aux soi-disant épigraphistes spécialisés dans ces compétences.

Comme les gens de DeepMind l’ont écrit en 2019 :

L’un des problèmes de discernement du sens à partir de fragments de texte incomplets est qu’il existe souvent plusieurs solutions possibles. Dans de nombreux jeux de mots et puzzles, les joueurs devinent des lettres pour compléter un mot ou une phrase. Plus il y a de lettres spécifiées, plus les solutions possibles deviennent limitées. Mais contrairement à ces jeux, où les joueurs doivent deviner une phrase isolément, les historiens qui restaurent un texte peuvent estimer la probabilité de différentes solutions possibles en fonction d’autres indices de contexte dans l’inscription, tels que des considérations grammaticales et linguistiques, la mise en page et la forme, les parallèles textuels, et contexte historique.

Pour aider à accélérer le processus, Yannis Assael, Thea Sommerschield et Jonathan Prag de DeepMind ont collaboré avec des chercheurs de l’Université d’Oxford pour développer Pythia, un système de restauration de texte ancien nommé d’après la grande prêtresse qui a servi d’Oracle de Delphes, fournissant le déclarations du dieu Apollon.

La première étape des chercheurs a été de convertir la base de données du Packard Humanities Institute (PHI), la plus grande collection numérique d’inscriptions grecques anciennes, en un texte exploitable par machine qu’ils ont appelé PHI-ML. Cela représentait environ 35 000 inscriptions et plus de 3 millions de mots du 7ème siècle avant JC au 5ème siècle après JC. Ensuite, les chercheurs ont formé Pythia (avec les mots et les caractères individuels comme entrées) pour prédire les lettres de mots manquantes dans ces inscriptions. Pythia a été formée pour utiliser les capacités de reconnaissance de formes des réseaux de neurones profonds.

Face à une inscription incomplète, Pythia a produit jusqu’à 20 lettres ou mots possibles différents qui pourraient combler les lacunes, ainsi que le niveau de confiance pour chaque possibilité. Il appartenait aux historiens (les «experts du domaine») de passer au crible ces possibilités et de prendre une décision finale en fonction de leur expertise en la matière.

L’équipe a testé le système en comparant les résultats de Pythia sur la réalisation de 2 949 inscriptions avec ceux d’étudiants diplômés d’Oxford en épigraphie. La sortie de Pythia avait un taux d’erreur de 30,1%, contre un taux d’erreur de 57,3% pour les étudiants. Pythia a également pu accomplir la tâche beaucoup plus rapidement, ne nécessitant que quelques secondes pour déchiffrer 50 inscriptions, contre deux heures pour les étudiants.

Source-144