Google DeepMind a collaboré avec des universitaires classiques pour créer un nouvel outil d’IA qui utilise des réseaux de neurones profonds pour aider les historiens à déchiffrer le texte des inscriptions endommagées de la Grèce antique. Le nouveau système, baptisé Ithaca, s’appuie sur un système de restauration de texte antérieur appelé Pythia.
Ithaca n’aide pas seulement les historiens à restaurer un texte, il peut également identifier le lieu d’origine d’un texte et la date de création, selon un nouvel article publié par l’équipe de recherche dans la revue Nature. En fait, Ithaque a déjà été utilisée pour aider à résoudre un débat en cours parmi les historiens sur les dates correctes d’un groupe d’anciens décrets athéniens. Une version interactive d’Ithaca est disponible gratuitement et l’équipe rend son code open source.
De nombreuses sources anciennes – qu’elles soient écrites sur des rouleaux, des papyrus, de la pierre, du métal ou de la poterie – sont tellement endommagées que de gros morceaux de texte sont souvent illisibles. Déterminer l’origine des textes peut également être un défi, car ils ont probablement été déplacés plusieurs fois. Quant à déterminer avec précision quand ils ont été produits, la datation au radiocarbone et les méthodes similaires ne peuvent pas être utilisées car elles peuvent endommager les artefacts inestimables. Ainsi, la tâche ardue et fastidieuse d’interpréter ces textes incomplets incombe aux soi-disant épigraphistes spécialisés dans ces compétences.
Comme les gens de DeepMind l’ont écrit en 2019 :
L’un des problèmes de discernement du sens à partir de fragments de texte incomplets est qu’il existe souvent plusieurs solutions possibles. Dans de nombreux jeux de mots et puzzles, les joueurs devinent des lettres pour compléter un mot ou une phrase. Plus il y a de lettres spécifiées, plus les solutions possibles deviennent limitées. Mais contrairement à ces jeux, où les joueurs doivent deviner une phrase isolément, les historiens qui restaurent un texte peuvent estimer la probabilité de différentes solutions possibles en fonction d’autres indices de contexte dans l’inscription, tels que des considérations grammaticales et linguistiques, la mise en page et la forme, les parallèles textuels, et contexte historique.
Pour aider à accélérer le processus, Yannis Assael, Thea Sommerschield et Jonathan Prag de DeepMind ont collaboré avec des chercheurs de l’Université d’Oxford pour développer Pythia, un système de restauration de texte ancien nommé d’après la grande prêtresse qui a servi d’Oracle de Delphes en fournissant le déclarations du dieu Apollon.
La première étape des chercheurs a été de convertir la base de données du Packard Humanities Institute (PHI), la plus grande collection numérique d’inscriptions grecques anciennes, en un texte exploitable par machine qu’ils ont appelé PHI-ML. Cela représentait environ 35 000 inscriptions et plus de 3 millions de mots du 7ème siècle avant notre ère au 5ème siècle de notre ère. Ensuite, les chercheurs ont formé Pythia (avec les mots et les caractères individuels comme entrées) pour prédire les lettres de mots manquantes dans ces inscriptions. Pythia a été formée pour utiliser les capacités de reconnaissance de formes des réseaux de neurones profonds.
Face à une inscription incomplète, Pythia a produit jusqu’à 20 lettres ou mots possibles différents qui pourraient combler les lacunes, ainsi que le niveau de confiance pour chaque possibilité. Il appartenait aux historiens (c’est-à-dire aux « experts du domaine ») de passer au crible ces possibilités et de prendre une décision finale en fonction de leur expertise en la matière.
L’équipe a testé le système en comparant les résultats de Pythia sur la réalisation de 2 949 inscriptions avec ceux d’étudiants diplômés d’Oxford en épigraphie. La sortie de Pythia avait un taux d’erreur de 30,1%, contre un taux d’erreur de 57,3% pour les étudiants. Pythia a également pu accomplir la tâche beaucoup plus rapidement, ne nécessitant que quelques secondes pour déchiffrer 50 inscriptions, contre deux heures pour les étudiants.
Et maintenant, Assael et ses acolytes sont de retour avec Ithaca. En plus de la capacité de restauration de texte, Ithaca fait des prédictions sur l’attribution géographique des inscriptions incomplètes. La distribution des probabilités sur toutes les prédictions possibles est utilement visualisée sur une carte, « pour faire la lumière sur les possibles connexions géographiques sous-jacentes à travers le monde antique », a écrit l’équipe dans un article de blog d’accompagnement. Pour l’attribution chronologique, Ithaque produit une distribution de ses dates prévues entre 800 avant notre ère et 800 de notre ère.
Les tests ont révélé qu’Ithaca à elle seule est capable d’atteindre une précision de 62 % dans la restauration de texte endommagé, contre une précision de 25 % pour les historiens humains. Mais la combinaison de l’homme et de la machine augmente la précision globale à 72 %, ce qu’Assael et al. croient démontrer « le potentiel de coopération homme-machine » dans le domaine. Quant à l’attribution des inscriptions à leur emplacement d’origine, Ithaque peut le faire avec une précision de 71 % et dater les inscriptions à moins de 30 ans.
Ithaque a déjà eu la chance de démontrer son utilité aux historiens dans un cas test impliquant un ensemble de décrets athéniens qui ont été au centre d’une controverse de datation. Les historiens avaient auparavant fixé les dates des décrets au plus tard à 446 avant notre ère. Cette évaluation était basée sur certaines formes de lettres (connues sous le nom de sigma attique à trois barres) que la bureaucratie athénienne utilisait pendant cette période. Après 446 avant notre ère, les Athéniens sont passés à un sigma ionique à quatre barres pour ses décrets.
C’était la méthodologie de datation standard pour les inscriptions athéniennes jusqu’à ce que d’autres historiens commencent à remettre en question ses hypothèses, d’autant plus que plusieurs décrets datés de cette manière semblaient entrer en conflit avec les récits historiques de Thucydide. Ces historiens ont découvert des preuves que la forme de lettre attique avait continué à être utilisée dans les documents officiels longtemps après 446 avant notre ère. Ils ont conclu que les dates de bon nombre de ces décrets devraient être antérieures, vers 420 avant notre ère. Ithaque a prédit une date de 421 avant notre ère, tout à fait conforme à cette conclusion.