Comme si être un érudit en grec ancien n’était pas assez difficile fondamentalement, les textes primaires sur lesquels ils s’appuient sont souvent endommagés de manière irréparable, car ils ont des milliers d’années. Les historiens peuvent avoir un nouvel outil puissant dans Ithaca, un modèle d’apprentissage automatique construit par DeepMind qui fait des suppositions étonnamment précises sur les mots manquants et l’emplacement et la date du texte. C’est une application inhabituelle de l’IA, mais qui montre à quel point elle peut être utile en dehors du monde de la technologie.
Le problème des textes anciens incomplets traverse de nombreuses disciplines dans lesquelles les experts travaillent avec des matériaux dégradés. Le document original peut être fait de pierre, d’argile ou de papyrus, écrit en akkadien, en grec ancien ou en linéaire A, et décrire n’importe quoi, de la facture d’un épicier au voyage d’un héros. Ce qu’ils ont tous en commun, ce sont les dommages accumulés pendant des milliers d’années.
Les lacunes où le texte est usé ou déchiré sont souvent appelées lacunes et peuvent être aussi courtes qu’une lettre manquante ou aussi longues qu’un chapitre, voire une histoire entière. Les remplir peut être trivial ou impossible, mais vous devez commencer quelque part – et c’est là qu’Ithaca est censé vous aider.
Formé sur une immense bibliothèque de textes grecs anciens, Ithaque (du nom de l’île natale d’Ulysse) peut non seulement dire ce qu’est un mot ou une phrase manquante, mais peut également déterminer son âge et l’endroit où il a été écrit. Il ne va pas remplir tout un cycle épique à lui seul – il est censé être un outil pour ceux qui travaillent avec ces textes, pas une solution.
Un article publié dans la revue Nature démontre son efficacité, en prenant comme exemple certains décrets de Periclean Athens. Pensé avoir été écrit vers 445 av. J.-C., Ithaca a suggéré, sur la base de son analyse textuelle, qu’ils dataient en fait de 420 av. J.-C. environ – conformément à des preuves plus récentes. Cela peut ne pas sembler beaucoup, mais imaginez si la Déclaration des droits a été écrite 20 ans plus tard !
Quant au texte lui-même, les experts de l’étude l’ont obtenu à environ 25 % dès le premier passage ; pas exactement stellaire, même si bien sûr la restauration de texte n’est pas censée être une alouette de l’après-midi mais un projet à long terme. Associés à Ithaca, cependant, ils ont rapidement atteint une précision de 72 %. C’est souvent le cas dans d’autres situations où les humains sont finalement plus précis mais peuvent accélérer leur processus en éliminant rapidement les impasses ou en suggérant un point de départ. Dans les données médicales, il peut être facile de surveiller une anomalie que l’IA pourrait signaler rapidement – mais en fin de compte, c’est l’expertise humaine qui perçoit les détails et trouve la bonne réponse.
Vous pouvez tester une version simplifiée d’Ithaca ici, si vous avez sous la main un texte grec ancien truffé de lacunes, ou utiliser l’un de leurs exemples fournis pour voir comment il comble les lacunes demandées. Pour les pièces plus longues ou plus de 10 lettres manquantes, essayez-les dans ce carnet Colab. Le code est disponible sur cette page GitHub.
Bien que le grec ancien soit un domaine évident et fructueux dans lequel Ithaca peut commencer, l’équipe travaille déjà dur sur d’autres langues également. L’akkadien, le démotique, l’hébreu et le maya sont tous sur la liste, et j’espère que d’autres seront ajoutés au fil du temps.
« Ithaca illustre la contribution potentielle du traitement du langage naturel et de l’apprentissage automatique dans les sciences humaines », a déclaré Ion Androutsopoulos, professeur à l’Université d’Athènes qui a travaillé sur le projet. « Nous avons besoin de plus de projets comme Ithaca pour mettre davantage en valeur ce potentiel, mais aussi de cours et de matériel pédagogique adaptés pour former les futurs chercheurs qui auront une meilleure compréhension conjointe des sciences humaines et des méthodes d’IA. »