L’algorithme qui pourrait nous emmener dans l’esprit de Shakespeare

Le dramaturge a toujours été une contradiction. Malgré sa présence palpable, il est fondamentalement insaisissable. Les preuves historiques de sa vie sont négligeables : il y a une volonté qui le rend seulement plus difficile à comprendre – quel genre d’homme laisse sa femme son « deuxième meilleur lit » ? – et une poignée d’autres enregistrements, également à moitié significatifs; nous ne connaissons même pas la date exacte de sa naissance. La seule façon de connaître Shakespeare est à travers ses œuvres, et ses œuvres sont des bourbiers textuels.

Shakespeare était un auteur dramatique de son époque et, tout comme les scénaristes de notre époque, il a fait appel à d’autres écrivains pour l’aider dans ses pièces et a aidé d’autres écrivains avec les leurs. Le Folio, publié en 1623, contient la plupart des œuvres de Shakespeare que nous connaissons, mais pas toutes. De son vivant, des quartos, de petits livres de poche vendus dans la rue comme des livres de poche, ont été publiés, sans sa permission ou son approbation, dans des éditions piratées.

Le résultat est une confusion permanente. Dans le cas de « Hamlet », il existe trois versions de la pièce : le premier quarto, publié en 1603, le deuxième quarto, publié entre 1604 et 1605, et le folio de 1623. Dans le premier quarto, parfois appelé le «mauvais quarto», le fameux discours « Être ou ne pas être » commence ainsi :

Être ou ne pas être, c’est l’essentiel,
Mourir, dormir, c’est tout ? Oui à tous :
Non, pour dormir, pour rêver, oui marier ça y va.

Personne ne veut croire que Shakespeare a écrit cette merde. C’est le Second Quarto et le Folio beaucoup plus tardif qui fournissent le discours plus familier « Être ou ne pas être, telle est la question ». Mais même entre les deux versions les plus agréables au goût, il existe des différences significatives. Si le verset disait : « Pour qui supporterait les fouets et les mépris du temps, / Les oppresseurs ont tort, l’homme orgueilleux est méprisé, / Les affres de l’amour méprisé, le retard de la loi » (Second Quarto), ou « Pour qui supporterait les fouets et les mépris du temps, / Les oppresseurs ont tort, les pauvres hommes avec mépris, / Les affres de l’amour dispriz’d, les Lawes retardent » ? (Folio). Il y a une grande différence entre l’amour méprisé et l’amour méprisé, et entre le mépris d’un homme fier et celui d’un homme pauvre. C’est l’un des passages les plus connus de toute la littérature profane, et personne ne sait avec certitude comment il doit être lu, quels acteurs doivent réciter, ce que les savants doivent étudier. C’est gênant.

Chaque version de Shakespeare que vous avez jamais lue est le résultat de siècles de débats, principalement des arguments sur le style ou le contexte historique, développés grâce à l’étude approfondie et minutieuse dans laquelle j’ai été initié. Les modes informatiques de l’analyse de Shakespeare sont presque aussi anciens que l’informatique elle-même. La technique stylométrique classique, commencée à la fin des années 1980, consistait à tabuler la fréquence relative des « mots de fonction » — des mots comme « par » et « vous » et « à partir de » — puis de comparer leur nombre d’un manuscrit à l’autre. La forme la plus sophistiquée d’analyse stylométrique à ce jour a été le WAN, ou réseaux d’adjacence de mots, qui enregistrent la fréquence et la proximité des mots de fonction les uns par rapport aux autres. Ces deux applications ont été controversées mais largement efficaces. Les éditions New Oxford Shakespeare attribuées «Henri VI» à une collaboration avec Christopher Marlowe sur la base d’une analyse WAN.

Cohere fonctionne à un tout autre niveau. Il ne nécessite pas l’identification de mots ou d’expressions de fonction. Il convertit simplement le langage en probabilités logarithmiques. Vous créez un algorithme de Shakespeare. Vous introduisez chacune des trois versions différentes de « To be, or not to be » et sortez les numéros de pop : -3.6788540925266906 pour le premier quarto, -3.179199017199017 pour le deuxième quarto et -3.4799767386091127 pour le folio. Plus le nombre est proche de zéro, plus le modèle pense que la séquence est probable. Et les réponses de Cohere sont parfaitement logiques – du bon sens en tout cas. « Contumement » signifie insolence. Ne serait-il pas plus probable que ce soit un homme fier agissant de manière insultante ?

source site