Le prisonnier qui a révolutionné le langage avec une tasse de thé

Zhi se sentit grandement encouragé. Son travail solitaire se déroulait parallèlement à ces efforts plus vastes. La plupart d’entre eux, cependant, n’avaient toujours pas réussi à se libérer des claviers encombrants. Bien que la décomposition des caractères en composants ait suffisamment fonctionné pour des index de récupération de caractères spécifiques et des conceptions de clavier de machine à écrire, cela ne s’est pas traduit directement par la programmation d’un tel processus pour une machine informatique.

Zhi s’est souvenu de l’avantage de l’approche basée sur la forme, où les parties du personnage aidaient à identifier directement le personnage entier. Pour intégrer ce principe utile dans son schéma de codage, Zhi a décidé d’indexer les caractères par leurs composants – les caractères les plus simples de chaque idéogramme – en utilisant la première lettre de l’orthographe pinyin de chaque composant.

L’idée a mis encore deux ans à se concrétiser. En moyenne, les caractères peuvent être divisés en deux à quatre composants, et il y a 300 à 400 composants au total. La majorité des caractères peuvent être divisés en deux moitiés, verticales ou horizontales, ainsi que d’autres géométries possibles. Cela a donné un code alphabétique de deux à quatre lettres pour chaque caractère, ce qui signifie que chaque caractère nécessitait au plus quatre frappes sur un clavier anglais conventionnel. La longueur moyenne des mots anglais, en comparaison, est proche de 4,8 lettres. Zhi a ainsi fait fonctionner l’alphabet plus efficacement pour les idéogrammes individuels que pour l’anglais. Le système a également intelligemment contourné le problème de la différence dialectale et des homophones. Parce que le code ne prenait que la première lettre, plutôt que le son complet du caractère, la plupart des variations régionales du discours n’avaient pas d’importance. Le code à quatre lettres fonctionnait comme un acronyme des différentes parties du personnage. Zhi a essentiellement utilisé l’alphabet comme proxy pour épeler par composants plutôt que par mots.

Il a séquencé les composants de chaque personnage dans l’ordre où ils auraient été écrits à la main. Le codage par composants a fourni un contexte et des indices importants qui ont réduit l’ambiguïté et le risque de codes en double. Les chances d’avoir les mêmes composants – ou même des composants commençant par la même lettre – se produisent exactement dans le même ordre dans deux caractères différents sont faibles.

La façon dont Zhi indexait le caractère chinois par ses composants alphabétiques facilitait la saisie du chinois par les humains – tant que vous saviez écrire la langue – et a créé une interface homme-machine plus systématique. Par exemple, dans son système, le caractère pour « route », 路 (lu), qui a 13 coups à la main, peut être décomposé en seulement quatre composants : 口 (kou) , 止 (zhi), 攵 (pu) et 口 (kou). L’isolement de la première lettre de chaque composant donne le code de caractère de KZPK. Ou prenez le caractère 吴 (wu), un nom de famille commun, qui peut être rapidement décomposé en deux parties, 口 (kou) et 天 (tian), produisant un code de caractère de KT.

L’orthographe alphabétique, autrefois médiatisée par le chinois de cette manière, n’est plus un système d’orthographe phonétique mais sémantique, où chaque lettre représente en fait un caractère plutôt qu’un son. Cette méthode d’indexation peut également être étendue pour représenter des groupes de caractères. Prenons, par exemple, le « socialisme » ou Shehui Zhuyi: 社会主义. En étiquetant la première lettre de chacun des quatre caractères de la phrase, la phrase peut être codée dans une séquence de quatre lettres, SHZY. Ou considérez une autre expression fréquemment invoquée, les sept caractères qui composent la « République populaire de Chine » – Zhonghua renmin gongheguo : 中华人民共和国. Il peut simplement être saisi sous la forme ZHRMGHG.

Source-144