Après que les entreprises chinoises aient perdu l’accès aux GPU de calcul de pointe A100 et H100 de Nvidia, qui peuvent être utilisés pour former divers modèles d’IA, elles ont dû trouver des moyens de les former sans utiliser le matériel le plus avancé. Pour compenser le manque de GPU puissants, les développeurs de modèles d’IA chinois simplifient plutôt leurs programmes pour réduire les exigences et utilisent tout le matériel de calcul qu’ils peuvent obtenir en combinaison, rapporte le Wall Street Journal.
Nvidia ne peut pas vendre ses GPU de calcul A100 et H100 à des entités chinoises comme Alibaba ou Baidu sans obtenir une licence d’exportation du département américain du Commerce (et toute demande serait presque certainement refusée). Nvidia a donc développé des processeurs A800 et H800 qui offrent des performances réduites et sont dotés de capacités NVLink handicapées, ce qui limite la capacité de construire des systèmes multi-GPU hautes performances traditionnellement nécessaires pour former des modèles d’IA à grande échelle.
Par exemple, le modèle de langage à grande échelle derrière ChatGPT d’OpenAI nécessite de 5 000 à 10 000 GPU A100 de Nvidia pour s’entraîner, selon les estimations des analystes d’UBS, rapporte le WSJ. Étant donné que les développeurs chinois n’ont pas accès aux A100, ils utilisent des A800 et H800 moins performants en combinaison pour obtenir quelque chose qui s’apparente aux performances des GPU plus performants de Nvidia, selon Yang You, professeur à l’Université nationale de Singapour et fondateur de HPC -Technologie IA. En avril, Tencent a introduit un nouveau cluster informatique utilisant les H800 de Nvidia pour la formation de modèles d’IA à grande échelle. Cette approche peut être coûteuse, car les entreprises chinoises pourraient avoir besoin de trois fois plus de H800 que leurs homologues américaines auraient besoin de H100 pour des résultats similaires.
En raison des coûts élevés et de l’incapacité d’obtenir physiquement tous les GPU dont ils ont besoin, les entreprises chinoises ont conçu des méthodes pour former des modèles d’IA à grande échelle sur différents types de puces, ce que les entreprises basées aux États-Unis font rarement en raison de défis techniques et de problèmes de fiabilité. Par exemple, des entreprises comme Alibaba, Baidu et Huawei ont exploré l’utilisation de combinaisons des A100, V100 et P100 de Nvidia et des Ascends de Huawei, selon des documents de recherche examinés par le WSJ.
Bien qu’il existe de nombreuses entreprises en Chine développant des processeurs pour les charges de travail d’IA, leur matériel n’est pas pris en charge par des plates-formes logicielles robustes telles que CUDA de Nvidia, c’est pourquoi les machines basées sur de telles puces seraient « sujets à l’écrasement ».
En outre, les entreprises chinoises ont également été plus agressives en combinant diverses techniques logicielles pour réduire les exigences de calcul de la formation de modèles d’IA à grande échelle, une approche qui n’a pas encore gagné du terrain à l’échelle mondiale. Malgré les défis et les améliorations en cours, les chercheurs chinois ont connu un certain succès dans ces méthodes.
Dans un article récent, les chercheurs de Huawei ont démontré la formation de leur grand modèle de langage de dernière génération, PanGu-Σ, en utilisant uniquement des processeurs Ascend et sans GPU de calcul Nvidia. Malgré quelques lacunes, le modèle a atteint des performances de pointe dans quelques tâches en chinois, telles que la compréhension de la lecture et les tests de grammaire.
Les analystes avertissent que les chercheurs chinois seront confrontés à des difficultés accrues sans accès à la nouvelle puce H100 de Nvidia, qui comprend une fonctionnalité supplémentaire d’amélioration des performances particulièrement utile pour la formation de modèles de type ChatGPT. Pendant ce temps, un article publié l’année dernière par le laboratoire Baidu et Peng Cheng a démontré que les chercheurs entraînaient de grands modèles de langage en utilisant une méthode qui pourrait rendre la fonctionnalité supplémentaire non pertinente.
« Si cela fonctionne bien, ils peuvent effectivement contourner les sanctions », aurait déclaré Dylan Patel, analyste en chef chez SemiAnalysis.