Meta se lance dans le jeu des superordinateurs avec son AI Research SuperCluster

Il y a une compétition mondiale pour construire les ordinateurs les plus gros et les plus puissants de la planète, et Meta (AKA Facebook) est sur le point de se lancer dans la mêlée avec le « AI Research SuperCluster », ou RSC. Une fois pleinement opérationnel, il pourrait bien figurer parmi les 10 supercalculateurs les plus rapides au monde, qu’il utilisera pour les calculs massifs nécessaires à la modélisation du langage et de la vision par ordinateur.

Les grands modèles d’IA, dont le GPT-3 d’OpenAI est probablement le plus connu, ne sont pas assemblés sur les ordinateurs portables et les ordinateurs de bureau ; ils sont le produit final de semaines et de mois de calculs soutenus par des systèmes informatiques hautes performances qui éclipsent même la plate-forme de jeu la plus avancée. Et plus vite vous pouvez terminer le processus de formation d’un modèle, plus vite vous pouvez le tester et en produire un nouveau et meilleur. Lorsque les temps d’entraînement sont mesurés en mois, cela compte vraiment.

RSC est opérationnel et les chercheurs de l’entreprise le mettent déjà au travail… avec des données générées par les utilisateurs, il faut le dire, bien que Meta ait pris soin de dire qu’elles sont cryptées jusqu’au moment de la formation et que l’ensemble de l’installation est isolée de l’Internet au sens large. .

L’équipe qui a mis en place RSC est à juste titre fière d’avoir réussi presque entièrement à distance – les superordinateurs sont des constructions étonnamment physiques, avec des considérations de base comme la chaleur, le câblage et l’interconnexion affectant les performances et la conception. Les exaoctets de stockage semblent suffisamment volumineux numériquement, mais ils doivent également exister quelque part, sur place et accessibles en une microseconde. (Pure Storage est également fier de la configuration qu’ils ont mise en place pour cela.)

RSC compte actuellement 760 systèmes Nvidia DGX A100 avec un total de 6 080 GPU, ce qui, selon Meta, devrait le mettre approximativement en concurrence avec Perlmutter au Lawrence Berkeley National Lab. C’est le cinquième supercalculateur le plus puissant en activité actuellement, selon le site de classement de longue date Top 500. (Le n ° 1 est Fugaku au Japon de loin, au cas où vous vous poseriez la question.)

Cela pourrait changer à mesure que l’entreprise continue de développer le système. En fin de compte, ils prévoient qu’il soit environ trois fois plus puissant, ce qui le mettrait en théorie en lice pour la troisième place.

Il y a sans doute une mise en garde là-dedans. Des systèmes comme le deuxième Summit du Lawrence Livermore National Lab sont utilisés à des fins de recherche, où la précision est primordiale. Si vous simulez les molécules d’une région de l’atmosphère terrestre à des niveaux de détail sans précédent, vous devez effectuer chaque calcul avec un grand nombre de décimales. Et cela signifie que ces calculs sont plus coûteux en calcul.

Meta a expliqué que les applications d’IA ne nécessitent pas un degré de précision similaire, car les résultats ne dépendent pas de ce millième de pour cent – les opérations d’inférence finissent par produire des choses comme « 90% de certitude c’est un chat », et si ce nombre étaient de 89% ou 91% ne ferait pas une grande différence. La difficulté consiste davantage à atteindre 90 % de certitude pour un million d’objets ou de phrases plutôt qu’une centaine.

C’est une simplification excessive, mais le résultat est que RSC, exécutant le mode mathématique TensorFloat-32, peut obtenir plus de FLOP/s (opérations en virgule flottante par seconde) par cœur que d’autres systèmes plus orientés vers la précision. Dans ce cas, c’est jusqu’à 1 895 000 teraFLOP/s, ou 1,9 exaFLOP/s, plus de 4x Fugaku. Est-ce important? Et si oui, à qui ? Si quelqu’un, cela pourrait être important pour les 500 meilleurs, j’ai donc demandé s’ils avaient des commentaires à ce sujet. Mais cela ne change rien au fait que RSC sera parmi les ordinateurs les plus rapides au monde, peut-être le plus rapide à être exploité par une entreprise privée à ses propres fins.

Source-146