Google a annoncé aujourd’hui le lancement de son nouveau modèle de langage large Gemini (LLM) et avec cela, la société a également lancé son nouveau Cloud TPU v5p, une version mise à jour de son Cloud TPU v5e, qui a été lancé en disponibilité générale plus tôt cette année. Un pod v5p se compose d’un total de 8 960 puces et est soutenu par l’interconnexion la plus rapide de Google à ce jour, avec jusqu’à 4 800 Gpbs par puce.
Il n’est pas surprenant que Google promette que ces puces sont nettement plus rapides que les TPU v4. L’équipe affirme que le v5p présente une amélioration de 2 fois les FLOPS et une amélioration de 3 fois de la mémoire à large bande passante. C’est un peu comme comparer le nouveau modèle Gemini à l’ancien modèle OpenAI GPT 3.5. Google lui-même, après tout, a déjà avancé l’état de l’art au-delà du TPU v4. À bien des égards, cependant, les pods v5e étaient un peu en retrait par rapport au pod v4, avec seulement 256 puces v5e par pod contre 4096 dans les pods v4 et un total de 197 TFLOP en virgule flottante 16 bits par puce v5e contre 275 pour les puces v4. Pour le nouveau v5p, Google promet jusqu’à 459 TFLOP de performances en virgule flottante 16 bits, soutenues par une interconnexion plus rapide.
Google affirme que tout cela signifie que le TPU v5p peut entraîner un grand modèle de langage comme GPT3-175B 2,8 fois plus rapidement que le TPU v4 – et le faire également de manière plus rentable (bien que le TPU v5e, bien que plus lent, offre en réalité des performances relatives plus élevées). par dollar que le v5p).
« Lors de nos premières utilisations, Google DeepMind et Google Research ont observé des accélérations 2 fois supérieures pour les charges de travail de formation LLM utilisant des puces TPU v5p par rapport aux performances de notre génération TPU v4 », écrit Jeff Dean, scientifique en chef, Google DeepMind et Google Research. « La prise en charge robuste des frameworks ML (JAX, PyTorch, TensorFlow) et des outils d’orchestration nous permet d’évoluer encore plus efficacement sur la v5p. Avec la 2e génération de SparseCores, nous constatons également une amélioration significative des performances des charges de travail lourdes en intégration. Les TPU sont essentiels pour permettre nos efforts de recherche et d’ingénierie à plus grande échelle sur des modèles de pointe comme Gemini.
Le nouveau TPU v5p n’est pas encore disponible pour tous, les développeurs devront donc contacter leur responsable de compte Google pour figurer sur la liste.