Au cours d’une année typique, Cloud Next – l’une des deux grandes conférences annuelles des développeurs de Google, l’autre étant I/O – propose presque exclusivement des produits et services d’API gérés et autrement fermés, fermés et verrouillés. Mais cette année, que ce soit pour favoriser la bonne volonté des développeurs ou pour faire avancer ses ambitions en matière d’écosystème (ou les deux), Google a lancé un certain nombre d’outils open source principalement destinés à soutenir les projets et les infrastructures d’IA générative.
Le premier, MaxDiffusion, que Google a discrètement publié en février, est une collection d’implémentations de référence de divers modèles de diffusion – des modèles comme le générateur d’images Stable Diffusion – qui fonctionnent sur des appareils XLA. «XLA» signifie Accelerated Linear Algebra, un acronyme certes maladroit faisant référence à une technique qui optimise et accélère des types spécifiques de charges de travail d’IA, y compris le réglage fin et le service.
Les propres unités de traitement tensoriel (TPU) de Google sont des appareils XLA, tout comme les GPU Nvidia récents.
Au-delà de MaxDiffusion, Google lance JetStream, un nouveau moteur pour exécuter des modèles d’IA génératifs, en particulier des modèles générateurs de texte (donc pas diffusion stable). Actuellement limité à la prise en charge des TPU avec une compatibilité GPU censée arriver dans le futur, JetStream offre des « performances par dollar » jusqu’à 3 fois supérieures pour des modèles comme le Gemma 7B de Google et le Llama 2 de Meta, affirme Google.
« À mesure que les clients mettent leurs charges de travail d’IA en production, il existe une demande croissante pour une pile d’inférence rentable et offrant des performances élevées », a écrit Mark Lohmeyer, directeur général de l’infrastructure de calcul et d’apprentissage automatique de Google Cloud, dans un article de blog partagé avec TechCrunch. « JetStream répond à ce besoin… et inclut des optimisations pour les modèles ouverts populaires tels que Llama 2 et Gemma. »
Désormais, une amélioration « 3x » est tout à fait une affirmation, et on ne sait pas exactement comment Google est arrivé à ce chiffre. Utiliser quelle génération de TPU ? Par rapport à quel moteur de base ? Et comment la « performance » est-elle définie ici, de toute façon ?
J’ai posé toutes ces questions à Google et je mettrai à jour ce message si j’ai une réponse.
L’avant-dernière liste des contributions open source de Google comprend de nouveaux ajouts à MaxText, la collection de Google de modèles d’IA générateurs de texte ciblant les TPU et les GPU Nvidia dans le cloud. MaxText inclut désormais Gemma 7B, GPT-3 d’OpenAI (le prédécesseur de GPT-4), Llama 2 et des modèles de la startup d’IA Mistral, qui, selon Google, peuvent tous être personnalisés et ajustés aux besoins des développeurs.
« Nous avons fortement optimisé [the models’] performances sur les TPU et a également collaboré étroitement avec Nvidia pour optimiser les performances sur les grands clusters GPU », a déclaré Lohmeyer. « Ces les améliorations maximisent l’utilisation du GPU et du TPU, conduisant à une plus grande efficacité énergétique et à une optimisation des coûts.
Enfin, Google a collaboré avec Hugging Face, la startup d’IA, pour créer Optimum TPU, qui fournit des outils permettant de transférer certaines charges de travail d’IA vers les TPU. L’objectif est de réduire les barrières à l’entrée pour l’intégration de modèles d’IA génératifs sur le matériel TPU, selon Google, en particulier les modèles de génération de texte.
Mais à l’heure actuelle, Optimum TPU est un peu simple. Le seul modèle avec lequel il fonctionne est le Gemma 7B. Et Optimum TPU ne prend pas encore en charge la formation de modèles génératifs sur les TPU, mais uniquement leur exécution.
Les améliorations prometteuses de Google sur toute la ligne.