Mercredi, Google a annoncé Gemini, une famille de modèles d’IA multimodaux qui, espère-t-il, rivalisera avec le GPT-4 d’OpenAI, qui alimente la version payante de ChatGPT. Google affirme que la plus grande version de Gemini dépasse « les résultats de pointe actuels sur 30 des 32 références académiques largement utilisées dans la recherche et le développement de grands modèles de langage (LLM) ». Il s’agit d’un suivi de PaLM 2, un modèle d’IA antérieur dont Google espérait qu’il correspondrait aux capacités de GPT-4.
Une version anglaise spécialement adaptée de son modèle Gemini de niveau intermédiaire est désormais disponible dans plus de 170 pays dans le cadre du chatbot Google Bard, mais pas dans l’UE ou au Royaume-Uni en raison de problèmes de réglementation potentiels.
Comme GPT-4, Gemini peut gérer plusieurs types (ou « modes ») d’entrée, ce qui le rend multimodal. Cela signifie qu’il peut traiter du texte, du code, des images et même de l’audio. L’objectif est de créer un type d’intelligence artificielle capable de résoudre avec précision des problèmes, de donner des conseils et de répondre à des questions dans divers domaines, du plus banal au scientifique. Google affirme que cela alimentera une nouvelle ère informatique et espère intégrer étroitement cette technologie dans ses produits.
« Les capacités de raisonnement multimodal sophistiquées de Gemini 1.0 peuvent aider à donner un sens à des informations écrites et visuelles complexes », écrit Google. « Sa capacité remarquable à extraire des informations de centaines de milliers de documents grâce à la lecture, au filtrage et à la compréhension des informations contribuera à réaliser de nouvelles avancées à la vitesse du numérique dans de nombreux domaines, de la science à la finance. »
Google indique que Gemini sera disponible en trois tailles : Gemini Ultra (« pour les tâches très complexes »), Gemini Pro (« pour s’adapter à un large éventail de tâches ») et Gemini Nano (« pour les tâches sur l’appareil » comme le Pixel 8 de Google. Smartphone Pro). Chacun est probablement séparé en complexité par le nombre de paramètres. Plus de paramètres signifie un réseau neuronal plus grand, généralement plus capable d’exécuter des tâches plus complexes, mais qui nécessite plus de puissance de calcul. Cela signifie que Nano, le plus petit, est conçu pour fonctionner localement sur des appareils grand public, tandis qu’Ultra ne peut fonctionner que sur le matériel du centre de données.
« Ce sont les premiers modèles de l’ère Gemini et la première concrétisation de la vision que nous avions lorsque nous avons créé Google DeepMind plus tôt cette année », a écrit le PDG de Google, Sundar Pichai, dans un communiqué. « Cette nouvelle ère de modèles représente l’un des plus grands efforts scientifiques et techniques que nous ayons entrepris en tant qu’entreprise. Je suis vraiment enthousiasmé par ce qui nous attend et par les opportunités que Gemini offrira aux gens du monde entier. »
Bien que Gemini soit disponible en trois tailles, seul le modèle de niveau intermédiaire est disponible pour un usage public. Comme mentionné ci-dessus, Google Bard exécute désormais une version spécialement optimisée de Gemini Pro. D’après nos tests informels jusqu’à présent, Gemini Pro semble fonctionner bien mieux que la version précédente de Bard, basée sur le modèle de langage PaLM 2 de Google.
Google affirme également que Gemini est plus évolutif et efficace que ses précédents modèles d’IA lorsqu’il est exécuté sur les unités de traitement tensoriel (TPU) personnalisées de Google. « Sur les TPU », déclare Google, « Gemini fonctionne beaucoup plus rapidement que les modèles précédents, plus petits et moins performants ».
Et c’est censé être génial en codage. Google a formé une version spéciale de Gemni centrée sur le codage appelée AlphaCode 2, qui « excelle dans la résolution de problèmes de programmation compétitifs qui vont au-delà du codage pour impliquer des mathématiques complexes et de l’informatique théorique », selon Google. Gemini est également excellent pour gonfler le langage des relations publiques de Google : si les modèles étaient moins performants et révolutionnaires, la copie marketing serait-elle moins essoufflée ? C’est douteux.