La place d’OpenAI au sommet de l’IA générative pourrait toucher à sa fin alors que Google a officiellement présenté mercredi son grand modèle de langage le plus performant à ce jour, baptisé Gemini 1.0. Il s’agit du premier d’une « nouvelle génération de modèles d’IA, inspirés par la façon dont les gens comprennent et interagissent avec le monde », a écrit le PDG Sundar Pichai dans un article de blog de Google.
« Depuis que j’ai programmé l’IA pour les jeux informatiques lorsque j’étais adolescent, et tout au long de mes années en tant que chercheur en neurosciences essayant de comprendre le fonctionnement du cerveau, j’ai toujours pensé que si nous pouvions construire des machines plus intelligentes, nous pourrions les exploiter au profit de l’humanité dans le monde. de manière incroyable », a poursuivi Pichai.
Fruit d’une collaboration approfondie entre les divisions DeepMind et Research de Google, Gemini possède toutes les fonctionnalités que les genAI de pointe ont à offrir. « Ses capacités sont à la pointe de la technologie dans presque tous les domaines », a déclaré Pichai.
Le système a été développé dès le départ en tant qu’IA multimodale intégrée. De nombreux modèles fondamentaux peuvent être essentiellement constitués de groupes de modèles plus petits, tous empilés dans un trench-coat, chaque modèle individuel étant formé pour remplir sa fonction spécifique en tant que partie d’un tout plus vaste. C’est très bien pour les fonctions superficielles comme la description d’images, mais pas tellement pour les tâches de raisonnement complexes.
Google, à l’inverse, a pré-entraîné et affiné Gemini, « dès le départ sur différentes modalités », lui permettant de « comprendre et raisonner de manière transparente sur toutes sortes d’entrées à partir de la base, bien mieux que les modèles multimodaux existants », a déclaré Pichai. Être capable de prendre en compte toutes ces formes de données à la fois devrait aider les Gémeaux à fournir de meilleures réponses sur des sujets plus difficiles, comme la physique.
Les Gémeaux peuvent également coder. Il maîtriserait les langages de programmation populaires, notamment Python, Java, C++ et Go. Google a même exploité une version spécialisée de Gemini pour créer AlphaCode 2, le successeur de l’IA générative lauréate du concours de l’année dernière. Selon la société, AlphaCode 2 a résolu deux fois plus de questions de défi que son prédécesseur, ce qui placerait ses performances au-dessus d’environ 85 pour cent des participants au concours précédent.
Bien que Google n’ait pas immédiatement partagé le nombre de paramètres que Gemini peut utiliser, la société a vanté la flexibilité opérationnelle du modèle et sa capacité à fonctionner dans des formats allant des grands centres de données aux appareils mobiles locaux. Pour accomplir cet exploit de transformation, Gemini est disponible en trois tailles : Nano, Pro et Ultra.
Sans surprise, Nano est le plus petit du trio et conçu principalement pour les tâches sur l’appareil. Pro est la prochaine étape, une offre plus polyvalente que Nano, et sera bientôt intégrée à de nombreux produits existants de Google, y compris Bard.
À partir de mercredi, Bard commencera à utiliser une version spécialement optimisée de Pro qui, selon Google, offrira « un raisonnement, une planification, une compréhension plus avancés et bien plus encore ». Le chatbot Bard amélioré sera disponible dans les mêmes 170 pays et territoires que le Bard classique, et la société aurait l’intention d’étendre la disponibilité de la nouvelle version à mesure que nous avançons jusqu’en 2024. L’année prochaine, avec l’arrivée de Gemini Ultra, Google le fera également. présentez Bard Advanced, une IA encore plus puissante avec des fonctionnalités supplémentaires.
Les capacités de Pro seront également accessibles via des appels API via Google AI Studio ou Google Cloud Vertex AI. Search (en particulier SGE), Ads, Chrome et Duet AI verront également la fonctionnalité Gemini intégrée à leurs fonctionnalités dans les mois à venir.
Gemini Ultra ne sera pas disponible avant au moins 2024, car il nécessiterait des tests supplémentaires de la part de l’équipe rouge avant d’être autorisé à être publié afin de « sélectionner des clients, des développeurs, des partenaires et des experts en sécurité et responsabilité » pour les tests et les commentaires. Mais lorsqu’il arrivera, Ultra promet d’être incroyablement puissant pour le développement ultérieur de l’IA.