Gemini 1.5 Pro de Google est un nouveau modèle d’IA plus efficace

Jeudi, Google a dévoilé Gemini 1.5 Pro, que la société décrit comme offrant des « performances considérablement améliorées » par rapport au modèle précédent. La trajectoire de l’IA de l’entreprise – considérée en interne comme de plus en plus critique pour son avenir – fait suite au dévoilement de Gemini 1.0 Ultra la semaine dernière, parallèlement au changement de marque du chatbot Bard (en Gemini) pour s’aligner sur les capacités plus puissantes et plus polyvalentes du nouveau modèle.

Dans un article de blog d’annonce, Sundar Pichai, PDG de Google, et Demis Hassabis, PDG de Google DeepMind, tentent d’assurer à leur public la sécurité éthique de l’IA tout en vantant les capacités d’évolution rapide de leurs modèles. « Nos équipes continuent de repousser les limites de nos derniers modèles en mettant la sécurité au cœur », a résumé Pichai.

L’entreprise doit mettre l’accent sur la sécurité auprès des sceptiques de l’IA (dont un ancien PDG de Google) et des régulateurs gouvernementaux. Mais il doit également souligner les performances accélérées de ses modèles pour les développeurs d’IA, les clients potentiels et les investisseurs inquiets que l’entreprise ait été trop lente à réagir au succès éclatant d’OpenAI avec ChatGPT.

Pichai et Hassabis affirment que Gemini 1.5 Pro offre des résultats comparables à Gemini 1.0 Ultra. Cependant, Gemini 1.5 fonctionne à ce niveau plus efficacement, avec des exigences de calcul réduites. Les capacités multimodales incluent le traitement de texte, d’images, de vidéos, d’audio ou de code. À mesure que les modèles d’IA progressent, ils continueront d’offrir une gamme plus polyvalente de fonctionnalités dans une seule boîte de dialogue (un autre exemple récent est celui de l’intégration par OpenAI de la génération d’images DALL-E 3 dans ChatGPT).

Alphabet Inc. et le PDG de Google, Sundar Pichai, assistent à l'inauguration d'un hub d'intelligence artificielle (IA) de Google à Paris le 15 février 2024. (Photo d'ALAIN JOCARD / AFP) (Photo d'ALAIN JOCARD/AFP via Getty Images)

Sundar Pichai, PDG de Google (ALAIN JOCARD via Getty Images)

Gemini 1.5 Pro peut également gérer jusqu’à un million de jetons, ou les unités de données que les modèles d’IA peuvent traiter en une seule requête. Google affirme que Gemini 1.5 Pro peut traiter plus de 700 000 mots, une heure de vidéo, 11 heures d’audio et des bases de code avec plus de 30 000 lignes de code. La société affirme avoir même « testé avec succès » une version prenant en charge jusqu’à 10 millions de jetons.

La société affirme que Gemini 1.5 Pro maintient une grande précision dans les requêtes avec un plus grand nombre de jetons lorsqu’elle a plus de nouvelles données à apprendre. Il indique que le modèle a été impressionné par l’évaluation Needle In a Haystack. Dans ce test, les développeurs insèrent une petite information dans un long bloc de texte pour voir si le modèle d’IA peut la détecter. Google a déclaré que Gemini 1.5 Pro pouvait trouver le texte intégré 99 % du temps dans des blocs de données pouvant contenir jusqu’à un million de jetons.

Google affirme que Gemini 1.5 Pro peut raisonner sur divers détails des transcriptions de 402 pages de la mission lunaire Apollo 11. De plus, il peut analyser les points de l’intrigue et les événements d’un film muet de 44 minutes mis en ligne avec Buster Keaton. « Comme la longue fenêtre contextuelle de 1.5 Pro est la première du genre parmi les modèles à grande échelle, nous développons continuellement de nouvelles évaluations et références pour tester ses nouvelles capacités », a écrit Hassabis.

Google lance Gemini 1.5 Pro avec des capacités de 128 000 jetons, le même nombre auquel les modèles GPT-4 d’OpenAI (annoncés publiquement) atteignent leur maximum. Hassabis affirme que Google introduira à terme de nouveaux niveaux de tarification prenant en charge jusqu’à un million de requêtes de jetons.

NEW YORK, NEW YORK - 02 MAI : Demis Hassabis participe au festival Future of Everything 2023 du WSJ aux Spring Studios le 02 mai 2023 à New York.  (Photo de Joy Malone/Getty Images)NEW YORK, NEW YORK - 02 MAI : Demis Hassabis participe au festival Future of Everything 2023 du WSJ aux Spring Studios le 02 mai 2023 à New York.  (Photo de Joy Malone/Getty Images)

Demis Hassabis, PDG de Google DeepMind (Joy Malone via Getty Images)

Gemini 1.5 Pro est également capable d’acquérir de nouvelles compétences à partir d’informations contenues dans de longues invites, sans ajustement supplémentaire (« apprentissage en contexte »). Dans le cadre d’un test appelé Machine Translation from One Book, le modèle a appris un manuel de grammaire pour le Kalamang, une langue comptant moins de 200 locuteurs dans le monde et sur laquelle il n’avait jamais été formé auparavant. La société affirme que Gemini 1.5 Pro a appris à fonctionner à un niveau similaire à celui d’un humain apprenant le même contenu lors de la traduction de l’anglais vers le Kalamang.

Dans une partie de l’annonce qui attirera l’attention des développeurs, Google indique que Gemini 1.5 Pro peut effectuer des tâches de résolution de problèmes sur des blocs de code plus longs. « Lorsqu’on lui donne une invite contenant plus de 100 000 lignes de code, il peut mieux raisonner à travers des exemples, suggérer des modifications utiles et donner des explications sur le fonctionnement des différentes parties du code », a écrit Hassabis.

Sur le plan de l’éthique et de la sécurité, Google affirme adopter « la même approche en matière de déploiement responsable » qu’avec les modèles Gemini 1.0. Cela inclut le développement et l’application de techniques de red-teaming, dans lesquelles un groupe de développeurs éthiques servent essentiellement d’avocat du diable, testant « une gamme de dommages potentiels ». En outre, la société affirme qu’elle examine attentivement des domaines tels que la sécurité du contenu et les atteintes à la représentation. L’entreprise affirme continuer à développer de nouveaux tests d’éthique et de sécurité pour ses outils d’IA.

Google lance Gemini 1.5 en accès anticipé pour les développeurs et les entreprises clientes. La société prévoit de le rendre plus largement disponible à terme. Gemini 1.0 est actuellement disponible pour les consommateurs, aux côtés d’une variante Pro qui coûte 20 $ par mois.

Source-145