Google tente de faire des vagues avec Gemini, sa suite phare de modèles, d’applications et de services d’IA générative.
Alors, qu’est-ce que les Gémeaux ? Comment pouvez-vous l’utiliser? Et comment se situe-t-il par rapport à la concurrence ?
Pour vous permettre de suivre plus facilement les derniers développements de Gemini, nous avons élaboré ce guide pratique, que nous tiendrons à jour au fur et à mesure de la publication de nouveaux modèles, fonctionnalités et actualités Gemini sur les projets de Google pour Gemini.
Qu’est-ce que les Gémeaux ?
Gemini est la famille de modèles GenAI de nouvelle génération de Google, promise depuis longtemps, développée par les laboratoires de recherche en IA de Google, DeepMind et Google Research. Il se décline en trois saveurs :
- Gémeaux Ultrale modèle Gemini le plus performant.
- Gémeaux Proun modèle Gemini « allégé ».
- Gémeaux Nanoun modèle « distillé » plus petit qui fonctionne sur des appareils mobiles comme le Pixel 8 Pro.
Tous les modèles Gemini ont été formés pour être « nativement multimodaux », c’est-à-dire capables de travailler et d’utiliser plus que de simples mots. Ils ont été pré-formés et peaufinés sur une variété d’audio, d’images et de vidéos, un large ensemble de bases de code et de textes dans différentes langues.
Cela distingue Gemini des modèles tels que le LaMDA de Google, qui a été formé exclusivement sur des données textuelles. LaMDA ne peut pas comprendre ou générer autre chose que du texte (par exemple, des essais, des brouillons d’e-mails), mais ce n’est pas le cas avec les modèles Gemini.
Quelle est la différence entre les applications Gemini et les modèles Gemini ?
Google, prouvant une fois de plus son manque de talent en matière de branding, n’a pas précisé dès le départ que Gemini était séparé et distinct des applications Gemini sur le Web et sur mobile (anciennement Bard). Les applications Gemini sont simplement une interface via laquelle certains modèles Gemini sont accessibles – considérez-les comme un client pour GenAI de Google.
Soit dit en passant, les applications et les modèles Gemini sont également totalement indépendants d’Imagen 2, le modèle de conversion texte-image de Google disponible dans certains outils et environnements de développement de l’entreprise.
Que peuvent faire les Gémeaux ?
Les modèles Gemini étant multimodaux, ils peuvent en théorie effectuer une gamme de tâches multimodales, de la transcription de la parole au sous-titrage d’images et de vidéos en passant par la génération d’œuvres d’art. Certaines de ces fonctionnalités ont déjà atteint le stade du produit (nous y reviendrons plus tard), et Google les promet toutes – et plus encore – à un moment donné dans un avenir pas trop lointain.
Bien sûr, il est un peu difficile de croire l’entreprise sur parole.
Google a sérieusement sous-livré le lancement original de Bard. Et plus récemment, il a ébranlé les plumes avec une vidéo prétendant montrer les capacités de Gemini qui s’est avérée avoir été fortement trafiquée et était plus ou moins ambitieuse.
Néanmoins, en supposant que Google soit plus ou moins véridique dans ses affirmations, voici ce que les différents niveaux de Gemini pourront faire une fois qu’ils auront atteint leur plein potentiel :
Gémeaux Ultra
Google affirme que Gemini Ultra, grâce à sa multimodalité, peut être utilisé pour faciliter des tâches telles que les devoirs de physique, résoudre des problèmes étape par étape sur une feuille de calcul et signaler d’éventuelles erreurs dans les réponses déjà remplies.
Gemini Ultra peut également être appliqué à des tâches telles que l’identification d’articles scientifiques pertinents pour un problème particulier, explique Google : extraire des informations de ces articles et « mettre à jour » un graphique à partir d’un en générant les formules nécessaires pour recréer le graphique avec des données plus récentes. .
Gemini Ultra prend techniquement en charge la génération d’images, comme mentionné précédemment. Mais cette fonctionnalité n’a pas encore été intégrée à la version produit du modèle, peut-être parce que le mécanisme est plus complexe que la manière dont des applications telles que ChatGPT génèrent des images. Plutôt que de transmettre des invites à un générateur d’images (comme DALL-E 3, dans le cas de ChatGPT), Gemini génère des images « nativement », sans étape intermédiaire.
Gemini Ultra est disponible sous forme d’API via Vertex AI, la plate-forme de développement d’IA entièrement gérée de Google, et AI Studio, l’outil Web de Google pour les développeurs d’applications et de plates-formes. Il alimente également les applications Gemini, mais pas gratuitement. L’accès à Gemini Ultra via ce que Google appelle Gemini Advanced nécessite un abonnement au forfait Google One AI Premium, au prix de 20 $ par mois.
Le plan AI Premium connecte également Gemini à votre compte Google Workspace plus large : pensez aux e-mails dans Gmail, aux documents dans Docs, aux présentations dans Sheets et aux enregistrements Google Meet. C’est utile, par exemple, pour résumer des e-mails ou pour que Gemini capture des notes lors d’un appel vidéo.
Gémeaux Pro
Google affirme que Gemini Pro constitue une amélioration par rapport à LaMDA dans ses capacités de raisonnement, de planification et de compréhension.
Une étude indépendante menée par les chercheurs de Carnegie Mellon et BerriAI a révélé que la version initiale de Gemini Pro était effectivement meilleure que le GPT-3.5 d’OpenAI pour gérer des chaînes de raisonnement plus longues et plus complexes. Mais l’étude a également révélé que, comme tous les grands modèles de langage, cette version de Gemini Pro était particulièrement confrontée à des problèmes mathématiques impliquant plusieurs chiffres, et les utilisateurs ont trouvé des exemples de mauvais raisonnements et d’erreurs évidentes.
Google a cependant promis des solutions – et la première est arrivée sous la forme de Gemini 1.5 Pro.
Conçu pour être un remplacement immédiat, Gemini 1.5 Pro est amélioré dans un certain nombre de domaines par rapport à son prédécesseur, peut-être de manière plus significative dans la quantité de données qu’il peut traiter. Gemini 1.5 Pro peut contenir environ 700 000 mots ou environ 30 000 lignes de code, soit 35 fois la quantité que Gemini 1.0 Pro peut gérer. Et – le modèle étant multimodal – il ne se limite pas au texte. Gemini 1.5 Pro peut analyser jusqu’à 11 heures d’audio ou une heure de vidéo dans une variété de langues différentes, bien que lentement (par exemple, la recherche d’une scène dans une vidéo d’une heure prend 30 secondes à une minute de traitement).
Gemini 1.5 Pro est entré en préversion publique sur Vertex AI en avril.
Un point de terminaison supplémentaire, Gemini Pro Vision, peut traiter du texte et des images – y compris des photos et des vidéos – et du texte de sortie sur le modèle du modèle GPT-4 avec Vision d’OpenAI.
Dans Vertex AI, les développeurs peuvent personnaliser Gemini Pro en fonction de contextes et de cas d’utilisation spécifiques à l’aide d’un processus de réglage fin ou de « mise à la terre ». Gemini Pro peut également être connecté à des API tierces externes pour effectuer des actions particulières.
Dans AI Studio, il existe des flux de travail pour créer des invites de discussion structurées à l’aide de Gemini Pro. Les développeurs ont accès aux points de terminaison Gemini Pro et Gemini Pro Vision, et ils peuvent ajuster la température du modèle pour contrôler la plage créative de la sortie et fournir des exemples pour donner des instructions de ton et de style – et également ajuster les paramètres de sécurité.
Gémeaux Nano
Gemini Nano est une version beaucoup plus petite des modèles Gemini Pro et Ultra, et il est suffisamment efficace pour s’exécuter directement sur (certains) téléphones au lieu d’envoyer la tâche à un serveur quelque part. Jusqu’à présent, il alimente quelques fonctionnalités sur le Pixel 8 Pro, le Pixel 8 et le Samsung Galaxy S24, notamment Résumer dans l’enregistreur et Réponse intelligente dans Gboard.
L’application Recorder, qui permet aux utilisateurs d’appuyer sur un bouton pour enregistrer et transcrire de l’audio, comprend un résumé alimenté par Gemini de vos conversations, interviews, présentations et autres extraits enregistrés. Les utilisateurs reçoivent ces résumés même s’ils ne disposent pas d’un signal ou d’une connexion Wi-Fi – et, dans un souci de confidentialité, aucune donnée ne quitte leur téléphone au cours du processus.
Gemini Nano est également présent dans Gboard, l’application clavier de Google. Là, il alimente une fonctionnalité appelée Smart Reply, qui permet de suggérer la prochaine chose que vous voudrez dire lors d’une conversation dans une application de messagerie. La fonctionnalité ne fonctionne initialement qu’avec WhatsApp, mais s’étendra à davantage d’applications au fil du temps, indique Google.
Et dans l’application Google Messages sur les appareils pris en charge, Nano active Magic Compose, qui peut créer des messages dans des styles tels que « excité », « formel » et « lyrique ».
Gemini est-il meilleur que le GPT-4 d’OpenAI ?
Google a vanté à plusieurs reprises la supériorité de Gemini sur les benchmarks, affirmant que Gemini Ultra dépasse les résultats de pointe actuels sur « 30 des 32 benchmarks académiques largement utilisés dans la recherche et le développement de grands modèles de langage ». La société affirme que Gemini 1.5 Pro, quant à lui, est plus capable de tâches telles que la synthèse de contenu, le brainstorming et l’écriture que Gemini Ultra dans certains scénarios ; Vraisemblablement, cela changera avec la sortie du prochain modèle Ultra.
Mais en laissant de côté la question de savoir si les benchmarks indiquent réellement un meilleur modèle, les scores indiqués par Google ne semblent que légèrement meilleurs que les modèles correspondants d’OpenAI. Et – comme mentionné précédemment – certaines premières impressions n’ont pas été excellentes, les utilisateurs et les universitaires soulignant que l’ancienne version de Gemini Pro a tendance à se tromper sur les faits de base, à avoir des difficultés avec les traductions et à donner de mauvaises suggestions de codage.
Combien coûte Gémeaux ?
Gemini 1.5 Pro est gratuit et peut être utilisé dans les applications Gemini et, pour l’instant, AI Studio et Vertex AI.
Cependant, une fois que Gemini 1.5 Pro aura quitté l’aperçu dans Vertex, le modèle coûtera 0,0025 USD par caractère, tandis que la sortie coûtera 0,00005 USD par caractère. Les clients Vertex paient pour 1 000 caractères (environ 140 à 250 mots) et, dans le cas de modèles comme Gemini Pro Vision, par image (0,0025 $).
Supposons qu’un article de 500 mots contienne 2 000 caractères. Résumer cet article avec Gemini 1.5 Pro coûterait 5 $. Pendant ce temps, générer un article d’une longueur similaire coûterait 0,1 $.
Le prix Ultra n’a pas encore été annoncé.
Où pouvez-vous essayer les Gémeaux ?
Gémeaux Pro
L’endroit le plus simple pour découvrir Gemini Pro est dans les applications Gemini. Pro et Ultra répondent aux requêtes dans plusieurs langues.
Gemini Pro et Ultra sont également accessibles en avant-première dans Vertex AI via une API. L’API est libre d’utilisation « dans certaines limites » pour le moment et prend en charge certaines régions, dont l’Europe, ainsi que des fonctionnalités telles que la fonctionnalité de chat et le filtrage.
Ailleurs, Gemini Pro et Ultra peuvent être trouvés dans AI Studio. Grâce au service, les développeurs peuvent parcourir les invites et les chatbots basés sur Gemini, puis obtenir des clés API pour les utiliser dans leurs applications – ou exporter le code vers un IDE plus complet.
Code Assist (anciennement Duet AI for Developers), la suite d’outils d’assistance basés sur l’IA de Google pour la complétion et la génération de code, utilise des modèles Gemini. Les développeurs peuvent effectuer des modifications « à grande échelle » dans les bases de code, par exemple en mettant à jour les dépendances entre fichiers et en révisant de gros morceaux de code.
Google a intégré les modèles Gemini à ses outils de développement pour la plate-forme de développement mobile Chrome et Firebase, ainsi qu’à ses outils de création et de gestion de bases de données. Et il a lancé de nouveaux produits de sécurité soutenus par Gemini, comme Gemini dans Threat Intelligence, un composant de la plateforme de cybersécurité Mandiant de Google qui peut analyser de grandes parties de code potentiellement malveillant et permettre aux utilisateurs d’effectuer des recherches en langage naturel pour détecter les menaces en cours ou les indicateurs de compromission.