Google tente de faire des vagues avec Gemini, une nouvelle plateforme d’IA générative qui a récemment fait ses débuts. Mais si les Gémeaux semblent prometteurs sur certains aspects, ils ne sont pas à la hauteur sur d’autres. Alors, qu’est-ce que les Gémeaux ? Comment pouvez-vous l’utiliser? Et comment se situe-t-il par rapport à la concurrence ?
Pour vous permettre de suivre plus facilement les derniers développements Gemini, nous avons élaboré ce guide pratique, que nous tiendrons à jour au fur et à mesure de la sortie de nouveaux modèles et fonctionnalités Gemini.
Qu’est-ce que les Gémeaux ?
Gemini est la famille de modèles d’IA générative de nouvelle génération de Google, développée depuis longtemps par les laboratoires de recherche en IA de Google, DeepMind et Google Research. Il se décline en trois saveurs :
- Gémeaux Ultrale modèle phare du Gemini
- Gémeaux Proun modèle Gemini « allégé »
- Gémeaux Nanoun modèle « distillé » plus petit qui fonctionne sur des appareils mobiles comme le Pixel 8 Pro
Tous les modèles Gemini ont été formés pour être « nativement multimodaux » – en d’autres termes, capables de travailler avec et d’utiliser plus que du simple texte. Ils ont été pré-formés et affiné sur une variété d’audio, d’images et de vidéos, un large ensemble de bases de code et du texte dans différentes langues.
Cela distingue Gemini des modèles tels que le grand modèle de langage LaMDA de Google, qui n’a été formé que sur des données textuelles. LaMDA ne peut pas comprendre ou générer autre chose que du texte (par exemple des essais, des brouillons de courrier électronique, etc.) – mais ce n’est pas le cas des modèles Gemini. Leur capacité à comprendre les images, le son et d’autres modalités est encore limitée, mais c’est mieux que rien.
Quelle est la différence entre Barde et Gémeaux ?
Google, prouvant une fois de plus son manque de talent en matière de branding, n’a pas précisé dès le départ que Gemini était séparé et distinct de Bard. Bard est simplement une interface à travers laquelle certains modèles Gemini sont accessibles – considérez-le comme une application ou un client pour Gemini et d’autres modèles d’IA de génération. Gemini, en revanche, est une famille de modèles, et non une application ou une interface. Il n’existe pas d’expérience Gemini autonome, et il n’y en aura probablement jamais. Si vous comparez aux produits OpenAI, Bard correspond à ChatGPT, l’application d’IA conversationnelle populaire d’OpenAI, et Gemini correspond au modèle de langage qui l’alimente, qui dans le cas de ChatGPT est GPT-3.5 ou 4.
Par ailleurs, Gemini est également totalement indépendant d’Imagen-2, un modèle de conversion texte-image qui peut ou non s’intégrer dans la stratégie globale d’IA de l’entreprise. Ne vous inquiétez pas, vous n’êtes pas le seul à être confus par cela !
Que peuvent faire les Gémeaux ?
Les modèles Gemini étant multimodaux, ils peuvent en théorie effectuer toute une série de tâches, de la transcription de discours au sous-titrage d’images et de vidéos en passant par la génération d’œuvres d’art. Peu de ces fonctionnalités ont encore atteint le stade du produit (nous y reviendrons plus tard), mais Google les promet toutes – et plus encore – dans un avenir pas trop lointain.
Bien sûr, il est un peu difficile de croire l’entreprise sur parole.
Google a sérieusement sous-estimé le lancement initial de Bard. Et plus récemment, il a ébranlé les plumes avec une vidéo prétendant montrer les capacités de Gemini qui s’est avérée avoir été fortement trafiquée et était plus ou moins ambitieuse. Gémeaux estau crédit du géant de la technologie, disponible sous une forme aujourd’hui – mais sous une forme plutôt limitée.
Néanmoins, en supposant que Google soit plus ou moins véridique dans ses affirmations, voici ce que les différents niveaux de modèles Gemini pourront faire une fois publiés :
Gémeaux Ultra
Peu de gens ont mis la main sur Gemini Ultra, le modèle « de base » sur lequel les autres sont construits jusqu’à présent – juste un « ensemble sélectionné » de clients répartis dans une poignée d’applications et de services Google. Cela ne changera que plus tard cette année, lorsque le plus grand modèle de Google sera lancé plus largement. La plupart des informations sur Ultra proviennent de démonstrations de produits dirigées par Google, il est donc préférable de les prendre avec des pincettes.
Google affirme que Gemini Ultra peut être utilisé pour faciliter des tâches telles que les devoirs de physique, résoudre des problèmes étape par étape sur une feuille de calcul et signaler d’éventuelles erreurs dans les réponses déjà remplies. Gemini Ultra peut également être appliqué à des tâches telles que l’identification d’articles scientifiques pertinents pour un problème particulier, explique Google – en extrayant des informations de ces articles et en « mettant à jour » un graphique à partir d’un en générant les formules nécessaires pour recréer le graphique avec des données plus récentes.
Gemini Ultra prend techniquement en charge la génération d’images, comme mentionné précédemment. Mais cette fonctionnalité ne sera pas intégrée à la version produit du modèle au lancement, selon Google, peut-être parce que le mécanisme est plus complexe que la manière dont des applications telles que ChatGPT génèrent des images. Plutôt que de transmettre des invites à un générateur d’images (comme DALL-E 3, dans le cas de ChatGPT), Gemini génère des images « nativement » sans étape intermédiaire.
Gémeaux Pro
Contrairement à Gemini Ultra, Gemini Pro est aujourd’hui disponible publiquement. Mais ce qui prête à confusion, c’est que ses capacités dépendent de l’endroit où il est utilisé.
Google affirme qu’à Bard, où Gemini Pro a été lancé pour la première fois sous forme de texte uniquement, le modèle constitue une amélioration par rapport à LaMDA dans ses capacités de raisonnement, de planification et de compréhension. Une étude indépendante menée par les chercheurs de Carnegie Mellon et BerriAI a révélé que Gemini Pro est effectivement meilleur que GPT-3.5 d’OpenAI pour gérer des chaînes de raisonnement plus longues et plus complexes.
Mais l’étude a également révélé que, comme tous les grands modèles de langage, Gemini Pro est particulièrement confronté à des problèmes mathématiques impliquant plusieurs chiffres, et les utilisateurs ont trouvé de nombreux exemples de mauvais raisonnements et d’erreurs. Il a commis de nombreuses erreurs factuelles pour des requêtes simples comme celle de savoir qui a remporté les derniers Oscars. Google a promis des améliorations, mais on ne sait pas quand elles arriveront.
Gemini Pro est également disponible via l’API dans Vertex AI, la plate-forme de développement d’IA entièrement gérée de Google, qui accepte le texte en entrée et génère du texte en sortie. Un point de terminaison supplémentaire, Gemini Pro Vision, peut traiter du texte et des images – y compris des photos et des vidéos – et du texte de sortie sur le modèle du modèle GPT-4 avec Vision d’OpenAI.
Dans Vertex AI, les développeurs peuvent personnaliser Gemini Pro en fonction de contextes et de cas d’utilisation spécifiques à l’aide d’un processus de réglage fin ou de « mise à la terre ». Gemini Pro peut également être connecté à des API tierces externes pour effectuer des actions particulières.
Au « début 2024 », les clients de Vertex pourront utiliser Gemini Pro pour alimenter des agents conversationnels vocaux et de chat personnalisés (c’est-à-dire des chatbots). Gemini Pro deviendra également une option pour piloter les fonctionnalités de synthèse de recherche, de recommandation et de génération de réponses dans Vertex AI, en s’appuyant sur des documents selon différentes modalités (par exemple, PDF, images) provenant de différentes sources (par exemple, OneDrive, Salesforce) pour répondre aux requêtes.
Dans AI Studio, l’outil Web de Google destiné aux développeurs d’applications et de plates-formes, il existe des flux de travail permettant de créer des invites de forme libre, structurées et de discussion à l’aide de Gemini Pro. Les développeurs ont accès aux points de terminaison Gemini Pro et Gemini Pro Vision, et ils peuvent ajuster la température du modèle pour contrôler la plage créative de la sortie et fournir des exemples pour donner des instructions de ton et de style – et également ajuster les paramètres de sécurité.
Gémeaux Nano
Gemini Nano est une version beaucoup plus petite des modèles Gemini Pro et Ultra, et il est suffisamment efficace pour s’exécuter directement sur (certains) téléphones au lieu d’envoyer la tâche à un serveur quelque part. Jusqu’à présent, il alimente deux fonctionnalités du Pixel 8 Pro : résumer dans l’enregistreur et réponse intelligente dans Gboard.
L’application Recorder, qui permet aux utilisateurs d’appuyer sur un bouton pour enregistrer et transcrire de l’audio, comprend un résumé alimenté par Gemini de vos conversations, interviews, présentations et autres extraits enregistrés. Les utilisateurs reçoivent ces résumés même s’ils ne disposent pas d’un signal ou d’une connexion Wi-Fi – et, dans un souci de confidentialité, aucune donnée ne quitte leur téléphone au cours du processus.
Gemini Nano est également présent dans Gboard, l’application clavier de Google, en tant qu’aperçu pour les développeurs. Là, il alimente une fonctionnalité appelée Smart Reply, qui permet de suggérer la prochaine chose que vous voudrez dire lors d’une conversation dans une application de messagerie. La fonctionnalité ne fonctionne initialement qu’avec WhatsApp, mais sera disponible dans davantage d’applications en 2024, indique Google.
Gemini est-il meilleur que le GPT-4 d’OpenAI ?
Il n’y a aucun moyen de savoir comment la famille Gémeaux vraiment s’accumule jusqu’à ce que Google publie Ultra plus tard cette année, mais la société a revendiqué des améliorations de l’état de l’art, qui est généralement le GPT-4 d’OpenAI.
Google a vanté à plusieurs reprises la supériorité de Gemini sur les benchmarks, affirmant que Gemini Ultra dépasse les résultats de pointe actuels sur « 30 des 32 benchmarks académiques largement utilisés dans la recherche et le développement de grands modèles de langage ». La société affirme que Gemini Pro, quant à lui, est plus capable de tâches telles que la synthèse de contenu, le brainstorming et la rédaction que GPT-3.5.
Mais en laissant de côté la question de savoir si les benchmarks indiquent réellement un meilleur modèle, les scores indiqués par Google ne semblent que légèrement meilleurs que les modèles correspondants d’OpenAI. Et – comme mentionné précédemment – certaines premières impressions n’ont pas été excellentes, les utilisateurs et les universitaires soulignant que Gemini Pro a tendance à se tromper sur les faits de base, à avoir des difficultés avec les traductions et à donner de mauvaises suggestions de codage.
Combien coûtera le Gémeaux ?
Gemini Pro est gratuit dans Bard et, pour l’instant, dans AI Studio et Vertex AI.
Cependant, une fois que Gemini Pro aura quitté l’aperçu dans Vertex, le modèle coûtera 0,0025 USD par caractère, tandis que la sortie coûtera 0,00005 USD par caractère. Les clients Vertex paient pour 1 000 caractères (environ 140 à 250 mots) et, dans le cas de modèles comme Gemini Pro Vision, par image (0,0025 $).
Supposons qu’un article de 500 mots contienne 2 000 caractères. Résumer cet article avec Gemini Pro coûterait 5 $. Entre-temps, générateur un article de longueur similaire coûterait 0,1 $.
Où pouvez-vous essayer les Gémeaux ?
Gémeaux Pro
L’endroit le plus simple pour découvrir Gemini Pro est à Bard. Une version affinée de Pro répond actuellement aux requêtes textuelles de Bard en anglais aux États-Unis, avec des langues supplémentaires et des pays pris en charge qui devraient arriver ultérieurement.
Gemini Pro est également accessible en avant-première dans Vertex AI via une API. L’API est libre d’utilisation « dans certaines limites » pour le moment et prend en charge 38 langues et régions, dont l’Europe, ainsi que des fonctionnalités telles que la fonctionnalité de chat et le filtrage.
Ailleurs, Gemini Pro peut être trouvé dans AI Studio. Grâce au service, les développeurs peuvent parcourir les invites et les chatbots basés sur Gemini, puis obtenir des clés API pour les utiliser dans leurs applications – ou exporter le code vers un IDE plus complet.
Duet AI for Developers, la suite d’outils d’assistance basés sur l’IA de Google pour la complétion et la génération de code, commencera à utiliser un modèle Gemini dans les semaines à venir. Et Google prévoit d’intégrer les modèles Gemini aux outils de développement pour Chrome et sa plate-forme de développement mobile Firebase à peu près au même moment, début 2024.
Gémeaux Nano
Gemini Nano est sur le Pixel 8 Pro – et sera disponible sur d’autres appareils à l’avenir. Les développeurs souhaitant intégrer le modèle dans leurs applications Android peuvent s’inscrire pour un aperçu.
Nous garderons cet article au courant des derniers développements.