Google s’emballe. Après des années d’adoration résolue du faux dieu Virtual Assistant, la société précipite sa stratégie d’IA alors que ses concurrents joignent leurs mains et lèvent leurs fourches. L’ironie est que tout se passe parce que Google pensait avoir accaparé le marché de la fourche.
Voyez, en 2017, les chercheurs de Google ont publié l’article « L’attention est tout ce dont vous avez besoin », introduisant le concept du transformateur et améliorant considérablement les capacités des modèles d’apprentissage automatique. Vous n’avez pas besoin d’en connaître l’aspect technique (et en effet ce n’est pas moi qui vous l’apprends), mais cela a été extrêmement influent et stimulant ; qu’il suffise de dire que c’est le T dans GPT.
Vous vous demandez peut-être pourquoi Google a-t-il donné gratuitement cette merveilleuse chose ? Alors que les grandes entreprises de recherche privées ont été critiquées dans le passé pour avoir retenu leurs travaux, la tendance de ces dernières années a été à la publication. C’est un jeu de prestige et aussi une concession aux chercheurs eux-mêmes, qui préfèrent que leur employeur ne cache pas leur lumière sous le boisseau. Il y a probablement aussi un élément d’orgueil : ayant inventé la technologie, comment Google pourrait-il ne pas l’exploiter au mieux ?
Les capacités que nous voyons dans ChatGPT et d’autres grands modèles de langage aujourd’hui n’ont pas immédiatement suivi. Il faut du temps pour comprendre et tirer parti d’un nouvel outil, et chaque grande entreprise technologique s’est mise au travail pour examiner ce que la nouvelle ère de l’IA pourrait apporter et ce dont elle avait besoin pour le faire.
Assister l’assistante
Il ne fait aucun doute que Google se consacrait au travail de l’IA comme tout le monde. Au cours des années suivantes, il a fait de sérieux progrès dans la conception de matériel de calcul d’IA, a construit des plates-formes utiles pour que les développeurs testent et développent des modèles d’apprentissage automatique et a publié des tonnes d’articles sur tout, des ajustements de modèles ésotériques à des choses plus reconnaissables comme la synthèse vocale.
Mais il y avait un problème. J’ai entendu cela de manière anecdotique de la part d’employés de Google et d’autres acteurs du secteur, mais il y a une sorte d’aspect féodal dans le fonctionnement de l’entreprise : placer votre projet sous les auspices d’un produit majeur existant, comme Maps ou Assistant, est un moyen fiable pour obtenir de l’argent et du personnel. Il semble donc qu’en dépit d’avoir accumulé bon nombre des meilleurs chercheurs en IA au monde, leur talent a été canalisé dans les ornières de la stratégie d’entreprise.
Allons-nous voir comment cela s’est passé? Voici une petite chronologie (certes sélective):
En 2018, ils ont présenté des améliorations progressives du flux de Google Assistant, des photos (des choses comme la colorisation d’images monochromes), un affichage intelligent avec une « première version visuelle de l’assistant » (l’avez-vous déjà vu ?), Assistant in Maps, assisté par l’IA Google News et (à leur crédit) MLKit.
En 2019, un écran intelligent rebaptisé et plus grand, des résultats de recherche AR, des cartes AR, des mises à jour Google Lens, Duplex pour le Web (rappelez-vous Duplex ?), un assistant Google compressé qui fait plus localement, un assistant dans Waze, un assistant en mode conduite, en direct sous-titrage et relais en direct (reconnaissance vocale) et un projet pour mieux comprendre les personnes ayant des troubles de la parole.
Pour être sûr, certaines de ces choses sont excellentes! La plupart, cependant, n’étaient qu’une chose existante, mais avec un coup de pouce de l’IA. Beaucoup se sentent un peu grincer des dents rétrospectivement. Vous voyez vraiment à quel point les grandes entreprises comme Google agissent sous l’emprise des tendances et les pilotent.
Pendant ce temps, en février de cette année-là, nous avions également le titre : « OpenAI a construit un générateur de texte si bon qu’il est considéré comme trop dangereux à publier ». C’était GPT-2. Pas 3, pas 3,5… 2.
En 2020, Google a créé un clone Pinterest alimenté par l’IA, puis a renvoyé en décembre Timnit Gebru, l’une des principales voix de l’éthique de l’IA, pour un article soulignant les limites et les dangers de la technologie.
Pour être juste, 2020 n’a pas été une bonne année pour beaucoup de gens – à l’exception notable d’OpenAI, dont le co-fondateur Sam Altman a dû tasser personnellement le battage médiatique pour GPT-3 parce qu’il avait dépassé des niveaux tenables.
2021 a vu le lancement du propre grand modèle de langage de Google, LaMDA, bien que les démos ne l’aient pas vraiment vendu. Vraisemblablement, ils cherchaient toujours une raison pour que cela existe au-delà du fait que l’Assistant lance moins d’erreurs.
OpenAI a commencé l’année en présentant DALL-E, la première version du modèle texte-image qui allait bientôt devenir un nom familier. Ils avaient commencé à montrer que les LLM, grâce à des systèmes comme CLIP, peuvent effectuer plus que des tâches linguistiques et agissent plutôt comme un moteur d’interprétation et de génération polyvalent. (Pour être clair, je ne veux pas dire « intelligence générale artificielle » ou AGI, juste que le processus a fonctionné pour plus qu’une collection prédéfinie de commandes verbales.)
En 2022, plus d’ajustements à l’Assistant, plus d’affichages intelligents, plus de RA dans Maps et une acquisition de 100 millions de dollars d’images de profil générées par l’IA. OpenAI a publié DALL-E 2 en avril et ChatGPT en décembre.
À un moment donné, je suppose qu’au début de 2022, les dirigeants de Google ont ouvert les yeux et ce qu’ils ont vu leur a fait peur. J’imagine la scène du Seigneur des Anneaux où Denethor regarde enfin les armées rassemblées du Mordor. Mais au lieu de perdre la tête et d’être mis en scène par un sorcier, ces vice-présidents frénétiques ont envoyé des e-mails demandant pourquoi une startup pert courait des cercles autour du leader mondial de l’IA. Surtout après avoir pratiquement inventé les moyens de le faire.
La preuve en est la sortie d’Imagen un mois après DALL-E 2, bien que, comme pratiquement toutes les autres recherches intéressantes sur l’IA publiées par Google, personne ne puisse la tester, et encore moins se connecter à une API. Puis, après que Meta a publié Make-A-Video en septembre, Google a répondu avec Imagen Video une semaine plus tard. Riffusion a fait des vagues pour générer de la musique, et un mois plus tard, voici MusicLM (que vous ne pouvez pas utiliser).
Mais c’est sûrement ChatGPT qui a amené la direction de Google à passer rapidement de l’anxiété à la sueur totale.
Il aurait été clair pour toutes les personnes impliquées que ce type d’IA conversationnelle était catégoriquement différent des produits Assistant dans lesquels Google avait investi depuis une décennie, et était en fait faire ce que les pseudo-IA de tout le monde (en fait, juste des interfaces en langage naturel pour une collection d’API) prétendu pour. C’est ce qu’on appelle une menace existentielle.
Fortune ou prévoyance ?
Maintenant, c’était déjà assez grave que quelqu’un d’autre, un parvenu immunisé contre l’acquisition, ait déclenché la prochaine phase d’évolution du moteur de recherche, et qu’il l’ait fait d’une manière très publique qui a captivé l’imagination de tout le monde, des leaders de l’industrie aux techno-évitant. Le vrai coup de couteau est venu de façon inattendue de Microsoft.
Appeler Bing un « rival » de Google Search est peut-être trop généreux – avec environ 3% de la recherche mondiale par rapport aux 92% de Google, Bing est plus un taon bien nanti. Microsoft semble avoir abandonné toute illusion sur la capacité de Bing à améliorer sa position et a cherché de l’aide à l’extérieur de sa propre maison. Que leur investissement dans OpenAI ait été une prévoyance surnaturelle ou un heureux hasard, à un moment donné, il est devenu clair qu’ils avaient soutenu un cheval rapide.
Peut-être que dans une pièce enfumée, Satya Nadella et Sam Altman ont conspiré pour exclure Google de leur nouvel ordre mondial, mais en public, la conversation a pris la forme d’argent, et beaucoup. Quelle que soit la trame de fond, Microsoft avait assuré son allégeance au nouveau venu innovant et, avec lui, la possibilité de mettre sa technologie à l’œuvre là où elle ferait le plus de bien.
Bien que nous ayons vu des idées intéressantes sur la façon dont l’IA générative peut aider à la productivité, au codage et même à la gestion, elles n’ont pas encore été prouvées, soit en raison de problèmes de droits d’auteur, soit en raison de la tendance de l’IA à être un peu trop « créative » dans ses réponses. Mais avec des garde-corps appropriés, il était clairement très bon pour synthétiser des informations pour répondre à presque toutes les questions, des simples questions factuelles aux questions philosophiques complexes.
La recherche combinait le besoin d’innovation de Microsoft pour aller de l’avant avec une compétence de base de grands modèles de langage, qui, par hasard ou par bon sens, venait d’aligner le premier créateur mondial de comme partenaire. La décision d’intégrer le dernier modèle GPT (certains l’appellent GPT-4, mais je soupçonne qu’OpenAI réservera ce surnom à son propre modèle propriétaire) avec Bing et Edge est une sorte de grêle forcée, son dernier et meilleur jeu en le monde des moteurs de recherche.
Google, clairement secoué, a tenté une campagne de spoiler avec un article de blog vide la veille de la programmation par Microsoft de son grand événement annonçant le Bing alimenté par OpenAI. Bard, apparemment le nom du concurrent ChatGPT basé sur LaMDA de Google, a été dévoilé de manière désormais généralement épargnée. Des promesses de capacités et pas de dates précises ni de plans d’accès.
Cette tentative d’annonce semble avoir été faite dans une telle hâte que son contenu a été à peine mentionné lors de l’événement « Search and AI » de Google deux jours plus tard, et en effet, il a également échappé au type de vérification des faits que vous voudriez faire si vous annonçaient l’avenir du graphe de connaissances. L’image utilisée pour illustrer Bard contenait une erreur non triviale, disant que le télescope spatial James Webb « a pris les toutes premières images d’une planète en dehors de notre système solaire ». C’est faux, et le fait que cette intelligence artificielle tant vantée se soit trompée, et que personne chez Google ne l’ait remarqué ou ne se soucie suffisamment de vérifier, semble avoir effrayé les investisseurs.
ChatGPT a certainement des problèmes, et en effet immédiatement après le déploiement de Bing amélioré de Microsoft, TechCrunch a pu obtenir l’IA soi-disant sûre et appropriée pour improviser un essai d’Hitler, puis régurgiter la désinformation sur le vaccin qu’une version antérieure d’elle-même a écrite le mois dernier. Mais ce sont des imperfections sur un dossier établi qui comprend des milliards d’invites et de conversations servies, à la grande satisfaction de ses utilisateurs.
Google se précipite et trébuche si visiblement sur un manque de préparation, même à un niveau expérimental limité – sans parler d’un déploiement mondial comme celui que Microsoft a déjà commencé.
Dans son appel aux investisseurs, le PDG Sundar Pichai a déclaré: «Je pense que je vois cela comme une chance de repenser, de réimaginer et de conduire la recherche pour résoudre davantage de cas d’utilisation pour nos utilisateurs également. Ce n’est que le début, mais vous nous verrez faire preuve d’audace, publier des choses, obtenir des commentaires, itérer et améliorer les choses. » Cela ressemble-t-il à un homme avec un plan?
Il est compréhensible que Google ne veuille pas abattre la poule aux œufs d’or en fusionnant prématurément Search avec n’importe quel LLM à usage général à moitié cuit dont ils disposent. Ils sont devenus des experts dans le déploiement d’IA hautement spécialisées, des modèles de tâches qui font une ou deux choses. Mais lorsqu’il s’agit de faire un grand pas, leur position confortable les accable d’inertie.
Est-ce la chute de Google ? Bien sûr que non, elle restera la valeur par défaut et une société fabuleusement rentable, quelque peu ridicule, dans un avenir immédiat. Mais la confiance des investisseurs a été ébranlée car il s’avère que l’échec de Google à innover de manière significative au cours des dernières années n’a peut-être pas été dû à la sagesse et à la confiance, mais à la réticence et à la fierté. (La FTC et la justice qui tentent de nouveau leur activité publicitaire ne peuvent pas non plus aider.)
Ce tour de ver n’en est cependant qu’à ses premiers degrés, et il ne faut pas trop spéculer alors que la technologie en question n’a pas encore fait ses preuves aussi valable que tout le monde veut le croire. Si ce n’est pas le cas, c’est toute l’industrie technologique qui en subira les conséquences, pas seulement Google.