Trop de modèles

Combien de modèles d’IA, c’est trop ? Cela dépend de la façon dont vous voyez les choses, mais 10 par semaine, c’est probablement un peu trop. C’est à peu près le nombre de modèles que nous avons vus se déployer ces derniers jours, et il est de plus en plus difficile de dire si et comment ces modèles se comparent les uns aux autres, si cela était possible au départ. Alors à quoi ça sert ?

Nous sommes à une période étrange dans l’évolution de l’IA, même si, bien sûr, cela a été assez étrange tout le temps. Nous assistons à une prolifération de modèles, petits et grands, depuis les développeurs de niche jusqu’aux grands développeurs bien financés.

Passons en revue la liste de cette semaine, d’accord ? J’ai essayé de condenser ce qui distingue chaque modèle.

  • LLaMa-3 : le dernier modèle de grand langage phare « ouvert » de Meta. (Le terme « ouvert » est actuellement contesté, mais ce projet est malgré tout largement utilisé par la communauté.)
  • Mistral 8×22 : Un modèle « mélange d’experts », plutôt grand, d’une société française qui a eu peur de l’ouverture qu’elle avait autrefois adoptée.
  • Stable Diffusion 3 Turbo : un SD3 mis à niveau pour aller avec la nouvelle API ouverte de Stability. Emprunter « turbo » à la nomenclature des modèles d’OpenAI est un peu bizarre, mais OK.
  • Adobe Acrobat AI Assistant : « Parlez à vos documents » du gorille des documents de 800 livres. Cependant, je suis presque sûr qu’il s’agit principalement d’un wrapper pour ChatGPT.
  • Reka Core : issu d’une petite équipe anciennement employée par Big AI, un modèle multimodal élaboré à partir de zéro qui est au moins nominalement compétitif par rapport aux grands chiens.
  • Idefics2 : Un modèle multimodal plus ouvert, construit sur les modèles récents et plus petits de Mistral et Google.
  • OLMo-1.7-7B : Une version plus grande du LLM d’AI2, parmi les plus ouvertes du marché, et un tremplin vers un futur modèle à l’échelle 70B.
  • Pile-T5 : une version de l’ancien modèle T5 fiable affiné sur la base de données de codes Pile. Le même T5 que vous connaissez et aimez, mais avec un meilleur codage.
  • Cohere Compass : un « modèle d’intégration » (si vous ne le savez pas déjà, ne vous inquiétez pas) axé sur l’intégration de plusieurs types de données pour couvrir davantage de cas d’utilisation.
  • Imagine Flash : le dernier modèle de génération d’images de Meta, s’appuyant sur une nouvelle méthode de distillation pour accélérer la diffusion sans trop compromettre la qualité.
  • Illimité: « Une IA personnalisée alimentée par ce que vous avez vu, dit ou entendu. jeIl s’agit d’une application Web, d’une application Mac, d’une application Windows et d’un appareil portable. 😬

Cela fait 11, car un a été annoncé au moment où j’écrivais ceci. Et ce ne sont pas tous les modèles sortis ou présentés en avant-première cette semaine ! Ce sont juste ceux que nous avons vus et discutés. Si l’on assouplissait un peu les conditions d’inclusion, il y en aurait des dizaines : des modèles existants peaufinés, des combos comme Idefics 2, des expérimentaux ou de niche, etc. Sans parler des nouveaux outils de cette semaine pour construire (torchtune) et lutter contre (Glaze 2.0) l’IA générative !

Que penser de cette avalanche sans fin ? Nous ne pouvons pas tous les « examiner ». Alors, comment pouvons-nous vous aider, vous, nos lecteurs, à comprendre et à suivre toutes ces choses ?

La vérité est que vous n’avez pas besoin de suivre le rythme. Certains modèles comme ChatGPT et Gemini ont évolué vers des plates-formes Web entières, couvrant plusieurs cas d’utilisation et points d’accès. D’autres grands modèles de langage comme LLaMa ou OLMo — bien qu’ils partagent techniquement une architecture de base — ne remplissent pas réellement le même rôle. Ils sont destinés à vivre en arrière-plan en tant que service ou composant, et non au premier plan en tant que marque.

Il existe une confusion délibérée entre ces deux choses, car les développeurs des modèles veulent emprunter un peu de la fanfare associée aux versions majeures des plates-formes d’IA, comme votre GPT-4V ou Gemini Ultra. Tout le monde veut que vous pensiez que leur libération est importante. Et même si c’est probablement important pour quelqu’un, cette personne n’est certainement pas vous.

Pensez-y dans le sens d’une autre catégorie vaste et diversifiée comme les voitures. Lorsqu’ils ont été inventés, vous veniez d’acheter « une voiture ». Puis, un peu plus tard, vous pourrez choisir entre une grosse voiture, une petite voiture et un tracteur. De nos jours, des centaines de voitures sont commercialisées chaque année, mais vous n’avez probablement pas besoin d’en connaître une sur dix, car neuf sur dix ne sont pas une voiture dont vous avez besoin ni même une voiture au sens où vous l’entendez. De la même manière, nous passons de l’ère de l’IA grand/petit/tracteur à l’ère de la prolifération, et même les spécialistes de l’IA ne peuvent pas suivre et tester tous les modèles qui sortent.

L’autre côté de cette histoire est que nous en étions déjà à cette étape bien avant la sortie de ChatGPT et des autres grands modèles. Beaucoup moins de gens lisaient à ce sujet il y a 7 ou 8 ans, mais nous en avons néanmoins parlé car il s’agissait clairement d’une technologie qui attendait son moment décisif. Des articles, des modèles et des recherches étaient constamment publiés, et des conférences comme SIGGRAPH et NeurIPS étaient remplies d’ingénieurs en apprentissage automatique comparant leurs notes et s’appuyant sur les travaux de chacun. Voici une histoire de compréhension visuelle que j’ai écrite en 2011 !

Cette activité se poursuit chaque jour. Mais parce que l’IA est devenue une grande entreprise – sans doute la plus importante dans le domaine de la technologie à l’heure actuelle – ces développements ont pris un peu plus de poids, car les gens sont curieux de savoir si l’un d’entre eux pourrait constituer un saut aussi important par rapport à ChatGPT que ChatGPT par rapport à ses prédécesseurs.

La simple vérité est qu’aucun de ces modèles ne constituera une telle avancée, puisque l’avancée d’OpenAI repose sur un changement fondamental de l’architecture d’apprentissage automatique que toutes les autres entreprises ont maintenant adopté et qui n’a pas été remplacé. Des améliorations incrémentielles comme un point ou deux de mieux sur un benchmark synthétique, ou un langage ou des images légèrement plus convaincants, sont tout ce que nous avons à espérer pour le moment.

Cela signifie-t-il qu’aucun de ces modèles n’a d’importance ? Certainement. Vous ne pouvez pas passer de la version 2.0 à la version 3.0 sans les versions 2.1, 2.2, 2.2.1, etc. Et parfois, ces avancées sont significatives, corrigent de graves lacunes ou révèlent des vulnérabilités inattendues. Nous essayons de couvrir les plus intéressants, mais cela ne représente qu’une fraction du nombre total. Nous travaillons actuellement sur un article rassemblant tous les modèles que nous pensons que les curieux de ML devraient connaître, et c’est de l’ordre d’une douzaine.

Ne vous inquiétez pas : quand un gros problème arrive, vous le saurez, et pas seulement parce que TechCrunch le couvre. Cela va être aussi évident pour vous que pour nous.

Source-146