samedi, décembre 28, 2024

Cette semaine en IA : OpenAI joue pour de bon avec les GPT

Suivre le rythme d’un secteur aussi en évolution rapide que l’IA est un défi de taille. En attendant qu’une IA puisse le faire à votre place, voici un tour d’horizon pratique des histoires récentes dans le monde de l’apprentissage automatique, ainsi que des recherches et des expériences notables que nous n’avons pas couvertes seules.

Cette semaine, dans le domaine de l’IA, OpenAI a organisé la première des nombreuses conférences de développeurs à venir. Au cours du discours d’ouverture, la société a présenté une multitude de nouveaux produits, notamment une version améliorée de GPT-4, de nouveaux modèles de synthèse vocale et une API pour le DALL-E 3 générateur d’images, entre autres.

Mais l’annonce la plus marquante a sans aucun doute été celle des GPT.

Les GPT d’OpenAI offrent aux développeurs un moyen de créer leurs propres systèmes d’IA conversationnelle alimentés par les modèles d’OpenAI et de les publier sur un marché hébergé par OpenAI appelé GPT Store. Bientôt, les développeurs pourront même monétiser les GPT en fonction du nombre de personnes qui les utilisent, a déclaré Sam Altman, PDG d’OpenAI, sur scène lors de la conférence.

« Nous pensons que si vous donnez aux gens de meilleurs outils, ils réaliseront des choses incroyables », a déclaré Altman. « Vous pouvez créer un GPT… puis le publier pour que d’autres puissent l’utiliser, et comme ils combinent des instructions, des connaissances approfondies et des actions, ils peuvent vous être plus utiles. »

Le passage d’OpenAI du fournisseur de modèles d’IA à la plate-forme a été intéressant, certes, mais pas vraiment inattendu. La startup a annoncé ses ambitions en mars avec le lancement de plug-ins pour ChatGPT, son chatbot alimenté par l’IA, qui a pour la première fois fait entrer des tiers dans l’écosystème modèle d’OpenAI.

Mais ce qui a pris cet auteur au dépourvu, c’est l’ampleur et la profondeur des outils GPT d’OpenAI qui ont été créés et commercialisés dès le départ.

Mon collègue Devin Coldewey, qui a assisté en personne à la conférence d’OpenAI, me dit que l’expérience GPT était « un peu problématique » dans les démos – mais fonctionne plus ou moins comme annoncé. Les GPT ne nécessitent pas d’expérience en codage et peuvent être aussi simples ou complexes que le souhaite un développeur. Par exemple, un GPT peut être formé sur une collection de livres de cuisine afin de pouvoir poser des questions sur les ingrédients d’une recette spécifique. Un GPT pourrait également ingérer les bases de code propriétaires d’une entreprise afin que les développeurs puissent vérifier leur style ou générer du code conformément aux meilleures pratiques.

Les GPT démocratisent efficacement la création d’applications d’IA générative, du moins pour les applications qui utilisent la famille de modèles d’OpenAI. Et si j’étais les rivaux d’OpenAI – du moins les rivaux sans le soutien des Big Tech – je me précipiterais vers la salle de guerre figurative pour rassembler une réponse.

Les GPT pourraient tuer les cabinets de conseil dont les modèles commerciaux tournent autour de la création de ce qui sont essentiellement des GPT pour les clients. Et pour les clients dotés de talents de développeur, cela pourrait créer des fournisseurs modèles qui ne le faites pas offrir toute forme d’outils de création d’applications est moins attrayante, étant donné la complexité de devoir intégrer les API d’un fournisseur dans les applications et services existants.

Est-ce une bonne chose? Je dirais que pas nécessairement – ​​et je m’inquiète du potentiel de monopole. Mais OpenAI a l’avantage du premier arrivé, et il en tire parti – pour le meilleur ou pour le pire.

Voici quelques autres histoires intéressantes sur l’IA de ces derniers jours :

  • Samsung dévoile l’IA générative : Quelques jours seulement après l’événement de développement d’OpenAI, Samsung a dévoilé sa propre famille d’IA générative, Samsung Gauss, au Samsung AI Forum 2023. Composée de trois modèles : un grand modèle de langage similaire à ChatGPT, un modèle de génération de code et une génération d’images et modèle d’édition — Samsung Gauss est désormais utilisé en interne par le personnel de Samsung, a déclaré la société technologique, et sera disponible pour les utilisateurs publics « dans un avenir proche ».
  • Microsoft offre aux startups un calcul d’IA gratuit : Microsoft a annoncé cette semaine la mise à jour de son programme de démarrage, Microsoft for Startups Founders Hub, pour inclure une option d’infrastructure Azure AI gratuite pour les clusters de machines virtuelles GPU « haut de gamme » basés sur Nvidia afin de former et d’exécuter des modèles génératifs. Y Combinator et sa communauté de fondateurs de startups seront les premiers à accéder aux clusters en avant-première privée, suivis par M12, le fonds de capital-risque de Microsoft et les startups du portefeuille de M12 – et potentiellement d’autres investisseurs et accélérateurs de startups par la suite.
  • YouTube teste les fonctionnalités de l’IA générative : YouTube va bientôt commencer à expérimenter de nouvelles fonctionnalités d’IA générative, la société annoncé cette semaine. Dans le cadre du forfait premium disponible pour les abonnés YouTube payants, les utilisateurs pourront essayer un outil conversationnel qui utilise l’IA pour répondre aux questions sur le contenu de YouTube et faire des recommandations, ainsi qu’une fonctionnalité qui résume les sujets dans les commentaires d’une vidéo.
  • Une interview avec le responsable de la robotique de DeepMind : Brian s’est entretenu avec Vincent Vanhoucke, responsable de la robotique de Google DeepMind, sur les grandes ambitions robotiques de Google. L’interview a abordé une série de sujets, notamment les robots à usage général, l’IA générative et, surtout, le Wi-Fi au bureau.
  • La startup d’IA de Kai-Fu Lee dévoile son modèle : Kai-Fu Lee, l’informaticien connu en Occident pour son best-seller « AI Superpowers » et en Chine pour ses paris sur les licornes IA, gagne du terrain de manière impressionnante avec sa propre startup d’IA, 01.AI. Sept mois après sa création, 01.AI – évalué à 1 milliard de dollars – a lancé son premier modèle, le Yi-34B open source.
  • GitHub présente un plan Copilot personnalisable : GitHub a annoncé cette semaine son intention de proposer un niveau d’abonnement d’entreprise qui permettra aux entreprises d’affiner leur programmeur Copilot en fonction de leur base de code interne. La nouvelle fait partie d’un certain nombre d’informations notables que la société appartenant à Microsoft a révélées mercredi lors de sa conférence annuelle des développeurs GitHub Universe, y compris un nouveau programme de partenariat et fournissant plus de clarté sur le moment où Copilot Chat – la capacité de type chatbot récemment dévoilée de Copilot – sera officiellement disponible.
  • L’équipe modèle de deux personnes de Hugging Face : La startup d’IA Hugging Face propose une large gamme d’outils d’hébergement et de développement pour la science des données. Mais certains des outils les plus impressionnants – et les plus performants – de l’entreprise proviennent aujourd’hui d’une équipe de deux personnes formée en janvier seulement, appelée H4.
  • Mozilla lance un chatbot IA : Plus tôt cette année, Mozilla a acquis Fakespot, une startup qui exploite l’IA et l’apprentissage automatique pour identifier les avis de produits faux et trompeurs. Aujourd’hui, Mozilla lance son premier grand modèle de langage avec l’arrivée de Fakespot Chat, un agent IA qui aide les consommateurs lors de leurs achats en ligne en répondant à des questions sur les produits et même en suggérant des questions qui pourraient être utiles dans la recherche de produits.

Plus d’apprentissages automatiques

Nous avons vu dans de nombreuses disciplines comment les modèles d’apprentissage automatique sont capables de faire de très bonnes prédictions à court terme pour des structures de données complexes après avoir parcouru de nombreux exemples précédents. Par exemple, cela pourrait prolonger la période d’alerte pour les tremblements de terre à venir, donnant ainsi aux gens 20 à 30 secondes supplémentaires cruciales pour se mettre à l’abri. Et Google a montré qu’il était également doué pour prédire les conditions météorologiques.

Plusieurs chiffres de l’article montrant comment MetNet intègre les données dans ses prédictions basées sur le ML. Crédits images : Google

MetNet-3 est le dernier d’une série de modèles météorologiques basés sur la physique qui examinent diverses variables, telles que les précipitations, la température, le vent et la couverture nuageuse, et produisent des prévisions (temporelles et spatiales) d’une résolution étonnamment élevée sur ce qui va probablement arriver. suivant. Une grande partie de ce type de prédiction est basée sur des modèles assez anciens, qui sont précis dans certains cas mais pas dans d’autres, ou qui peuvent être rendus plus précis en combinant leurs données avec d’autres sources – ce que fait MetNet-3. Je n’entrerai pas trop dans les détails, mais ils ont publié la semaine dernière un article très intéressant sur le sujet qui donne une bonne idée du fonctionnement des moteurs de prévision météorologique modernes.

Dans d’autres actualités scientifiques très spécifiques, des chercheurs de l’Université du Kansas ont fabriqué un détecteur de texte généré par l’IA… pour des articles de revues sur la chimie. Bien sûr, cela n’est pas utile à la plupart des gens, mais après qu’OpenAI et d’autres aient freiné les modèles de détecteurs, il est utile de montrer qu’au moins quelque chose de plus limité est possible. « La majeure partie du domaine de l’analyse de texte souhaite un détecteur vraiment général qui fonctionnera sur n’importe quoi », a déclaré la co-auteure Heather Desaire. « Nous recherchions vraiment la précision. »

Leur modèle a été formé sur des articles de la revue American Chemical Society, apprenant à rédiger des sections d’introduction à partir uniquement du titre et du résumé. Il a ensuite été capable d’identifier les intros écrites par ChatGPT-3.5 avec une précision presque parfaite. Il s’agit évidemment d’un cas d’utilisation extrêmement restreint, mais l’équipe souligne qu’elle a pu le configurer assez rapidement et facilement, ce qui signifie qu’un détecteur pourrait être configuré pour différentes sciences, revues et langues.

Il n’y en a pas encore pour les essais d’admission à l’université, mais l’IA pourrait bientôt être de l’autre côté de ce processus, ne décidant pas qui entrera mais aidant les agents d’admission à identifier les diamants bruts. Des chercheurs de l’Université du Colorado et de l’UPenn ont montré qu’un modèle ML était capable d’identifier avec succès des passages dans les dissertations des étudiants qui indiquaient des intérêts et des qualités, comme le leadership ou le « but prosocial ».

Les étudiants ne seront pas notés de cette façon (encore une fois), mais il s’agit d’un outil indispensable dans la boîte à outils des administrateurs, qui doivent parcourir des milliers d’applications et pourraient avoir besoin d’un coup de main de temps en temps. Ils pourraient utiliser une couche d’analyse comme celle-ci pour regrouper les essais ou même mieux les randomiser afin que tous ceux qui parlent de camping ne se retrouvent pas à la suite. Et la recherche a révélé que la langue utilisée par les étudiants était étonnamment prédictive de certains facteurs académiques, comme le taux d’obtention du diplôme. Bien sûr, ils examineront cela plus en profondeur, mais il est clair que la stylométrie basée sur le ML restera importante.

Il ne faudrait cependant pas perdre de vue les limites de l’IA, comme l’a souligné un groupe de chercheurs de l’Université de Washington qui ont testé la compatibilité des outils d’IA avec leurs propres besoins d’accessibilité. Leurs expériences étaient résolument mitigées, avec des systèmes de synthèse ajoutant des préjugés ou des détails hallucinants (les rendant inappropriés pour les personnes incapables de lire le matériel source) et appliquant de manière incohérente les règles d’accessibilité du contenu.

Les employés handicapés et inclusifs travaillent ensemble au bureau.

Crédits images : Getty Images

Dans le même temps, cependant, une personne autiste a découvert que l’utilisation d’un modèle de langage pour générer des messages sur Slack l’avait aidée à surmonter son manque de confiance dans sa capacité à communiquer normalement. Même si ses collègues ont trouvé les messages quelque peu « robotiques », cela représente un net bénéfice pour l’utilisateur, ce qui est un début. Vous pouvez trouver plus d’informations sur cette étude ici.

Les deux éléments précédents soulèvent cependant des questions épineuses de biais et d’étrangeté générale de l’IA dans un domaine sensible. Il n’est donc pas surprenant que certains États et municipalités envisagent d’établir des règles sur l’utilisation de l’IA dans le cadre de fonctions officielles. Seattle, par exemple, vient de publier un ensemble de « principes directeurs » et de boîtes à outils qui doivent être consultés ou appliqués avant qu’un modèle d’IA puisse être utilisé à des fins officielles. Nous verrons sans aucun doute des ensembles de règles différents – et peut-être contradictoires – mis en œuvre à tous les niveaux de gouvernance.

Dans VR, un modèle d’apprentissage automatique agissant comme un détecteur de gestes flexible a permis de créer un ensemble de façons vraiment intéressantes d’interagir avec des objets virtuels. « Si utiliser la réalité virtuelle revient à utiliser un clavier et une souris, alors à quoi ça sert ? » » a demandé l’auteur principal Per Ola Kristensson. « Il doit vous donner des pouvoirs presque surhumains que vous ne pouvez pas obtenir ailleurs. » Bon point!

Vous pouvez voir dans la vidéo ci-dessus exactement comment cela fonctionne, ce qui, quand on y pense, est parfaitement logique et intuitif. Je ne veux pas sélectionner « copier » puis « coller » dans un menu à l’aide de mon souris doigt. J’ai envie de tenir un objet dans une main, puis d’ouvrir la paume de l’autre et boum, un double ! Alors si je veux les couper, je transforme simplement ma main en ciseaux ?! C’est génial!

Crédits images : EPFL

Enfin, en parlant de Couper/Coller, c’est le nom d’une nouvelle exposition à l’université suisse EPFL, où étudiants et professeurs se penchent sur l’histoire de la bande dessinée à partir des années 1950 et sur la manière dont l’IA pourrait l’améliorer ou l’interpréter. De toute évidence, l’art génératif n’est pas encore en train de prendre le dessus, mais certains artistes sont manifestement désireux de tester la nouvelle technologie, malgré son énigme éthique et de droit d’auteur, et d’explorer ses interprétations du matériel historique. Si vous avez la chance d’être à Lausanne, allez voir Couper/Coller (la version locale accrocheuse des actions numériques omniprésentes).

Source-146

- Advertisement -

Latest