La semaine de l’IA : Google met tout en œuvre pour les E/S alors que les réglementations s’intensifient

Suivre une industrie aussi rapide que l’IA est une tâche difficile. Donc, jusqu’à ce qu’une IA puisse le faire pour vous, voici un résumé pratique des histoires de la semaine dernière dans le monde de l’apprentissage automatique, ainsi que des recherches et des expériences notables que nous n’avons pas couvertes par elles-mêmes.

Cette semaine, Google a dominé le cycle de l’actualité de l’IA avec une gamme de nouveaux produits lancés lors de sa conférence annuelle des développeurs d’E/S. Ils couvrent toute la gamme allant d’une IA génératrice de code destinée à concurrencer le copilote de GitHub à un générateur de musique IA qui transforme les invites de texte en courtes chansons.

Un bon nombre de ces outils semblent être des économiseurs de main-d’œuvre légitimes – plus que du marketing, c’est-à-dire. Je suis particulièrement intrigué par Project Tailwind, une application de prise de notes qui exploite l’IA pour organiser, résumer et analyser des fichiers à partir d’un dossier Google Docs personnel. Mais ils exposent également les limites et les lacunes des meilleures technologies d’IA d’aujourd’hui.

Prenez PaLM 2, par exemple, le nouveau grand modèle de langage (LLM) de Google. PaLM 2 alimentera l’outil de chat Bard mis à jour de Google, le concurrent de l’entreprise à ChatGPT d’OpenAI, et fonctionnera comme modèle de base pour la plupart des nouvelles fonctionnalités d’IA de Google. Mais alors que PaLM 2 peut écrire du code, des e-mails et plus encore, comme des LLM comparables, il répond également aux questions de manière toxique et biaisée.

Le générateur de musique de Google est également assez limité dans ce qu’il peut accomplir. Au fur et à mesure que j’écrivais entre mes mains, la plupart des chansons que j’ai créées avec MusicLM sonnent au mieux passable – et au pire comme un enfant de quatre ans lâché sur un DAW.

Il y a eu beaucoup d’écrits sur la façon dont l’IA remplacera les emplois – potentiellement l’équivalent de 300 millions d’emplois à temps plein, selon un rapport de Goldman Sachs. Dans une enquête réalisée par Harris, 40 % des travailleurs familiers avec l’outil de chatbot basé sur l’IA d’OpenAI, ChatGPT, craignent qu’il ne remplace entièrement leur travail.

L’IA de Google n’est pas la solution ultime. En effet, l’entreprise est sans doute en retard dans la course à l’IA. Mais c’est un fait indéniable que Google emploie certains des meilleurs chercheurs en intelligence artificielle au monde. Et si c’est le mieux qu’ils puissent gérer, cela témoigne du fait que l’IA est loin d’être un problème résolu.

Voici les autres titres importants de l’IA de ces derniers jours :

  • Meta apporte l’IA générative aux annonces : Meta a annoncé cette semaine une sorte de bac à sable AI pour les annonceurs afin de les aider à créer des copies alternatives, la génération d’arrière-plan via des invites de texte et le recadrage d’images pour les publicités Facebook ou Instagram. La société a déclaré que les fonctionnalités sont actuellement disponibles pour certains annonceurs et étendront l’accès à davantage d’annonceurs en juillet.
  • Contexte ajouté : Anthropic a élargi la fenêtre contextuelle de Claude – son modèle phare d’IA générant du texte, toujours en avant-première – de 9 000 jetons à 100 000 jetons. La fenêtre contextuelle fait référence au texte que le modèle considère avant de générer du texte supplémentaire, tandis que les jetons représentent le texte brut (par exemple, le mot « fantastique » serait divisé en jetons « fan », « tas » et « tic »). Historiquement et même aujourd’hui, une mauvaise mémoire a été un obstacle à l’utilité de l’IA génératrice de texte. Mais des fenêtres contextuelles plus grandes pourraient changer cela.
  • Anthropic vante les mérites de « l’IA constitutionnelle » : Les fenêtres contextuelles plus grandes ne sont pas le seul différenciateur des modèles anthropiques. La société a détaillé cette semaine « l’IA constitutionnelle », sa technique de formation interne à l’IA qui vise à imprégner les systèmes d’IA de « valeurs » définies par une « constitution ». Contrairement à d’autres approches, Anthropic soutient que l’IA constitutionnelle rend le comportement des systèmes à la fois plus facile à comprendre et plus simple à ajuster selon les besoins.
  • Un LLM construit pour la recherche : L’Allen Institute for AI Research (AI2) à but non lucratif a annoncé qu’il prévoyait de former un LLM axé sur la recherche appelé Open Language Model, s’ajoutant à la vaste bibliothèque open source en pleine croissance. AI2 considère le modèle de langage ouvert, ou OLMo en abrégé, comme une plate-forme et pas seulement un modèle – qui permettra à la communauté de recherche de prendre chaque composant créé par AI2 et de l’utiliser lui-même ou de chercher à l’améliorer.
  • Nouveau fonds pour l’IA : Dans d’autres nouvelles d’AI2, AI2 Incubator, le fonds de démarrage de l’IA à but non lucratif, augmente à nouveau à trois fois sa taille précédente – 30 millions de dollars contre 10 millions de dollars. Vingt et une entreprises sont passées par l’incubateur depuis 2017, attirant quelque 160 millions de dollars d’investissements supplémentaires et au moins une acquisition majeure : XNOR, une société d’accélération et d’efficacité de l’IA qui a ensuite été rachetée par Apple pour environ 200 millions de dollars.
  • Règles d’introduction de l’UE pour l’IA générative : Lors d’une série de votes au Parlement européen, les députés européens ont soutenu cette semaine une série d’amendements au projet de loi sur l’IA du bloc, notamment en fixant les exigences des modèles dits fondamentaux qui sous-tendent les technologies d’IA génératives telles que ChatGPT d’OpenAI. Les modifications obligent les fournisseurs de modèles fondamentaux à appliquer des contrôles de sécurité, des mesures de gouvernance des données et des atténuations des risques avant de mettre leurs modèles sur le marché.
  • Un traducteur universel : Google teste un nouveau service de traduction puissant qui rediffuse la vidéo dans une nouvelle langue tout en synchronisant les lèvres de l’orateur avec des mots qu’il n’a jamais prononcés. Cela pourrait être très utile pour de nombreuses raisons, mais l’entreprise était franche quant à la possibilité d’abus et aux mesures prises pour l’empêcher.
  • Explications automatisées : On dit souvent que les LLM du type ChatGPT d’OpenAI sont une boîte noire, et il y a certainement du vrai là-dedans. Dans un effort pour décoller leurs couches, OpenAI développe un outil pour identifier automatiquement quelles parties d’un LLM sont responsables de chacun de ses comportements. Les ingénieurs derrière lui soulignent qu’il n’en est qu’à ses débuts, mais le code pour l’exécuter est disponible en open source sur GitHub depuis cette semaine.
  • IBM lance de nouveaux services d’IA : Lors de sa conférence Think annuelle, IBM a annoncé IBM Watsonx, une nouvelle plate-forme qui fournit des outils pour créer des modèles d’IA et donner accès à des modèles pré-entraînés pour générer du code informatique, du texte et plus encore. La société affirme que le lancement a été motivé par les défis que de nombreuses entreprises rencontrent encore dans le déploiement de l’IA sur le lieu de travail.

Autres apprentissages automatiques

Crédits image : IA d’atterrissage

La nouvelle société d’Andrew Ng, Landing AI, adopte une approche plus intuitive pour créer une formation en vision par ordinateur. Faire comprendre à un modèle ce que vous voulez identifier dans les images est assez laborieux, mais leur technique d' »incitation visuelle » vous permet de faire quelques coups de pinceau et de comprendre votre intention à partir de là. Quiconque doit construire des modèles de segmentation se dit « mon dieu, enfin ! » Probablement beaucoup d’étudiants diplômés qui passent actuellement des heures à masquer des organites et des objets ménagers.

Microsoft a appliqué des modèles de diffusion d’une manière unique et intéressante, les utilisant essentiellement pour générer un vecteur d’action au lieu d’une image, après l’avoir entraîné sur de nombreuses actions humaines observées. C’est encore très tôt et la diffusion n’est pas la solution évidente pour cela, mais comme ils sont stables et polyvalents, il est intéressant de voir comment ils peuvent être appliqués au-delà des tâches purement visuelles. Leur article sera présenté à l’ICLR plus tard cette année.

Crédits image : Méta

Meta repousse également les limites de l’IA avec ImageBind, qui, selon lui, est le premier modèle capable de traiter et d’intégrer des données de six modalités différentes : images et vidéo, audio, données de profondeur 3D, informations thermiques et données de mouvement ou de position. Cela signifie que dans son petit espace d’intégration de l’apprentissage automatique, une image peut être associée à un son, une forme 3D et diverses descriptions textuelles, chacune pouvant être interrogée ou utilisée pour prendre une décision. C’est un pas vers l’IA « générale » dans la mesure où elle absorbe et associe des données plus comme le cerveau – mais elle reste basique et expérimentale, alors ne vous excitez pas trop pour l’instant.

Si ces protéines se touchent… que se passe-t-il ?

Tout le monde s’est enthousiasmé pour AlphaFold, et pour une bonne raison, mais la structure n’est en réalité qu’une petite partie de la science très complexe de la protéomique. C’est la façon dont ces protéines interagissent qui est à la fois importante et difficile à prédire, mais ce nouveau modèle PeSTo de l’EPFL tente de le faire. « Il se concentre sur les atomes et les interactions importants au sein de la structure des protéines », a déclaré le développeur principal Lucien Krapp. « Cela signifie que cette méthode capture efficacement les interactions complexes au sein des structures protéiques pour permettre une prédiction précise des interfaces de liaison aux protéines. » Même si ce n’est pas exact ou fiable à 100%, ne pas avoir à repartir de zéro est super utile pour les chercheurs.

Les fédéraux misent sur l’IA. Le président a même assisté à une réunion avec un groupe de grands PDG de l’IA pour dire à quel point il est important de bien faire les choses. Peut-être qu’un tas d’entreprises ne sont pas nécessairement les bonnes à qui demander, mais elles auront au moins quelques idées à considérer. Mais ils ont déjà des lobbyistes, n’est-ce pas ?

Je suis plus enthousiasmé par les nouveaux centres de recherche sur l’IA qui surgissent avec un financement fédéral. La recherche fondamentale est extrêmement nécessaire pour contrebalancer le travail axé sur les produits effectué par des entreprises comme OpenAI et Google. Ainsi, lorsque vous avez des centres d’IA chargés d’enquêter sur des sujets tels que les sciences sociales (à la CMU), ou le changement climatique et l’agriculture (à l’U de Minnesota), cela ressemble à des champs verts (au sens figuré et au sens propre). Bien que je veuille aussi saluer un peu cette méta-recherche sur la mesure forestière.

Faire de l’IA ensemble sur grand écran, c’est de la science !

Beaucoup de conversations intéressantes sur l’IA. J’ai pensé que cette entrevue avec les universitaires de l’UCLA (mon alma mater, go Bruins) Jacob Foster et Danny Snelson était intéressante. Voici une excellente réflexion sur les LLM pour prétendre que vous avez trouvé ce week-end lorsque les gens parlent d’IA :

Ces systèmes révèlent à quel point la plupart des écrits sont formellement cohérents. Plus les formats simulés par ces modèles prédictifs sont génériques, plus ils sont performants. Ces évolutions nous poussent à reconnaître les fonctions normatives de nos formes et potentiellement à les transformer. Après l’introduction de la photographie, qui est très douée pour capturer un espace de représentation, le milieu pictural a développé l’impressionnisme, un style qui a complètement rejeté la représentation précise pour s’attarder à la matérialité de la peinture elle-même.

Certainement en utilisant ça!

Source-146