Suivre une industrie aussi rapide que l’IA est une tâche difficile. Donc, jusqu’à ce qu’une IA puisse le faire pour vous, voici un résumé pratique des histoires de la semaine dernière dans le monde de l’apprentissage automatique, ainsi que des recherches et des expériences notables que nous n’avons pas couvertes par elles-mêmes.
Si ce n’était pas déjà évident, le paysage concurrentiel de l’IA – en particulier le sous-domaine connu sous le nom d’IA générative – est brûlant. Et il fait de plus en plus chaud. Cette semaine, Dropbox a lancé son premier fonds de capital-risque, Dropbox Ventures, qui, selon la société, se concentrerait sur les startups créant des produits alimentés par l’IA qui « façonnent l’avenir du travail ». Pour ne pas être en reste, AWS a lancé un programme de 100 millions de dollars pour financer des initiatives d’IA générative menées par ses partenaires et ses clients.
Il y a beaucoup d’argent dépensé dans l’espace de l’IA, c’est sûr. Salesforce Ventures, la division VC de Salesforce, prévoit d’injecter 500 millions de dollars dans des startups développant des technologies d’IA génératives. Workday a récemment ajouté 250 millions de dollars à son fonds de capital-risque existant spécifiquement pour soutenir les startups d’IA et d’apprentissage automatique. Et Accenture et PwC ont annoncé qu’ils prévoyaient d’investir respectivement 3 milliards de dollars et 1 milliard de dollars dans l’IA.
Mais on se demande si l’argent est la solution aux défis exceptionnels du domaine de l’IA.
Lors d’un panel éclairant lors d’une conférence Bloomberg à San Francisco cette semaine, Meredith Whittaker, présidente de l’application de messagerie sécurisée Signal, a fait valoir que la technologie qui sous-tend certaines des applications d’IA les plus en vogue d’aujourd’hui devient dangereusement opaque. Elle a donné l’exemple d’une personne qui entre dans une banque et demande un prêt.
Cette personne peut se voir refuser le prêt et n’avoir « aucune idée qu’il y a un système dans [the] back probablement alimenté par une API Microsoft qui a déterminé, sur la base des médias sociaux grattés, que je n’étais pas solvable », a déclaré Whittaker. « Je ne saurai jamais [because] il n’y a aucun mécanisme pour que je le sache.
Ce n’est pas le capital qui est en cause. C’est plutôt la hiérarchie actuelle du pouvoir, dit Whittaker.
«Je suis à la table depuis environ 15 ans, 20 ans. j’ai a été à la table. Être à table sans pouvoir n’est rien », a-t-elle poursuivi.
Bien sûr, réaliser un changement structurel est beaucoup plus difficile que de chercher de l’argent, en particulier lorsque le changement structurel ne favorisera pas nécessairement les pouvoirs en place. Et Whittaker prévient ce qui pourrait arriver s’il n’y a pas assez de recul.
Au fur et à mesure que les progrès de l’IA s’accélèrent, les impacts sociétaux s’accélèrent également, et nous continuerons à nous diriger sur une « route remplie de battage médiatique vers l’IA », a-t-elle déclaré, « où ce pouvoir est enraciné et naturalisé sous le couvert de l’intelligence et nous sommes surveillés pour le point [of having] très, très peu d’action sur nos vies individuelles et collectives.
Ce devrait donner une pause à l’industrie. Que ce soit en fait sera est une autre affaire. C’est probablement quelque chose dont nous entendrons parler lorsqu’elle montera sur scène à Disrupt en septembre.
Voici les autres titres importants de l’IA de ces derniers jours :
- L’IA de DeepMind contrôle les robots : DeepMind dit avoir développé un modèle d’IA, appelé RoboCat, qui peut effectuer une gamme de tâches sur différents modèles de bras robotiques. Cela seul n’est pas particulièrement nouveau. Mais DeepMind affirme que le modèle est le premier à être capable de résoudre et de s’adapter à plusieurs tâches et de le faire en utilisant différents robots du monde réel.
- Les robots apprennent de YouTube : En parlant de robots, Deepak Pathak, professeur adjoint au CMU Robotics Institute, a présenté cette semaine VRB (Vision-Robotics Bridge), un système d’IA conçu pour former des systèmes robotiques en regardant un enregistrement d’un humain. Le robot surveille quelques informations clés, notamment les points de contact et la trajectoire, puis tente d’exécuter la tâche.
- Otter se lance dans le jeu du chatbot : Le service de transcription automatique Otter a annoncé cette semaine un nouveau chatbot alimenté par l’IA qui permettra aux participants de poser des questions pendant et après une réunion et les aidera à collaborer avec leurs coéquipiers.
- L’UE appelle à une réglementation de l’IA : Les régulateurs européens sont à la croisée des chemins sur la manière dont l’IA sera réglementée – et finalement utilisée à des fins commerciales et non commerciales – dans la région. Cette semaine, le plus grand groupe de consommateurs de l’UE, l’Organisation européenne des consommateurs (BEUC), a pesé avec sa propre position : arrêtez de vous traîner les pieds et « lancez des enquêtes urgentes sur les risques de l’IA générative » maintenant, a-t-il déclaré.
- Vimeo lance des fonctionnalités basées sur l’IA : Cette semaine, Vimeo a annoncé une suite d’outils alimentés par l’IA conçus pour aider les utilisateurs à créer des scripts, à enregistrer des séquences à l’aide d’un téléprompteur intégré et à supprimer les longues pauses et les disfluences indésirables telles que « ahs » et « ums » des enregistrements.
- Capital voix de synthèse : ElevenLabs, la plate-forme virale alimentée par l’IA pour la création de voix synthétiques, a levé 19 millions de dollars lors d’un nouveau cycle de financement. ElevenLabs a pris de l’ampleur assez rapidement après son lancement fin janvier. Mais la publicité n’a pas toujours été positive, en particulier lorsque de mauvais acteurs ont commencé à exploiter la plate-forme à leurs propres fins.
- Transformer l’audio en texte : Gladia, une startup française de l’IA, a lancé une plate-forme qui exploite le modèle de transcription Whisper d’OpenAI pour, via une API, transformer n’importe quel audio en texte en temps quasi réel. Gladia promet qu’elle peut transcrire une heure d’audio pour 0,61 $, le processus de transcription prenant environ 60 secondes.
- Harness adopte l’IA générative : Harness, une startup créant une boîte à outils pour aider les développeurs à fonctionner plus efficacement, a injecté cette semaine sa plate-forme avec un peu d’IA. Désormais, Harness peut résoudre automatiquement les échecs de construction et de déploiement, trouver et corriger les vulnérabilités de sécurité et faire des suggestions pour maîtriser les coûts du cloud.
Autres apprentissages automatiques
Cette semaine, c’était le CVPR à Vancouver, au Canada, et j’aurais aimé pouvoir y aller parce que les conférences et les articles ont l’air super intéressants. Si vous ne pouvez en regarder qu’un, consultez le discours d’ouverture de Yejin Choi sur les possibilités, les impossibilités et les paradoxes de l’IA.
Le professeur UW et récipiendaire de la subvention MacArthur Genius a d’abord abordé quelques limitations inattendues des modèles les plus performants d’aujourd’hui. En particulier, GPT-4 est vraiment mauvais en multiplication. Il ne parvient pas à trouver correctement le produit de deux nombres à trois chiffres à un rythme surprenant, bien qu’avec un peu de cajolerie, il puisse le faire correctement 95% du temps. Pourquoi est-il important qu’un modèle de langage ne puisse pas faire de maths, demandez-vous ? Parce que l’ensemble du marché de l’IA repose actuellement sur l’idée que les modèles de langage se généralisent bien à de nombreuses tâches intéressantes, y compris des choses comme faire vos impôts ou votre comptabilité. Le point de Choi était que nous devrions rechercher les limites de l’IA et travailler vers l’intérieur, et non l’inverse, car cela nous en dit plus sur leurs capacités.
Les autres parties de son discours étaient tout aussi intéressantes et stimulantes. Vous pouvez regarder le tout ici.
Rod Brooks, présenté comme un «tueur de battage médiatique», a donné un historique intéressant de certains des concepts de base de l’apprentissage automatique – des concepts qui ne semblent nouveaux que parce que la plupart des gens qui les appliquaient n’étaient pas là quand ils ont été inventés ! Remontant à travers les décennies, il évoque McCulloch, Minsky, voire Hebb – et montre comment les idées sont restées pertinentes bien au-delà de leur époque. C’est un rappel utile que l’apprentissage automatique est un domaine reposant sur les épaules de géants remontant à l’après-guerre.
De très nombreux articles ont été soumis et présentés au CVPR, et il est réducteur de ne regarder que les lauréats, mais il s’agit d’un tour d’horizon de l’actualité, pas d’une revue de littérature complète. Voici donc ce que les juges de la conférence ont trouvé le plus intéressant :
VISPROG, des chercheurs de l’AI2, est une sorte de méta-modèle qui effectue des tâches de manipulation visuelle complexes à l’aide d’une boîte à outils de code polyvalente. Supposons que vous ayez une photo d’un grizzli sur de l’herbe (comme illustré) – vous pouvez lui dire de simplement « remplacer l’ours par un ours polaire sur la neige » et cela commence à fonctionner. Il identifie les parties de l’image, les sépare visuellement, recherche et trouve ou génère un remplacement approprié, et recoud le tout intelligemment, sans autre demande de la part de l’utilisateur. L’interface « améliorée » de Blade Runner commence à avoir l’air carrément piétonne. Et ce n’est qu’une de ses nombreuses capacités.
La « conduite autonome axée sur la planification », d’un groupe de recherche chinois multi-institutionnel, tente d’unifier les différents éléments de l’approche plutôt fragmentaire que nous avons adoptée pour les voitures autonomes. Habituellement, il y a une sorte de processus par étapes de « perception, prédiction et planification », chacun pouvant comporter un certain nombre de sous-tâches (comme la segmentation des personnes, l’identification des obstacles, etc.). Leur modèle tente de mettre tout cela dans un seul modèle, un peu comme les modèles multimodaux que nous voyons qui peuvent utiliser du texte, de l’audio ou des images comme entrée et sortie. De même, ce modèle simplifie à certains égards les interdépendances complexes d’une pile de conduite autonome moderne.
DynIBaR présente une méthode robuste et de haute qualité d’interaction avec la vidéo à l’aide de «champs de rayonnement neuronal dynamiques», ou NeRF. Une compréhension approfondie des objets de la vidéo permet des choses comme la stabilisation, les mouvements de chariot et d’autres choses que vous ne vous attendez généralement pas à être possibles une fois que la vidéo a déjà été enregistrée. Encore une fois… « améliorer ». C’est définitivement le genre de choses pour lesquelles Apple vous embauche, puis s’en attribue le mérite lors de la prochaine WWDC.
DreamBooth, vous vous souvenez peut-être d’un peu plus tôt cette année, lorsque la page du projet a été mise en ligne. C’est le meilleur système à ce jour pour, il n’y a pas moyen de le dire, de faire des deepfakes. Bien sûr, il est précieux et puissant de faire ce genre d’opérations d’image, sans parler du plaisir, et des chercheurs comme ceux de Google travaillent pour le rendre plus transparent et réaliste. Conséquences… plus tard, peut-être.
Le prix du meilleur article étudiant est décerné à une méthode de comparaison et d’appariement de maillages, ou nuages de points 3D – franchement, c’est trop technique pour moi d’essayer d’expliquer, mais c’est une capacité importante pour la perception du monde réel et les améliorations sont les bienvenues. Consultez le document ici pour des exemples et plus d’informations.
Juste deux autres pépites : Intel a présenté ce modèle intéressant, LDM3D, pour générer des images 3D 360 comme des environnements virtuels. Ainsi, lorsque vous êtes dans le métaverse et que vous dites « mettez-nous dans une ruine envahie par la jungle », cela en crée simplement une nouvelle à la demande.
Et Meta a publié un outil de synthèse vocale appelé Voicebox qui est super bon pour extraire les caractéristiques des voix et les reproduire, même lorsque l’entrée n’est pas propre. Habituellement, pour la réplication vocale, vous avez besoin d’une bonne quantité et d’une variété d’enregistrements vocaux propres, mais Voicebox le fait mieux que beaucoup d’autres, avec moins de données (pensez à 2 secondes). Heureusement, ils gardent ce génie dans la bouteille pour le moment. Pour ceux qui pensent qu’ils pourraient avoir besoin de cloner leur voix, consultez Acapela.