Suivre le rythme d’un secteur aussi en évolution rapide que l’IA est un défi de taille. En attendant qu’une IA puisse le faire à votre place, voici un tour d’horizon pratique des histoires récentes dans le monde de l’apprentissage automatique, ainsi que des recherches et des expériences notables que nous n’avons pas couvertes seules.
Cette semaine dans l’IA, le cycle de l’actualité s’est enfin (enfin !) calmé un peu avant les fêtes de fin d’année. Mais cela ne veut pas dire qu’il y avait une pénurie sur laquelle écrire, une bénédiction et une malédiction pour ce journaliste privé de sommeil.
Un titre particulier de l’AP a attiré mon attention ce matin : « Des générateurs d’images IA sont formés sur des photos explicites d’enfants. » L’essentiel de l’histoire est que LAION, un ensemble de données utilisé pour former de nombreux générateurs d’images d’IA open source et commerciaux populaires, notamment Stable Diffusion et Imagen, contient des milliers d’images d’abus sexuels présumés sur des enfants. Un groupe de surveillance basé à Stanford, le Stanford Internet Observatory, a travaillé avec des organisations caritatives anti-abus pour identifier le matériel illégal et signaler les liens aux forces de l’ordre.
Désormais, LAION, une organisation à but non lucratif, a supprimé ses données de formation et s’est engagée à supprimer les éléments incriminés avant de les republier. Mais l’incident montre à quel point les produits d’IA générative sont peu réfléchis à mesure que les pressions concurrentielles s’accentuent.
Grâce à la prolifération des outils de création de modèles d’IA sans code, il devient terriblement facile de former une IA générative sur n’importe quel ensemble de données imaginable. C’est une aubaine pour les startups et les géants de la technologie de lancer de tels modèles. Toutefois, la diminution des barrières à l’entrée s’accompagne de la tentation de mettre de côté l’éthique en faveur d’une voie accélérée vers le marché.
L’éthique est difficile – c’est indéniable. Passer au peigne fin les milliers d’images problématiques dans LAION, pour prendre l’exemple de cette semaine, ne se fera pas du jour au lendemain. Et idéalement, développer l’IA de manière éthique implique de travailler avec toutes les parties prenantes concernées, y compris les organisations qui représentent des groupes souvent marginalisés et impactés négativement par les systèmes d’IA.
L’industrie regorge d’exemples de décisions de lancement d’IA prises en pensant aux actionnaires, et non aux éthiciens. Prenez par exemple Bing Chat (maintenant Microsoft Copilot), le chatbot de Microsoft basé sur l’IA sur Bing, qui, lors de son lancement, comparait un journaliste à Hitler et insultait son apparence. En octobre, ChatGPT et Bard, le concurrent ChatGPT de Google, donnaient toujours des conseils médicaux dépassés et racistes. Et la dernière version du générateur d’images DALL-E d’OpenAI montre des preuves d’anglocentrisme.
Il suffit de dire que des dommages sont causés dans la poursuite de la supériorité de l’IA – ou du moins de la notion de supériorité de l’IA de Wall Street. Peut-être qu’avec l’adoption des réglementations européennes sur l’IA, qui menacent d’amendes le non-respect de certaines barrières de sécurité en matière d’IA, un certain espoir se profile à l’horizon. Mais le chemin à parcourir est effectivement long.
Voici quelques autres histoires intéressantes sur l’IA de ces derniers jours :
Prédictions pour l’IA en 2024 : Devin expose ses prédictions pour l’IA en 2024, abordant, entre autres sujets, l’impact que l’IA pourrait avoir sur les élections primaires américaines et l’avenir d’OpenAI.
Contre la pseudanthropie: Devin a également écrit en suggérant qu’il soit interdit à l’IA d’imiter le comportement humain.
Microsoft Copilot obtient la création musicale : Copilot, le chatbot alimenté par l’IA de Microsoft, peut désormais composer des chansons grâce à une intégration avec l’application musicale GenAI Suno.
La reconnaissance faciale chez Rite Aid : Rite Aid s’est vu interdire d’utiliser la technologie de reconnaissance faciale pendant cinq ans après que la Federal Trade Commission a constaté que « l’utilisation imprudente des systèmes de surveillance faciale » par le géant américain de la pharmacie avait humilié les clients et mis leurs « informations sensibles en danger ».
L’UE propose des ressources de calcul : L’UE étend son plan, initialement annoncé en septembre et lancé le mois dernier, visant à soutenir les startups locales d’IA en leur fournissant un accès à la puissance de traitement pour la formation de modèles sur les supercalculateurs du bloc.
OpenAI donne au conseil d’administration de nouveaux pouvoirs : OpenAI étend ses processus de sécurité internes pour repousser la menace d’une IA nuisible. Un nouveau « groupe consultatif sur la sécurité » siègera au-dessus des équipes techniques et fera des recommandations aux dirigeants, et le conseil d’administration dispose d’un droit de veto.
Questions et réponses avec Ken Goldberg de l’UC Berkeley : Pour sa newsletter régulière Actuator, Brian s’est entretenu avec Ken Goldberg, professeur à l’UC Berkeley, fondateur d’une startup et roboticien accompli, pour parler des robots humanoïdes et des tendances plus larges de l’industrie de la robotique.
Les DSI ralentissent avec la génération AI : Ron écrit que, même si les DSI sont sous pression pour offrir le type d’expériences que les gens voient lorsqu’ils jouent avec ChatGPT en ligne, la plupart adoptent une approche délibérée et prudente pour adopter la technologie pour l’entreprise.
Les éditeurs de presse poursuivent Google pour IA : Un recours collectif intenté par plusieurs éditeurs de presse accuse Google de « siphonner »[ing] off » le contenu d’actualité par des moyens anticoncurrentiels, en partie grâce à des technologies d’IA telles que Search Generative Experience (SGE) de Google et le chatbot Bard.
OpenAI signe un accord avec Axel Springer : En parlant d’éditeurs, OpenAI a signé un accord avec Axel Springer, le propriétaire berlinois de publications telles que Business Insider et Politico, pour former ses modèles d’IA générative sur le contenu de l’éditeur et ajouter des articles récemment publiés par Axel Springer à ChatGPT.
Google amène Gemini dans plus d’endroits : Google a intégré ses modèles Gemini à un plus grand nombre de ses produits et services, notamment sa plate-forme de développement d’IA gérée Vertex AI et AI Studio, l’outil de la société permettant de créer des chatbots basés sur l’IA et d’autres expériences allant dans ce sens.
Plus d’apprentissages automatiques
La recherche la plus folle (et la plus facile à mal interpréter) de ces deux dernières semaines est certainement life2vec, une étude danoise qui utilise d’innombrables points de données sur la vie d’une personne pour prédire à quoi elle ressemble et quand elle mourra. À peu près!
L’étude ne revendique pas une précision oraculaire (disons trois fois plus vite, d’ailleurs) mais vise plutôt à montrer que si nos vies sont la somme de nos expériences, ces chemins peuvent être quelque peu extrapolés en utilisant les techniques actuelles d’apprentissage automatique. Entre l’éducation, l’éducation, le travail, la santé, les loisirs et d’autres paramètres, on peut raisonnablement prédire non seulement si une personne est, par exemple, introvertie ou extravertie, mais aussi comment ces facteurs peuvent affecter l’espérance de vie. Nous ne sommes pas tout à fait au niveau « avant le crime », mais vous pouvez être sûr que les compagnies d’assurance sont impatientes d’autoriser ce travail.
Une autre affirmation importante a été faite par les scientifiques de la CMU qui ont créé un système appelé Coscientist, un assistant basé sur le LLM pour les chercheurs qui peut effectuer de nombreuses tâches de laboratoire de manière autonome. Cela se limite actuellement à certains domaines de la chimie, mais tout comme les scientifiques, les modèles comme ceux-ci seront des spécialistes.
Le chercheur principal Gabe Gomes a déclaré à Nature : « Le moment où j’ai vu une intelligence non organique être capable de planifier, concevoir et exécuter de manière autonome une réaction chimique inventée par les humains, c’était incroyable. C’était un moment de « putain de merde ». Fondamentalement, il utilise un LLM comme GPT-4, affiné sur des documents de chimie, pour identifier les réactions, réactifs et procédures courants et les exécuter. Vous n’avez donc pas besoin de demander à un technicien de laboratoire de synthétiser 4 lots d’un catalyseur – l’IA peut le faire, et vous n’avez même pas besoin de lui tenir la main.
Les chercheurs en IA de Google ont également eu une grosse semaine, se plongeant dans quelques domaines frontières intéressants. FunSearch peut ressembler à Google pour les enfants, mais il s’agit en fait de l’abréviation de fonction de recherche, qui, comme Coscientist, est capable de faire et d’aider à faire des découvertes mathématiques. Il est intéressant de noter que pour éviter les hallucinations, celui-ci (comme d’autres récemment) utilise une paire de modèles d’IA appariés, un peu comme l’« ancienne » architecture GAN. L’un théorise, l’autre évalue.
Bien que FunSearch ne fasse pas de nouvelles découvertes révolutionnaires, il peut prendre ce qui existe et le peaufiner ou le réappliquer dans de nouveaux endroits. Ainsi, une fonction qu’un domaine utilise mais qu’un autre ignore pourrait être utilisée pour améliorer une norme de l’industrie. algorithme.
StyleDrop est un outil pratique pour les personnes cherchant à reproduire certains styles via des images génératives. Le problème (selon le point de vue du chercheur) est que si vous avez un style en tête (par exemple « pastels ») et que vous le décrivez, le modèle aura trop de sous-styles de « pastels » à partir desquels tirer, donc les résultats seront imprévisible. StyleDrop vous permet de fournir un exemple du style auquel vous pensez, et le modèle basera son travail sur cela : il s’agit essentiellement d’un réglage fin super efficace.
Le billet de blog et l’article montrent qu’il est assez robuste, appliquant un style à partir de n’importe quelle image, qu’il s’agisse d’une photo, d’une peinture, d’un paysage urbain ou d’un portrait de chat, à tout autre type d’image, même l’alphabet (notoirement difficile pour une raison quelconque).
Google avance également dans le jeu vidéo génératif avec VideoPoet, qui utilise une base LLM (comme tout le reste de nos jours… qu’allez-vous utiliser d’autre ?) pour effectuer un tas de tâches vidéo, transformer du texte ou des images en vidéo, étendre ou styliser une vidéo existante, et ainsi de suite. Le défi ici, comme chaque projet le montre clairement, n’est pas simplement de créer une série d’images liées les unes aux autres, mais de les rendre cohérentes sur des périodes plus longues (comme plus d’une seconde) et avec de grands mouvements et changements.
VideoPoet fait avancer le ballon, semble-t-il, même si, comme vous pouvez le voir, les résultats sont encore assez étranges. Mais c’est ainsi que ces choses progressent : d’abord elles sont inadéquates, puis elles sont bizarres, puis elles sont étranges. Vraisemblablement, ils partent étrangement à un moment donné, mais personne n’y est encore vraiment arrivé.
Sur le plan pratique, des chercheurs suisses appliquent des modèles d’IA à la mesure de la neige. Normalement, on se fierait aux stations météorologiques, mais celles-ci peuvent être très éloignées et nous disposons de toutes ces belles données satellite, n’est-ce pas ? Droite. L’équipe de l’ETHZ a donc pris des images satellite publiques de la constellation Sentinelle-2, mais comme le dit le responsable Konrad Schindler : « Le simple fait de regarder les éléments blancs sur les images satellite ne nous dit pas immédiatement quelle est l’épaisseur de la neige. »
Ils ont donc intégré des données de terrain pour l’ensemble du pays provenant de leur Bureau fédéral de topographie (comme notre USGS) et formé le système pour qu’il effectue des estimations non seulement sur la base de bits blancs dans l’imagerie, mais également sur des données de vérité sur le terrain et des tendances telles que les modèles de fonte. La technologie qui en résulte est commercialisée par ExoLabs, que je suis sur le point de contacter pour en savoir plus.
Un mot d’avertissement de la part de Stanford, cependant – aussi puissantes que soient des applications comme celles ci-dessus, notez qu’aucune d’entre elles n’implique beaucoup de préjugés humains. Lorsqu’il s’agit de santé, cela devient soudainement un gros problème, et c’est dans ce domaine qu’une tonne d’outils d’IA sont testés. Des chercheurs de Stanford ont montré que les modèles d’IA propagent de « vieux tropes raciaux médicaux ». GPT-4 ne sait pas si quelque chose est vrai ou non, il peut donc reprendre et reprend de vieilles affirmations réfutées sur des groupes, comme par exemple que les Noirs ont une capacité pulmonaire inférieure. Non! Restez sur vos gardes si vous travaillez avec n’importe quel type de modèle d’IA dans le domaine de la santé et de la médecine.
Enfin, voici une nouvelle écrite par Bard avec un scénario de tournage et des invites, rendus par VideoPoet. Attention, Pixar !