Suivre le rythme d’un secteur en évolution aussi rapide que l’IA est un défi de taille. En attendant qu’une IA puisse le faire à votre place, voici un tour d’horizon pratique des histoires récentes dans le monde de l’apprentissage automatique, ainsi que des recherches et des expériences notables que nous n’avons pas couvertes seules.
À propos, TechCrunch prévoit de lancer prochainement une newsletter sur l’IA. Restez à l’écoute.
Cette semaine, dans le domaine de l’IA, huit journaux américains de premier plan appartenant au géant de l’investissement Alden Global Capital, dont le New York Daily News, le Chicago Tribune et Orlando Sentinel, ont poursuivi OpenAI et Microsoft pour violation du droit d’auteur lié à l’utilisation par les entreprises de technologies d’IA générative. Ils, comme le New York Times dans son procès en cours contre OpenAI, accusent OpenAI et Microsoft d’avoir supprimé leur propriété intellectuelle sans autorisation ni compensation pour construire et commercialiser des modèles génératifs tels que GPT-4.
« Nous avons dépensé des milliards de dollars pour collecter des informations et rapporter des actualités dans nos publications, et nous ne pouvons pas permettre à OpenAI et à Microsoft d’élargir le vaste plan technologique consistant à voler notre travail pour créer leurs propres entreprises à nos dépens », a déclaré Frank Pine, le rédacteur en chef supervisant les journaux d’Alden, a déclaré dans un communiqué.
Le procès semble susceptible de se terminer par un accord de règlement et de licence, étant donné les partenariats existants d’OpenAI avec les éditeurs et sa réticence à articuler l’ensemble de son modèle commercial sur l’argument de l’utilisation équitable. Mais qu’en est-il du reste des créateurs de contenu dont les œuvres sont entraînées dans une formation de mannequin sans paiement ?
Il semble qu’OpenAI y réfléchisse.
Un article de recherche récemment publié, co-écrit par Boaz Barak, un scientifique de l’équipe Superalignment d’OpenAI, propose un cadre pour rémunérer les titulaires de droits d’auteur « proportionnellement à leurs contributions à la création de contenu généré par l’IA ». Comment? Grâce à la théorie des jeux coopératifs.
Le cadre évalue dans quelle mesure le contenu d’un ensemble de données de formation – par exemple du texte, des images ou d’autres données – influence ce qu’un modèle génère, en utilisant un concept de théorie des jeux connu sous le nom de valeur de Shapley. Ensuite, sur la base de cette évaluation, il détermine la « part légitime » (c’est-à-dire la compensation) des propriétaires de contenu.
Disons que vous disposez d’un modèle générateur d’images formé à l’aide des œuvres de quatre artistes : John, Jacob, Jack et Jebediah. Vous lui demandez de dessiner une fleur à la manière de Jack. Avec ce cadre, vous pouvez déterminer l’influence des œuvres de chaque artiste sur l’art généré par le modèle et, ainsi, la compensation que chacun devrait recevoir.
Il y a cependant un inconvénient à ce framework : il est coûteux en termes de calcul. Les solutions de contournement des chercheurs reposent sur des estimations de compensation plutôt que sur des calculs exacts. Cela satisferait-il les créateurs de contenu ? Je ne suis pas si sûr. Si OpenAI le met un jour en pratique, nous le saurons certainement.
Voici quelques autres histoires intéressantes sur l’IA de ces derniers jours :
- Microsoft réaffirme l’interdiction de la reconnaissance faciale : Le langage ajouté aux conditions de service d’Azure OpenAI Service, le package entièrement géré de Microsoft autour de la technologie OpenAI, interdit plus clairement que les intégrations soient utilisées « par ou pour » les services de police pour la reconnaissance faciale aux États-Unis.
- La nature des startups IA natives : Les startups d’IA sont confrontées à un ensemble de défis différents de ceux d’une entreprise de logiciels en tant que service typique. C’était le message de Rudina Seseri, fondatrice et associée directrice de Glasswing Ventures, la semaine dernière lors de l’événement TechCrunch Early Stage à Boston ; Ron a toute l’histoire.
- Anthropic lance un business plan : La startup d’IA Anthropic lance un nouveau forfait payant destiné aux entreprises ainsi qu’une nouvelle application iOS. Team – le plan d’entreprise – donne aux clients un accès prioritaire à la famille de modèles d’IA générative Claude 3 d’Anthropic ainsi qu’à des contrôles supplémentaires de gestion des administrateurs et des utilisateurs.
- CodeWhisperer n’est plus : Amazon CodeWhisperer est désormais Q Developerqui fait partie de la famille Q d’Amazon de chatbots génératifs d’IA orientés entreprise. Disponible via AWS, Q Developer aide les développeurs à effectuer certaines tâches au cours de leur travail quotidien, comme le débogage et la mise à niveau des applications, un peu comme CodeWhisperer l’a fait.
- Sortez du Sam’s Club : Sam’s Club, propriété de Walmart, affirme se tourner vers l’IA pour accélérer sa « technologie de sortie ». Au lieu d’exiger que le personnel du magasin vérifie les achats des membres par rapport à leurs reçus lorsqu’ils quittent un magasin, les clients du Sam’s Club qui paient soit à une caisse, soit via l’application mobile Scan & Go peuvent désormais sortir de certains magasins sans que leurs achats soient revérifiés. .
- Récolte du poisson, automatisée : La récolte du poisson est une activité intrinsèquement compliquée. Shinkei s’efforce de l’améliorer avec un système automatisé qui répartit le poisson de manière plus humaine et plus fiable, ce qui entraînerait ce qui pourrait être une économie de fruits de mer totalement différente, rapporte Devin.
- L’assistant IA de Yelp : Yelp a annoncé cette semaine un nouveau chatbot alimenté par l’IA pour les consommateurs – alimenté par des modèles OpenAI, selon la société – qui les aide à se connecter avec les entreprises concernées pour leurs tâches (comme l’installation de luminaires, l’amélioration des espaces extérieurs, etc.). La société déploie l’assistant IA sur son application iOS sous l’onglet « Projets », et prévoit de l’étendre à Android plus tard cette année.
Plus d’apprentissages automatiques
On dirait qu’il y a eu toute une fête au Argonne National Lab cet hiver lorsqu’ils ont réuni une centaine d’experts du secteur de l’IA et de l’énergie pour discuter de la façon dont la technologie en évolution rapide pourrait être utile à l’infrastructure et à la R&D du pays dans ce domaine. Le rapport qui en résulte est plus ou moins ce que l’on attend de ce groupe : beaucoup de tarte en l’air, mais néanmoins informatif.
En ce qui concerne l’énergie nucléaire, le réseau, la gestion du carbone, le stockage de l’énergie et les matériaux, les thèmes qui ont émergé de cette réunion étaient, premièrement, que les chercheurs ont besoin d’accéder à des outils et à des ressources informatiques de grande puissance ; deuxièmement, apprendre à repérer les points faibles des simulations et des prédictions (y compris celles permises par la première chose) ; troisièmement, le besoin d’outils d’IA capables d’intégrer et de rendre accessibles des données provenant de sources multiples et dans de nombreux formats. Nous avons vu toutes ces choses se produire de différentes manières dans l’industrie, ce n’est donc pas une grande surprise, mais rien ne se fait au niveau fédéral sans que quelques boffins publient un document, il est donc bon que cela soit consigné dans le dossier.
Georgia Tech et Meta y travaillent en partie avec une nouvelle grande base de données appelée OpenDAC, une pile de réactions, de matériaux et de calculs destinés à aider les scientifiques qui conçoivent des processus de captage du carbone à le faire plus facilement. Il se concentre sur les structures métallo-organiques, un type de matériau prometteur et populaire pour le captage du carbone, mais avec des milliers de variantes, qui n’ont pas été testées de manière exhaustive.
L’équipe de Georgia Tech s’est associée au Oak Ridge National Lab et au Meta’s FAIR pour simuler les interactions de chimie quantique sur ces matériaux, en utilisant quelque 400 millions d’heures de calcul, soit bien plus que ce qu’une université peut facilement rassembler. J’espère que cela sera utile aux chercheurs en climatologie travaillant dans ce domaine. Tout est documenté ici.
Nous entendons beaucoup parler des applications de l’IA dans le domaine médical, même si la plupart jouent ce que l’on pourrait appeler un rôle consultatif, aidant les experts à remarquer des choses qu’ils n’auraient peut-être pas vues autrement, ou à repérer des modèles qu’il aurait fallu des heures à un technicien pour trouver. Cela est dû en partie au fait que ces modèles d’apprentissage automatique se contentent de trouver des liens entre les statistiques sans comprendre ce qui a causé ou conduit à quoi. Les chercheurs de Cambridge et de la Ludwig-Maximilians-Universität München y travaillent, car dépasser les relations corrélatives de base pourrait être extrêmement utile dans la création de plans de traitement.
Les travaux, dirigés par le professeur Stefan Feuerriegel du LMU, visent à créer des modèles capables d’identifier des mécanismes causals, et pas seulement des corrélations : « Nous donnons à la machine des règles pour reconnaître la structure causale et formaliser correctement le problème. Ensuite, la machine doit apprendre à reconnaître les effets des interventions et à comprendre, pour ainsi dire, comment les conséquences réelles se reflètent dans les données introduites dans les ordinateurs », a-t-il déclaré. Ils en sont encore à leurs débuts, et ils en sont conscients, mais ils estiment que leur travail s’inscrit dans une période de développement importante à l’échelle d’une décennie.
À l’Université de Pennsylvanie, l’étudiant diplômé Ro Encarnación travaille sur un nouvel angle dans le domaine de la « justice algorithmique » dont nous avons vu le lancement, principalement par des femmes et des personnes de couleur, au cours des sept ou huit dernières années. Son travail est davantage axé sur les utilisateurs que sur les plateformes, documentant ce qu’elle appelle « l’audit émergent ».
Lorsque TikTok ou Instagram publient un filtre un peu raciste ou un générateur d’images qui fait quelque chose d’époustouflant, que font les utilisateurs ? Se plaindre, bien sûr, mais ils continuent également à l’utiliser et apprennent à contourner ou même à exacerber les problèmes qui y sont codés. Ce n’est peut-être pas une « solution » au sens où nous l’imaginons, mais cela démontre la diversité et la résilience du côté utilisateur de l’équation : ils ne sont pas aussi fragiles ou passifs qu’on pourrait le penser.