Cette semaine dans l’IA : Amazon « améliore » les avis avec l’IA tandis que Snap devient voyou

Suivre une industrie aussi rapide que l’IA est une tâche difficile. Donc, jusqu’à ce qu’une IA puisse le faire pour vous, voici un résumé pratique des histoires de la semaine dernière dans le monde de l’apprentissage automatique, ainsi que des recherches et des expériences notables que nous n’avons pas couvertes par elles-mêmes.

Cette semaine dans AI, Amazon a annoncé qu’il commencerait à exploiter l’IA générative pour « améliorer » les avis sur les produits. Une fois déployée, la fonctionnalité fournira un court paragraphe de texte sur la page de détail du produit qui met en évidence les capacités du produit et le sentiment des clients mentionnés dans les avis.

Cela ressemble à une fonctionnalité utile, non ? Peut-être pour les acheteurs et les vendeurs. Mais qu’en est-il des critiques ?

Je ne vais pas prétendre que les critiques d’Amazon sont une forme de grand art. Au contraire, un bon nombre sur la plate-forme ne sont pas réels – ou sont eux-mêmes générés par l’IA.

Mais certains critiques, que ce soit par souci sincère pour leurs collègues acheteurs ou dans un effort pour faire couler le jus créatif, consacrent du temps à rédiger des critiques qui non seulement informent, mais divertissent. Les résumés de ces critiques leur feraient une injustice – et passeraient complètement à côté de l’essentiel.

Peut-être êtes-vous tombé sur ces joyaux. Souvent, ils se trouvent dans les sections de critiques de livres et de films, où, d’après mon expérience anecdotique, les critiques d’Amazon ont tendance à être plus… verbeux.

Crédits image : Amazone

Prenez l’examen de l’utilisateur Amazon « Sweet Home » de « Catcher in the Rye » de JD Salinger, qui compte plus de 2 000 mots. Faisant référence aux œuvres de William S. Burroughs et Jack Kerouac ainsi qu’à George Bernard Shaw, Gary Snyder et Dorothy Parker, la critique de Sweet Home est moins une critique qu’une analyse approfondie, reprenant et contextualisant les fils du roman pour tenter d’expliquer son maintien. pouvoir.

Et puis il y a la critique de Bryan Desmond sur « Gravity’s Rainbow », le roman tristement dense de Thomas Pynchon. De même verbeux – 1 120 mots – il souligne non seulement les points forts du livre (prose éblouissante) et les points faibles (attitudes dépassées, en particulier envers les femmes), comme on pourrait s’y attendre d’une critique, mais relaie en détail l’expérience de lecture de Desmond.

L’IA pourrait-elle les résumer ? Bien sûr. Mais au détriment de la nuance et de la perspicacité.

Bien sûr, Amazon n’a pas l’intention de cacher les avis au profit des résumés générés par l’IA. Mais je crains que les examinateurs ne soient moins enclins à consacrer autant de temps et d’attention si leur travail est de moins en moins lu par l’acheteur moyen. C’est une grande expérience, et je suppose – comme pour la plupart de ce que touche l’IA générative – seul le temps nous le dira.

Voici quelques autres histoires d’intelligence artificielle de ces derniers jours :

  • Mon IA devient folle : La fonctionnalité Mon IA de Snapchat, un chatbot IA intégré lancé plus tôt cette année avec sa juste part de controverse, a brièvement semblé avoir son propre esprit. Mardi, l’IA a publié sa propre histoire sur l’application, puis a cessé de répondre aux messages des utilisateurs, ce que certains utilisateurs de Snapchat ont trouvé déconcertant. La société mère de Snapchat, Snap, a confirmé plus tard qu’il s’agissait d’un bogue.
  • OpenAI propose une nouvelle technique de modération : OpenAI affirme avoir développé un moyen d’utiliser GPT-4, son modèle phare d’IA générative, pour la modération de contenu, allégeant ainsi le fardeau des équipes humaines.
  • OpenAI acquiert une société : Dans d’autres nouvelles d’OpenAI, la startup AI a acquis Global Illumination, une startup basée à New York qui tire parti de l’IA pour créer des outils créatifs, des infrastructures et des expériences numériques. Il s’agit de la première acquisition publique d’OpenAI dans son histoire d’environ sept ans.
  • Un nouvel ensemble de données de formation LLM : L’Allen Institute for AI a publié un énorme ensemble de données textuelles pour les grands modèles de langage (LLM) sur le modèle de ChatGPT d’OpenAI qui est libre d’utiliser une ouverture pour inspection. Dolma, comme l’ensemble de données est appelé, est destiné à servir de base au modèle de langage ouvert prévu par le groupe de recherche, ou OLMo (Dolma est l’abréviation de « Data to feed OLMo’s Appetite »).
  • Robots lave-vaisselle, ouvre-portes : Des chercheurs de l’ETH Zurich ont mis au point une méthode pour apprendre aux robots à effectuer des tâches comme ouvrir et franchir des portes – et plus encore. L’équipe affirme que le système peut être adapté à différents facteurs de forme, mais par souci de simplicité, ils ont exécuté des démos sur un quadrupède – qui peuvent être consultées ici.
  • Opera se dote d’un assistant IA : L’application de navigateur Web d’Opera pour iOS reçoit un assistant IA. La société a annoncé cette semaine, Opera sur iOS inclura désormais Aria, son produit d’IA de navigateur construit en collaboration avec OpenAI, intégré directement dans le navigateur Web et gratuit pour tous les utilisateurs.
  • Google adopte les résumés d’IA : Google a déployé cette semaine quelques nouvelles mises à jour de son Search Generative Experience (SGE) vieux de près de trois mois, le mode conversationnel de l’entreprise basé sur l’IA dans la recherche, dans le but d’aider les utilisateurs à mieux apprendre et à comprendre les informations qu’ils découvrent sur le Web. Les fonctionnalités incluent des outils pour voir les définitions de termes inconnus, ceux qui aident à améliorer votre compréhension et le codage des informations dans toutes les langues et une fonctionnalité intéressante qui vous permet d’exploiter la puissance de l’IA de SGE pendant que vous naviguez.
  • Google Photos gagne l’IA : Google Photos a ajouté un nouvelle façon de revivre et de partager vos moments les plus mémorables avec l’introduction d’une nouvelle vue Souvenirs, qui vous permet d’enregistrer vos souvenirs préférés ou de créer les vôtres à partir de zéro. Avec Memories, vous pouvez créer une chronologie de type album qui comprend des éléments tels que vos voyages, célébrations et moments quotidiens les plus mémorables avec vos proches.
  • Anthropic lève plus d’argent : Anthropiqueune startup d’IA cofondée par d’anciens dirigeants d’OpenAI, recevra un financement de 100 millions de dollars de l’un des plus grands opérateurs de téléphonie mobile de Corée du Sud, Télécom SK, a annoncé dimanche la société de télécommunications. La nouvelle du financement intervient trois mois après qu’Anthropic a levé 450 millions de dollars lors de son cycle de financement de série C dirigé par Spark Capital en mai.

Plus d’apprentissages automatiques

J’étais (c’est-à-dire ton co-auteur Devin) au SIGGRAPH la semaine dernière, où l’IA, bien qu’elle soit actuellement un épouvantail dans l’industrie du cinéma et de la télévision, était en pleine force à la fois comme outil et comme sujet de recherche. J’aurai bientôt une histoire plus longue sur la façon dont il est utilisé par les artistes VFX de manière innovante et totalement non controversée, mais les articles exposés étaient également très bons. Cette session en particulier avait plusieurs nouvelles idées intéressantes.

Crédits image : Université de Tel-Aviv

Les modèles de génération d’images ont cette chose étrange où si vous leur dites de dessiner « un chat blanc et un chien noir », cela mélange souvent les deux, en ignore un ou crée un chat ou des animaux qui sont à la fois noirs et blancs. Une approche de l’Université de Tel Aviv appelée « assister et exciter » trie l’invite en ses éléments constitutifs grâce à l’attention, puis s’assure que l’image résultante contient des représentations appropriées de chacun. Le résultat est un modèle bien meilleur pour analyser les invites multi-sujets. Je m’attendrais à voir bientôt quelque chose comme ça intégré dans les générateurs d’art !

Crédits image : MIT/Institut Max Planck

Une autre faiblesse des modèles d’art génératif est que si vous voulez faire de petits changements, comme le sujet regardant un peu plus sur le côté, vous devez tout refaire – perdant parfois ce que vous avez aimé dans l’image pour commencer. « Drag Your GAN » est un outil assez étonnant qui permet à l’utilisateur de définir et de déplacer des points un par un ou plusieurs à la fois – comme vous pouvez le voir sur l’image, la tête d’un lion peut être tournée, ou sa bouche ouverte, en régénérant juste cette partie de l’image pour s’accorder avec les nouvelles proportions. Google est dans la liste des auteurs, vous pouvez donc parier qu’ils cherchent à l’utiliser.

Crédits image : Université de Tel-Aviv

Ce papier de « typographie sémantique » est plus ludique, mais aussi extrêmement astucieux. En traitant chaque lettre comme une image vectorielle et en déplaçant cette image vers une image vectorielle de l’objet auquel un mot fait référence, cela crée des logotypes assez impressionnants. Si vous ne savez pas comment transformer le nom de votre entreprise en un jeu de mots visuel, cela pourrait être un excellent moyen de commencer.

Ailleurs, nous avons une pollinisation croisée intéressante entre la science du cerveau et l’IA.

Eh bien, ce n’est pas si simple.

Ces chercheurs de Berkeley ont utilisé un modèle d’apprentissage automatique pour interpréter l’activité cérébrale tout en écoutant de la musique et reconstruire certains des clusters axés sur le rythme, la mélodie ou la voix. Je suis toujours sceptique quant à ce genre d’études de type « nous lisons le cerveau », alors prenez tout avec des pincettes, mais ML est excellent pour isoler un signal dans le bruit, et l’activité cérébrale est très, très bruyante.

Le MIT et Harvard se sont associés pour tenter de faire progresser notre compréhension des astrocytes, des cellules du cerveau qui remplissent une fonction encore inconnue. Ils proposent que les cellules puissent agir comme quelque chose comme un transformateur ou un mécanisme d’attention – un concept d’apprentissage automatique étant mappé sur le cerveau plutôt que l’inverse ! L’auteur principal de l’article, Dmitry Krotov du MIT, résume bien la situation :

Le cerveau est de loin supérieur même aux meilleurs réseaux de neurones artificiels que nous ayons développés, mais nous ne savons pas exactement comment fonctionne le cerveau. Il y a une valeur scientifique à penser aux connexions entre le matériel biologique et les réseaux d’intelligence artificielle à grande échelle. C’est la neuroscience pour l’IA et l’IA pour les neurosciences.

Dans l’IA médicale, les données des appareils grand public sont également souvent considérées comme bruyantes ou peu fiables. Mais encore une fois, les systèmes ML peuvent s’adapter, comme le montre ce nouvel article de Yale. La recherche devrait nous rapprocher des appareils portables qui nous avertissent des problèmes cardiaques avant qu’ils ne deviennent aigus.

Les élèves font la démonstration de leur application de recherche de chaise vide.

L’une des premières applications pratiques de GPT-4 a été utilisée dans Be My Eyes, une application qui aide les personnes aveugles à naviguer avec l’aide d’un partenaire distant. Les étudiants de l’EPFL ont développé deux autres applications qui pourraient être très agréables pour toute personne ayant une déficience visuelle. L’un dirige simplement l’utilisateur vers un siège vide dans une pièce, et l’autre ne lit que les informations pertinentes des flacons de médicaments : principe actif, dosage, etc. Des tâches simples mais nécessaires !

Enfin, nous avons le « RoboAgent » équivalent aux tout-petits développé par CMU et Meta, qui vise à acquérir des compétences quotidiennes comme ramasser des choses ou comprendre les interactions d’objets simplement en regardant et en touchant des choses – comme le fait un enfant.

« Un agent capable de ce type d’apprentissage nous rapproche d’un robot général qui peut accomplir une variété de tâches dans divers environnements invisibles et évoluer continuellement à mesure qu’il accumule plus d’expériences », a déclaré Shubham Tulsiani de CMU. Vous pouvez en savoir plus sur le projet ci-dessous :

Source-146