Meta est en open source un outil d’IA appelé ImageBind qui prédit les connexions entre les données similaires à la façon dont les humains perçoivent ou imaginent un environnement. Alors que les générateurs d’images comme Midjourney, Stable Diffusion et DALL-E 2 associent des mots à des images, vous permettant de générer des scènes visuelles basées uniquement sur une description textuelle, ImageBind jette un filet plus large. Il peut lier du texte, des images/vidéos, de l’audio, des mesures 3D (profondeur), des données de température (thermique) et des données de mouvement (à partir d’unités de mesure inertielles) – et il le fait sans avoir à s’entraîner au préalable sur toutes les possibilités. Il s’agit d’un stade précoce d’un framework qui pourrait éventuellement générer des environnements complexes à partir d’une entrée aussi simple qu’une invite de texte, une image ou un enregistrement audio (ou une combinaison des trois).
Vous pourriez voir ImageBind comme un rapprochement de l’apprentissage automatique de l’apprentissage humain. Par exemple, si vous vous trouvez dans un environnement stimulant comme une rue animée d’une ville, votre cerveau (en grande partie inconsciemment) absorbe les images, les sons et autres expériences sensorielles pour déduire des informations sur les voitures et les piétons qui passent, les grands immeubles, la météo et bien plus encore. Les humains et les autres animaux ont évolué pour traiter ces données pour notre avantage génétique : la survie et la transmission de notre ADN. (Plus vous êtes conscient de votre environnement, plus vous pouvez éviter le danger et vous adapter à votre environnement pour une meilleure survie et prospérité.) À mesure que les ordinateurs se rapprochent de l’imitation des connexions multisensorielles des animaux, ils peuvent utiliser ces liens pour générer pleinement réalisé scènes basées uniquement sur des blocs de données limités.
Ainsi, alors que vous pouvez utiliser Midjourney pour inciter « un basset portant une tenue de Gandalf en équilibre sur un ballon de plage » et obtenir une photo relativement réaliste de cette scène bizarre, un outil d’IA multimodal comme ImageBind peut éventuellement créer une vidéo du chien avec sons correspondants, y compris un salon de banlieue détaillé, la température de la pièce et les emplacements précis du chien et de toute autre personne dans la scène. « Cela crée des opportunités distinctives pour créer des animations à partir d’images statiques en les combinant avec des invites audio », ont déclaré aujourd’hui les chercheurs de Meta dans un article de blog axé sur les développeurs. « Par exemple, un créateur peut coupler une image avec un réveil et un chant de coq, et utiliser une invite audio de chant pour segmenter le coq ou le son d’une alarme pour segmenter l’horloge et animer les deux dans une séquence vidéo. »
Quant à ce que l’on pourrait faire d’autre avec ce nouveau jouet, cela pointe clairement vers l’une des ambitions fondamentales de Meta : la réalité virtuelle, la réalité mixte et le métaverse. Par exemple, imaginez un futur casque capable de construire à la volée des scènes 3D entièrement réalisées (avec du son, du mouvement, etc.). Ou, les développeurs de jeux virtuels pourraient éventuellement l’utiliser pour éliminer une grande partie des démarches de leur processus de conception. De même, les créateurs de contenu pourraient créer des vidéos immersives avec des paysages sonores et des mouvements réalistes basés uniquement sur du texte, des images ou des entrées audio. Il est également facile d’imaginer qu’un outil comme ImageBind ouvre de nouvelles portes dans l’espace de l’accessibilité, générant des descriptions multimédias en temps réel pour aider les personnes malvoyantes ou malentendantes à mieux percevoir leur environnement immédiat.
« Dans les systèmes d’IA typiques, il existe une intégration spécifique (c’est-à-dire des vecteurs de nombres pouvant représenter des données et leurs relations dans l’apprentissage automatique) pour chaque modalité respective », a déclaré Meta. « ImageBind montre qu’il est possible de créer un espace d’intégration commun à travers plusieurs modalités sans avoir besoin de s’entraîner sur les données avec chaque combinaison différente de modalités. C’est important car il n’est pas possible pour les chercheurs de créer des ensembles de données avec des échantillons qui contiennent, par exemple, des données audio et des données thermiques d’une rue animée de la ville, ou des données de profondeur et une description textuelle d’une falaise en bord de mer. »
Meta considère que la technologie finit par s’étendre au-delà de ses six « sens » actuels, pour ainsi dire. « Alors que nous avons exploré six modalités dans notre recherche actuelle, nous pensons que l’introduction de nouvelles modalités qui relient autant de sens que possible – comme le toucher, la parole, l’odorat et les signaux IRMf du cerveau – permettront des modèles d’IA centrés sur l’humain plus riches. » Les développeurs intéressés par l’exploration de ce nouveau bac à sable peuvent commencer par plonger dans le code open source de Meta.