Imaginez avoir la capacité de rappeler vos souvenirs avec une précision presque parfaite. Alors que nous nous dirigeons vers un avenir de plus en plus centré sur l’IA, ce rêve semble sur le point de se réaliser. Les chercheurs ayant maintenant utilisé Stable Diffusion pour reconstruire des images haute résolution assez précises en lisant les ondes cérébrales humaines, nous pourrions un jour extraire des images des annales de notre esprit sans avoir pris une seule photo.
Les chercheurs Yu Takagi et Shinji Nishimoto, de la Graduate School of Frontier Biosciences de l’Université d’Osaka, ont récemment écrit un article décrivant comment il est possible de reconstruire des images haute résolution (s’ouvre dans un nouvel onglet) (PDF) en utilisant des modèles de diffusion latente, en lisant l’activité cérébrale humaine obtenue à partir de l’imagerie par résonance magnétique fonctionnelle (IRMf), « sans avoir besoin de formation ou d’ajustement de modèles génératifs profonds complexes » (via Vice (s’ouvre dans un nouvel onglet)).
Considérant que nous ne comprenons pas entièrement comment la traduction sous-jacente se produit dans le cerveau, les résultats de cette recherche sont incroyables. Le fait que Takagi et Nishimoto aient pu amadouer des images haute résolution de l’espace latent en utilisant des ondes cérébrales humaines est étonnant.
D’accord, ils disent haute résolution, mais nous parlons de 512 x 512 pixels. Pourtant, c’est un spectacle sacrément meilleur que le 256p que la concurrence avait réussi, et avec une « fidélité sémantique » beaucoup plus élevée. En d’autres termes, les traductions sont en fait vaguement reconnaissables et représentatives des images originales que les participants avaient vues.
Les études précédentes impliquaient « la formation et éventuellement le réglage fin de modèles génératifs, tels que les GAN, avec le même ensemble de données utilisé dans les expériences d’IRMf », expliquent les chercheurs. C’est un défi car ces modèles génératifs sont non seulement difficiles à utiliser, mais le matériel de formation est extrêmement limité. Il semble que les chercheurs d’Osaka aient pu contourner ces limitations en utilisant Stable Diffusion, et les résultats semblent vraiment impressionnants.
Nous avons tous vu l’épisode Black Mirror. Toute votre histoire (s’ouvre dans un nouvel onglet) est un regard terrifiant sur un avenir dans lequel un implant enregistre notre vie quotidienne afin que nous puissions ensuite examiner attentivement chaque instant et ruiner nos relations.
Mais avant de confier l’idée d’utiliser l’IA pour le rappel visuel au segment dystopique de votre cerveau, pensez aux utilisations pratiques ! Nous pourrions un jour voir des personnes non verbales, ou des personnes paralysées qui ne peuvent pas simplement prendre une photo de quelque chose à montrer plus tard, capables de nous montrer exactement à quoi elles pensent en faisant passer leurs ondes cérébrales par une intelligence artificielle.
Votre prochaine machine
Meilleur PC de jeu (s’ouvre dans un nouvel onglet): Les meilleures machines pré-construites par les pros
Meilleur ordinateur portable de jeu (s’ouvre dans un nouvel onglet): Ordinateurs portables parfaits pour les jeux mobiles
En tant que l’une des premières études (sinon la première) à utiliser des modèles de diffusion de cette manière, cela peut au moins aider à peindre ces algorithmes sous un meilleur jour. Stable Diffusion a récemment été critiqué, du moins dans le domaine de l’art. A juste titre quand certains modèles de diffusion grattent internet (s’ouvre dans un nouvel onglet) et régurgiter la première page d’ArtStation, uniquement pour être utilisé pour le gain financier d’un parti paresseux.
Mais si les données sont utilisées correctement et que la facilité de formation de ces modèles peut bénéficier au domaine de l’accessibilité afin que les gens puissent donner des représentations précises de leur propre monde intérieur et communiquer de nouvelles façons, je suis tout à fait d’accord.