Le nouveau modèle Sora d’OpenAI peut générer des vidéos d’une minute à partir d’invites textuelles

OpenAI a annoncé jeudi Sora, un tout nouveau modèle qui génère des vidéos haute définition d’une durée maximale d’une minute à partir d’invites de texte. Sora, qui signifie « ciel » en japonais, ne sera pas disponible au grand public de sitôt. Au lieu de cela, OpenAI le met à la disposition d’un petit groupe d’universitaires et de chercheurs qui évalueront les dommages et son potentiel d’utilisation abusive.

« Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet et l’arrière-plan », a indiqué la société sur son site Internet. « Le modèle comprend non seulement ce que l’utilisateur a demandé dans l’invite, mais aussi comment ces choses existent dans le monde physique. »

L’une des vidéos générées par Sora et partagée par OpenAI sur son site Web montre un couple marchant dans une ville enneigée de Tokyo alors que des pétales de fleurs de cerisier et des flocons de neige soufflent autour d’eux.

Une autre montre des mammouths laineux d’aspect réaliste marchant dans une prairie enneigée sur fond de chaînes de montagnes enneigées.

OpenAI affirme que le modèle fonctionne grâce à une « compréhension approfondie du langage », qui lui permet d’interpréter avec précision les invites textuelles. Pourtant, comme pratiquement tous les générateurs d’images et de vidéos IA que nous avons vus, Sora n’est pas parfait. Dans l’un des exemples, l’invite, qui demande une vidéo d’un Dalmatien regardant à travers une fenêtre et de gens « marchant et faisant du vélo le long des rues du canal », omet complètement les gens et les rues de la vidéo. OpenAI prévient également que le modèle peut avoir du mal à comprendre les causes et les effets : il peut générer une vidéo d’une personne mangeant un cookie, par exemple, mais le cookie peut ne pas comporter de marques de morsure.

Sora n’est pas le premier modèle texte-vidéo. D’autres sociétés, dont Meta, Google et Runway, ont soit présenté des outils de conversion texte-vidéo, soit les ont mis à la disposition du public. Pourtant, aucun autre outil n’est actuellement capable de générer des vidéos d’une durée maximale de 60 secondes. Sora génère également des vidéos entières à la fois, au lieu de les assembler image par image comme les autres modèles, ce qui garantit que les sujets de la vidéo restent les mêmes même lorsqu’ils sont temporairement hors de vue.

L’essor des outils de conversion texte-vidéo a suscité des inquiétudes quant à leur capacité à créer plus facilement de fausses séquences réalistes. « Je suis absolument terrifié à l’idée que ce genre de choses puisse influencer une élection très disputée », Oren Etzioni, professeur à l’Université de Washington spécialisé dans l’intelligence artificielle et fondateur de True Media, une organisation qui s’efforce d’identifier la désinformation dans les milieux politiques. campagnes, dit Le New York Times. Et plus largement, l’IA générative a suscité des réactions négatives de la part des artistes et des professionnels de la création préoccupés par l’utilisation de la technologie pour remplacer des emplois.

OpenAI a déclaré qu’elle travaillait avec des experts dans des domaines tels que la désinformation, les contenus haineux et les préjugés pour tester l’outil avant de le mettre à la disposition du public. La société construit également des outils capables de détecter les vidéos générées par Sora et d’inclure des métadonnées dans les vidéos générées pour une détection plus facile. L’entreprise a refusé de dire au Fois comment Sora avait été formé, sauf en déclarant qu’il utilisait à la fois des « vidéos accessibles au public » ainsi que des vidéos sous licence des détenteurs de droits d’auteur.

Source-145