Le géant des médias sociaux Meta a présenté ses derniers modèles d’intelligence artificielle (IA) pour l’édition et la génération de contenu, selon à un article de blog le 16 novembre.
La société présente deux modèles génératifs basés sur l’IA. Le premier, Emu Video, qui exploite le précédent modèle Emu de Meta, est capable de générer des clips vidéo basés sur des entrées de texte et d’images. Tandis que le deuxième modèle, Emu Edit, se concentre sur la manipulation d’images, promettant plus de précision dans l’édition d’images.
Les modèles sont encore au stade de la recherche, mais Meta affirme que leurs premiers résultats montrent des cas d’utilisation potentiels pour les créateurs, les artistes et les animateurs.
Selon le billet de blog de Meta, la vidéo Emu a été formée avec une approche « factorisée », divisant le processus de formation en deux étapes pour permettre au modèle de répondre à différentes entrées :
« Nous avons divisé le processus en deux étapes : d’abord, générer des images conditionnées par une invite de texte, puis générer une vidéo conditionnée à la fois par le texte et l’image générée. Cette approche « factorisée » ou divisée de la génération vidéo nous permet d’entraîner la génération vidéo. modèles efficacement. »
Sur la base d’une invite textuelle, le même modèle peut « animer » des images. Selon Meta, au lieu de s’appuyer sur une « profonde cascade de modèles », Emu Video n’utilise que deux modèles de diffusion pour générer des vidéos 512 x 512 de quatre secondes à 16 images par seconde.
Emu Edit, axé sur la manipulation d’images, permettra aux utilisateurs de supprimer ou d’ajouter des arrière-plans aux images, d’effectuer des transformations de couleur et de géométrie, ainsi que l’édition locale et globale des images.
« Nous affirmons que l’objectif principal ne devrait pas seulement être de produire une image « crédible ». Au lieu de cela, le modèle devrait se concentrer sur la modification précise uniquement des pixels pertinents pour la demande de modification », a noté Meta, affirmant que son modèle est capable de suivre avec précision instructions:
« Par exemple, lorsque vous ajoutez le texte « Aloha! » à une casquette de baseball, la casquette elle-même doit rester inchangée. »
Meta a formé Emu Edit à l’aide de tâches de vision par ordinateur avec un ensemble de données de 10 millions d’images synthétisées, chacune avec une image d’entrée et une description de la tâche, ainsi que l’image de sortie ciblée. « Nous pensons qu’il s’agit du plus grand ensemble de données de ce type à ce jour », a déclaré la société.
Le nouveau modèle Emu de Meta a été formé à l’aide de 1,1 milliard de données, y compris des photos et des légendes partagées par les utilisateurs sur Facebook et Instagram, a révélé le PDG Mark Zuckerberg lors de l’événement Meta Connect en septembre.
Les régulateurs examinent de près les outils basés sur l’IA de Meta, ce qui entraîne une approche de déploiement prudente de la part de l’entreprise technologique. Récemment, Meta a révélé qu’elle n’autoriserait pas les campagnes politiques et les annonceurs à utiliser ses outils d’IA pour créer des publicités sur Facebook et Instagram. Les règles générales de publicité de la plateforme n’incluent cependant aucune règle traitant spécifiquement de l’IA.