L’IA générative arrive pour les vidéos. Un nouveau site Web, QuickVid, combine plusieurs systèmes d’IA générative en un seul outil pour créer automatiquement des vidéos courtes YouTube, Instagram, TikTok et Snapchat.
Donné aussi peu qu’un seul mot, QuickVid choisit une vidéo de fond dans une bibliothèque, écrit un script et des mots-clés, superpose des images générées par DALL-E 2 et ajoute une voix off synthétique et une musique de fond à partir de la bibliothèque musicale libre de droits de YouTube. Le créateur de QuickVid, Daniel Habib, dit qu’il construit le service pour aider les créateurs à répondre à la demande « sans cesse croissante » de leurs fans.
« En fournissant aux créateurs des outils pour produire rapidement et facilement un contenu de qualité, QuickVid aide les créateurs à augmenter leur production de contenu, réduisant ainsi le risque d’épuisement », a déclaré Habib à TechCrunch dans une interview par e-mail. « Notre objectif est de permettre à votre créateur préféré de répondre aux demandes de son public en tirant parti des progrès de l’IA. »
Mais selon la façon dont ils sont utilisés, des outils comme QuickVid menacent d’inonder des chaînes déjà encombrées de spam et de contenu dupliqué. Ils sont également confrontés à des réactions négatives potentielles de la part des créateurs qui choisissent de ne pas utiliser les outils, que ce soit en raison du coût (10 $ par mois) ou par principe, mais pourraient devoir concurrencer une série de nouvelles vidéos générées par l’IA.
Aller après la vidéo
QuickVid, que Habib, un développeur autodidacte qui travaillait auparavant chez Meta sur Facebook Live et l’infrastructure vidéo, a construit en quelques semaines, lancé le 27 décembre. C’est relativement simple pour le moment – Habib dit que plus d’options de personnalisation arriveront dans Janvier – mais QuickVid peut assembler les composants qui composent une vidéo YouTube courte ou TikTok informative typique, y compris les légendes et même les avatars.
C’est facile à utiliser. Tout d’abord, un utilisateur saisit une invite décrivant le sujet de la vidéo qu’il souhaite créer. QuickVid utilise l’invite pour générer un script, tirant parti des pouvoirs de texte génératif de GPT-3. À partir de mots-clés extraits automatiquement du script ou saisis manuellement, QuickVid sélectionne une vidéo d’arrière-plan dans la bibliothèque multimédia libre de droits Pexels et génère des images de superposition à l’aide de DALL-E 2. Il produit ensuite une voix off via l’API de synthèse vocale de Google Cloud. — Habib dit que les utilisateurs pourront bientôt cloner leur voix — avant de combiner tous ces éléments dans une vidéo.
Voir cette vidéo réalisée avec l’invite « Chats »:
Ou celui-ci :
QuickVid ne repousse certainement pas les limites de ce qui est possible avec l’IA générative. Meta et Google ont tous deux présenté des systèmes d’IA capables de générer des clips complètement originaux à partir d’une invite de texte. Mais QuickVid fusionne l’IA existante pour exploiter le format répétitif et modélisé des vidéos courtes à gros rouleaux B, contournant ainsi le problème de devoir générer le métrage lui-même.
« Les créateurs qui réussissent ont une barre de très haute qualité et ne sont pas intéressés à publier du contenu qu’ils ne pensent pas être dans leur propre voix », a déclaré Habib. « C’est le cas d’utilisation sur lequel nous nous concentrons. »
Cela étant censé être le cas, en termes de qualité, les vidéos de QuickVid sont généralement mitigées. Les vidéos d’arrière-plan ont tendance à être un peu aléatoires ou seulement tangentiellement liées au sujet, ce qui n’est pas surprenant étant donné que QuickVids est actuellement limité au catalogue Pexels. Les images générées par DALL-E 2, quant à elles, présentent les limites de la technologie texte-image d’aujourd’hui, comme le texte brouillé et les proportions anormales.
En réponse à mes commentaires, Habib a déclaré que QuickVid était « testé et modifié quotidiennement ».
Problème de copyright
Selon Habib, les utilisateurs de QuickVid conservent le droit d’utiliser commercialement le contenu qu’ils créent et ont l’autorisation de le monétiser sur des plateformes comme YouTube. Mais le statut du droit d’auteur autour du contenu généré par l’IA est… nébuleux, du moins actuellement. L’Office américain des brevets et des marques (USPTO) a récemment décidé de révoquer la protection du droit d’auteur pour une bande dessinée générée par l’IA, par exemple, en disant que les œuvres protégées par le droit d’auteur nécessitent la paternité humaine.
Interrogé sur la manière dont la décision de l’USPTO pourrait affecter QuickVid, Habib a déclaré qu’il pensait qu’elle ne concernait que la « brevetabilité » des produits générés par l’IA et non les droits des créateurs d’utiliser et de monétiser leur contenu. Les créateurs, a-t-il souligné, ne soumettent pas souvent de brevets pour les vidéos et se penchent généralement sur l’économie des créateurs, laissant d’autres créateurs réutiliser leurs clips pour augmenter leur propre portée.
« Les créateurs se soucient de diffuser un contenu de haute qualité dans leur voix qui aidera à développer leur chaîne », a déclaré Habib.
Un autre défi juridique à l’horizon pourrait affecter l’intégration DALL-E 2 de QuickVid – et, par extension, la capacité du site à générer des superpositions d’images. Microsoft, GitHub et OpenAI sont poursuivis dans le cadre d’un recours collectif qui les accuse d’avoir enfreint la loi sur le droit d’auteur en autorisant Copilot, un système générateur de code, à régurgiter des sections de code sous licence sans fournir de crédit. (Copilot a été co-développé par OpenAI et GitHub, propriété de Microsoft.) Le cas a des implications pour l’IA d’art génératif comme DALL-E 2, qui a également été trouvé pour copier et coller à partir des ensembles de données sur lesquels ils ont été formés (c’est-à-dire, images).
Habib n’est pas concerné, arguant que le génie de l’IA générative est sorti de la bouteille. « Si un autre procès se présentait et qu’OpenAI disparaissait demain, il existe plusieurs alternatives qui pourraient alimenter QuickVid », a-t-il déclaré, faisant référence au système open source de type DALL-E 2, Stable Diffusion. QuickVid teste déjà Stable Diffusion pour générer des photos d’avatar.
Modération et spam
Outre les dilemmes juridiques, QuickVid pourrait bientôt avoir un problème de modération entre ses mains. Alors qu’OpenAI a mis en place des filtres et des techniques pour les prévenir, l’IA générative a des problèmes bien connus de toxicité et de précision factuelle. GPT-3 diffuse des informations erronées, en particulier sur les événements récents, qui dépassent les limites de sa base de connaissances. Et ChatGPT, une progéniture affinée de GPT-3, s’est avéré utiliser un langage sexiste et raciste.
C’est inquiétant, en particulier pour les personnes qui utiliseraient QuickVid pour créer des vidéos d’information. Dans un test rapide, j’ai demandé à mon partenaire – qui est beaucoup plus créatif que moi, en particulier dans ce domaine – d’entrer quelques invites offensives pour voir ce que QuickVid générerait. Au crédit de QuickVid, des invites manifestement problématiques telles que « Nouvel ordre mondial juif » et « Théorie du complot du 11 septembre » n’ont pas produit de scripts toxiques. Mais pour « Théorie critique de la race endoctrinant les étudiants », QuickVid a généré une vidéo impliquant que la théorie critique de la race pourrait être utilisée pour laver le cerveau des écoliers.
Voir:
Habib dit qu’il s’appuie sur les filtres d’OpenAI pour effectuer la majeure partie du travail de modération et affirme qu’il incombe aux utilisateurs d’examiner manuellement chaque vidéo créée par QuickVid pour s’assurer que « tout est dans les limites de la loi ».
« En règle générale, je pense que les gens devraient pouvoir s’exprimer et créer le contenu qu’ils souhaitent », a déclaré Habib.
Cela inclut apparemment le contenu spam. Habib fait valoir que les algorithmes des plateformes vidéo, et non QuickVid, sont les mieux placés pour déterminer la qualité d’une vidéo, et que les personnes qui produisent du contenu de mauvaise qualité « ne font que nuire à leur propre réputation ». L’atteinte à la réputation découragera naturellement les gens de créer des campagnes de spam de masse avec QuickVid, dit-il.
« Si les gens ne veulent pas regarder votre vidéo, vous ne recevrez pas de distribution sur des plateformes comme YouTube », a-t-il ajouté. « Produire du contenu de mauvaise qualité incitera également les gens à regarder votre chaîne sous un jour négatif. »
Mais il est instructif de regarder des agences de publicité comme Fractl, qui en 2019 a utilisé un système d’IA appelé Grover pour générer un site entier de supports marketing – la réputation soit maudite. Dans une interview avec The Verge, Kristin Tynski, partenaire de Fractl, a déclaré qu’elle prévoyait que l’IA générative permettrait « un énorme tsunami de contenu généré par ordinateur dans tous les créneaux imaginables ».
Dans tous les cas, les plateformes de partage de vidéos comme TikTok et YouTube n’ont pas eu à faire face à la modération massive du contenu généré par l’IA. Deepfakes – des vidéos synthétiques qui remplacent une personne existante par la ressemblance de quelqu’un d’autre – ont commencé à peupler des plateformes comme YouTube il y a plusieurs années, grâce à des outils qui ont facilité la production de séquences deepfakes. Mais contrairement aux deepfakes les plus convaincants d’aujourd’hui, les types de vidéos que QuickVid crée ne sont évidemment pas générés par l’IA.
La politique de Google Search sur le texte généré par l’IA pourrait être un aperçu de ce qui va arriver dans le domaine vidéo. Google ne traite pas le texte synthétique différemment du texte écrit par l’homme en ce qui concerne les classements de recherche, mais prend des mesures sur le contenu qui est « destiné à manipuler les classements de recherche et non à aider les utilisateurs ». Cela inclut le contenu assemblé ou combiné à partir de différentes pages Web qui « [doesn’t] ajouter une valeur suffisante » ainsi que le contenu généré par des processus purement automatisés, les deux pouvant s’appliquer à QuickVid.
En d’autres termes, les vidéos générées par l’IA pourraient ne pas être purement et simplement bannies des plates-formes si elles décollent de manière majeure, mais deviennent simplement le coût des affaires. Cela ne devrait pas apaiser les craintes des experts qui pensent que des plates-formes comme TikTok deviennent un nouveau foyer pour les vidéos trompeuses, mais – comme l’a dit Habib lors de l’interview – « il n’y a pas d’arrêt de la révolution générative de l’IA ».