OpenAI a captivé le monde de la technologie il y a quelques mois avec un modèle d’IA génératif, Sora, qui transforme les descriptions de scènes en vidéos originales – aucune caméra ni équipe de tournage n’est requise. Mais Sora a jusqu’à présent été étroitement fermée, et la société semble s’adresser aux créatifs bien financés comme les réalisateurs hollywoodiens – et non nécessairement aux amateurs ou aux petits spécialistes du marketing.
Alex Mashrabov, l’ancien responsable de l’IA générative chez Snap, a senti une opportunité. Il a donc lancé Higgsfield AI, une plateforme de création et de montage vidéo basée sur l’IA, conçue pour des applications plus personnalisées et plus adaptées.
Propulsée par un modèle texte-vidéo personnalisé, la première application de Higgsfield, Diffuse, peut générer des vidéos à partir de zéro ou prendre un selfie et générer un clip mettant en vedette cette personne.
« Notre public cible est constitué de créateurs de tous types », a déclaré Mashhabov à TechCrunch dans une interview, « des utilisateurs réguliers qui souhaitent créer du contenu amusant avec leurs amis aux créateurs de contenu social cherchant à essayer un nouveau format de contenu aux spécialistes du marketing des médias sociaux qui veulent que leur marque de se démarquer. »
Mashrabov est arrivé chez Snap via AI Factory, sa précédente startup, que Snap a acquise en 2020 pour 166 millions de dollars. Chez Snap, Mashrabov a aidé à créer des produits tels que des effets AR et des filtres pour Snapchat, y compris Cameos, ainsi que le chabot controversé MyAI de Snapchat.
Higgsfield – que Mashhabov a co-lancé il y a plusieurs mois avec Yerzat Dulat, un chercheur en IA spécialisé dans la vidéo générative – propose un ensemble organisé de clips pré-générés, un outil pour télécharger des médias de référence (c’est-à-dire des images et des vidéos) et un éditeur rapide qui permet les utilisateurs décrivent les personnages, les actions et les scènes qu’ils souhaitent représenter. Grâce à Diffuse, les utilisateurs peuvent s’insérer directement dans une scène générée par l’IA ou demander à leur image numérique d’imiter des éléments, comme des mouvements de danse, capturés dans d’autres vidéos.
« Notre modèle prend en charge des mouvements et des expressions très réalistes », a déclaré Mashrabov. « Nous sommes pionniers en matière de « modèles mondiaux » pour les consommateurs, ce qui nous permettra de créer et de monter des vidéos de premier ordre avec un niveau de contrôle élevé. »
Higgsfield n’est pas la seule startup de vidéo générative à affronter OpenAI. Runway a été l’un des premiers sur le marché et ses outils continuent de s’améliorer. Il y a aussi Haiper, qui bénéficie du soutien de deux anciens de DeepMind et de plus de 13 millions de dollars en capital-risque.
Mashhabov affirme que Diffuse se démarquera grâce à sa stratégie de commercialisation axée sur le mobile et axée sur le social.
« En donnant la priorité aux applications iOS et Android plutôt qu’aux flux de travail de bureau, nous permettons aux créateurs de créer du contenu convaincant sur les réseaux sociaux à tout moment et en tout lieu », a déclaré Mashhabov. « En effet, en nous appuyant sur le mobile, nous sommes en mesure de donner la priorité dès le premier jour à la facilité d’utilisation et aux fonctionnalités conviviales. »
Higgsfield fonctionne également au plus juste. Mashhabov affirme que les modèles génératifs qui sous-tendent la plateforme ont été développés par une équipe de 16 personnes en moins de neuf mois et formés sur un cluster de 32 GPU (32 GPU peuvent sembler beaucoup, mais étant donné qu’OpenAI en utilise des dizaines de milliers, ce n’est pas le cas). vraiment). Et Higgsfield n’a levé que 8 millions de dollars à ce jour, dont la majeure partie provenait d’une récente tranche de financement de démarrage dirigée par Menlo Ventures.
Pour garder une longueur d’avance sur ses concurrents, Higgsfield prévoit d’investir dans la création d’un éditeur vidéo amélioré qui permettra aux utilisateurs de modifier les personnages et les objets dans les vidéos, et dans la formation de modèles de génération vidéo plus puissants spécifiquement pour les cas d’utilisation des médias sociaux. En fait, Mashrabov considère les médias sociaux – et le marketing des médias sociaux – comme le principal créneau lucratif de Higgsfield.
Bien que Diffuse soit actuellement gratuit, Mashrabov envisage un avenir dans lequel les spécialistes du marketing paieront une sorte de frais ou d’abonnement pour des fonctionnalités premium, ou pour des campagnes de volume ou à grande échelle.
« Nous pensons que Higgsfield ouvre un niveau incroyable de réalisme et de cas d’utilisation de production de contenu pour les spécialistes du marketing des médias sociaux », a-t-il déclaré. « Les directeurs marketing et les directeurs créatifs nous disent constamment qu’ils doivent optimiser les budgets de production de contenu et raccourcir les délais tout en continuant à proposer un contenu percutant. Nous pensons donc que les solutions d’IA générative vidéo constitueront une solution essentielle pour les aider à y parvenir.
Bien entendu, Higgsfield n’est pas à l’abri des défis plus larges auxquels sont confrontées les startups d’IA générative.
Il est bien établi que les modèles d’IA génératifs comme ceux qui alimentent Diffuse peuvent « régurgiter » les données d’entraînement. Pourquoi est-ce problématique ? Eh bien, si les modèles étaient formés sur du contenu protégé par le droit d’auteur sans autorisation ni accord de licence, les utilisateurs de ces modèles pourraient involontairement générer une œuvre portant atteinte au droit d’auteur, les exposant ainsi à des poursuites judiciaires.
Mashhabov n’a pas révélé la source des données d’entraînement de Higgsfield (à part dire qu’elles proviennent de « plusieurs endroits accessibles au public »), et n’a pas non plus précisé si Higgsfield conserverait les données des utilisateurs pour entraîner les futurs modèles, ce qui pourrait ne pas convenir. certains clients professionnels. Il a noté que les utilisateurs de Diffuse peuvent demander que leurs données soient supprimées à tout moment via l’application.
Les plateformes de « clonage » numérique comme Higgsfield sont également propices aux abus, comme l’a montré la propagation incontrôlable des deepfakes sur les réseaux sociaux ces derniers mois.
Dans le même esprit, Higgsfield pourrait faciliter le vol du contenu des créateurs. Par exemple, il suffit de télécharger une vidéo de la chorégraphie d’une personne pour générer une vidéo de lui-même exécutant cette même chorégraphie.
J’ai demandé à Mashrabov quelles garanties ou protections Higgsfield pourrait utiliser pour tenter de prévenir les abus et, même s’il n’a pas voulu entrer dans les détails, il a affirmé que la plate-forme utilisait un mélange de modération automatisée et manuelle.
« Nous avons décidé de déployer progressivement le produit et de le tester d’abord sur certains marchés, afin de pouvoir surveiller les risques d’abus et faire évoluer le produit si nécessaire », a ajouté Mashhabov.
Nous devrons attendre et voir si cela fonctionne bien dans la pratique.