Dumme, une startup mettant l’IA en pratique dans le montage vidéo, génère déjà une demande avant de s’ouvrir au public. La société soutenue par Y Combinator compte des centaines de créateurs de vidéos qui testent son produit, qui exploite l’IA pour créer des vidéos abrégées à partir de contenu YouTube, et une liste d’attente de plus de 20 000 pré-lancement, indique-t-il. En utilisant une combinaison de modèles d’IA propriétaires et existants, la promesse de Dumme est qu’elle peut non seulement économiser du temps d’édition, mais aussi – et voici sa grande revendication – faire un meilleur travail que la main-d’œuvre (humaine) sous contrat qui est souvent chargée de tâches plus subalternes. les travaux de montage vidéo, comme la réduction du contenu long pour publication sur des plateformes courtes comme YouTube Shorts, TikTok ou Instagram Reels.
Fondé en janvier 2022 et participant au programme hiver 2022 de l’accélérateur de startups Y Combinator, le co-fondateur et PDG de Dumme, Merwane Drai, a déclaré qu’il se concentrait à l’origine sur la création d’un moteur de recherche pour la vidéo. Mais il y a environ six mois, l’équipe s’est rendu compte qu’un meilleur produit pourrait être de réutiliser les mêmes modèles d’IA qu’ils développaient pour éditer des clips vidéo à la place.
Rejoint par les co-fondateurs Will Dahlstrom (CPO) et Jordan Brannan (CTO), tous issus de l’IA, Drai a réalisé que Dumme avait peut-être atterri sur le bon marché de produits après que leur application soit devenue virale, faisant planter leurs serveurs.
« Nous ne nous attendions pas vraiment à ce que cela obtienne beaucoup de traction ou quoi que ce soit, alors nous avons simplement mis quelque chose là-bas », explique Drai. « Ensuite, ce qui s’est passé, c’est que du jour au lendemain, nous nous sommes réveillés avec des serveurs surchargés – comme si rien ne fonctionnait réellement. Nous avons donc tout noté et créé une sorte de liste d’attente », poursuit-il. « Le lendemain matin, nous nous sommes probablement réveillés avec 5 000 personnes, ce qui était intéressant. »
L’équipe a découvert plus tard qu’un créateur de TikTok avait publié une courte vidéo sur le produit, qui a envoyé un flot de trafic sur son site.
« En fait, cela ne s’est jamais calmé », note Drai.
Le produit, prononcé « factice », a séduit les créateurs car il visait à simplifier et accélérer le travail de montage vidéo.
Utiliser Dumme est aussi simple que son nom l’indique. Pour commencer, l’utilisateur colle le lien d’une vidéo YouTube, puis clique sur « générer » et l’IA produira un certain nombre de courtes vidéos présentant les faits saillants de ce contenu ingéré. La société affirme qu’elle utilise YouTube comme source, au lieu de prendre en charge les séquences vidéo brutes, afin d’externaliser la modération du contenu – c’est-à-dire que si c’est autorisé sur YouTube, c’est autorisé dans Dumme.
Le temps de traitement et le nombre de clips résultants dépendront de la longueur de la vidéo originale.
Mais à titre d’exemple, un podcast vidéo d’une heure peut prendre environ 20 minutes à traiter et vous commencerez à recevoir des clips après environ cinq minutes, explique Drai. Une fois terminés, les créateurs peuvent télécharger les clips vidéo, qui durent moins de 60 secondes par défaut, et les télécharger sur n’importe quelle plate-forme prenant en charge le contenu abrégé, comme YouTube Shorts, mais également d’autres plates-formes, comme Reels ou TikTok.
Comment tout cela fonctionne sur le back-end, bien sûr, est beaucoup plus complexe. La société affirme que, dans un premier temps, Dumme apprendra autant que possible de la vidéo source via les métadonnées. Il transcrit ensuite la vidéo et essaie de comprendre la sémantique de ce qui se dit tout en regardant les images pour essayer de décoder les émotions de la personne qui parle. Ces résultats sont corrélés et transmis à un modèle de langage qui tente de déterminer quelles parties de la vidéo méritent d’être coupées. Cela est ensuite transféré à un autre modèle qui suit les haut-parleurs actifs et gère le recadrage.
Dumme dit qu’il fonctionne avec des modèles d’IA existants comme GPT-4, une version affinée de Whisper et d’autres qu’il a construits en interne – comme le modèle qui suit les haut-parleurs actifs dans une image vidéo. L’un de ses modèles est également formé sur un tas de courts métrages YouTube pour savoir ce qui constitue un bon crochet d’ouverture pour attirer les téléspectateurs. Et, bien que pas encore en direct, l’équipe expérimente également un modèle open source, LaViLa de Facebook Research, pour mieux comprendre le contexte de la vidéo.
Le travail d’IA est effectué sur le fournisseur de GPU Cloud CoreWeave, et non sur AWS, car il est plus abordable, nous dit la société.
Parce que Dumme s’appuie sur l’IA qui traite les mots parlés, la technologie n’est pas appropriée pour des choses comme les longues vidéos de gameplay ou d’autres où les gens ne parlent pas. Drai dit que la startup cible initialement les créateurs, les podcasteurs et les agences YouTube – ces derniers, selon eux, seraient le meilleur pari pour monétiser le produit.
Aujourd’hui, les agences, explique Drai, sous-traitent souvent ce type de travail avec des résultats aléatoires.
«Ils paient simplement des sous-traitants dans des juridictions bon marché pour éditer leur propre contenu. Et le problème, c’est que cela reste en fait assez cher et que cela prend beaucoup de temps — cela prend des semaines, pas des minutes », dit-il.
Lorsqu’on lui a demandé ce qu’il pensait de la création d’une technologie qui mettrait les gens au chômage, Drai n’était pas inquiet.
«La façon dont j’y pense est que, finalement… je pense que c’est comme me dire que les professeurs de mathématiques vont [be put] sans travail parce qu’il y a quelque chose qui s’appelle une calculatrice… », explique-t-il. « Les gens vont s’adapter. Et puis il y aura quelqu’un qui t’apprendra à propos de la calculatrice, n’est-ce pas ? Je pense donc que c’est juste une question d’adaptation à cela », déclare Drai.
Actuellement, la tarification envisagée implique des niveaux où une entreprise paierait 0,40 $ par minute de vidéo traitée, tandis que les petits créateurs peuvent plutôt opter pour un abonnement mensuel plafonné à 10 heures de contenu par mois. (Ces chiffres peuvent changer.) Pendant les tests, le produit a été libre d’utilisation.
Les premiers utilisateurs ont utilisé Dumme pour une variété de montages, y compris la génération de clips à partir de leurs podcasts vidéo à publier sur Shorts, ainsi que la réduction d’autres nouvelles vidéos et la lecture de leurs catalogues antérieurs.
Le produit semble être compétitif avec d’autres technologies d’IA sur le marché, y compris celle de la société créatrice Jellysmack, qui a tiré parti de l’IA pour transformer des vidéos YouTube plus longues en vidéos plus courtes, en les coupant, en les redimensionnant et en les optimisant pour des plates-formes spécifiques – un résultat de son acquisition de Kamua en 2021. D’autres outils effectuant un travail similaire incluent des éléments tels que Vidyo.ai, Detail, TubeBuddy, Wisecut et autres. La mesure dans laquelle Dumme réussira ou échouera sera de surpasser ses concurrents en termes de qualité du travail et de coût – des paramètres qui restent à déterminer.
Mais certains investisseurs misent sur Dumme. Avant le lancement, la startup a levé un tour de table de 3,4 millions de dollars auprès de Y Combinator, Caffeinated Capital, Max et Nellie Levchin (via SciFi VC), Suhail Doshi, Nico Chinot, Protocol Labs, Chris Puscasiu et d’autres anges.
Compte tenu de l’intérêt et de la liste d’attente importante, Dumme dit qu’il vise à embarquer environ 500 personnes chaque semaine. Les lecteurs de TechCrunch peuvent passer la ligne en utilisant le code d’invitation TECHCRUNCH jusqu’à épuisement des créneaux.