Roll veut recréer des plans de chariot et plus encore en utilisant l’IA générative

Ceux qui connaissent Faizan Buzdar, qui était jusqu’à récemment le vice-président de la gestion des produits chez Box, associent probablement l’entrepreneur à Convo, la plate-forme d’espace de travail numérique populaire parmi les salles de rédaction (y compris celle-ci). Mais Buzdar, qui a une formation en génie électronique, est depuis longtemps fasciné par la vidéo et les effets visuels.

« Passionné de vidéo et de photographie depuis toujours, je faisais des vidéos tout seul depuis des années, mais j’ai remarqué que la production vidéo était largement restée manuelle avec peu d’innovation au cours des dernières décennies, en particulier pour les tâches chronophages comme le montage vidéo », m’a dit Buzdar par e-mail. . « Pendant ce temps, j’ai remarqué que la technologie de l’appareil photo et du capteur de l’iPhone avait des améliorations par étapes au cours des dernières années, devenant presque équivalente en qualité d’image aux reflex numériques. »

Alors qu’il était chez Box, Buzdar dit qu’il a décidé d’essayer de combiner la vidéo – un support de plus en plus populaire – avec des innovations en IA et en apprentissage automatique pour tenter d’améliorer l’expérience de capture et de montage vidéo. Buzdar tapé Adèle Abbasun ingénieur vidéo qui, lorsqu’il était chez Twitter, a contribué à l’infrastructure des fonctionnalités de diffusion en direct du site, aux côtés de Saj Khan, Fahad Yaqub et d’autres cadres de Box Michelle Oh pour explorer les frontières de la production vidéo accélérée par la technologie.

Le roulis est le résultat. Une nouvelle application pour iOS, elle offre bokeh, plans multicam, animations graphiques et – peut-être le plus intrigant pour moi – curseurs, chariots et jibs « simulés par l’IA ».

Crédits image : Rouleau

« Notre mission est de perturber le monde de la production vidéo de haute qualité et de devenir la nouvelle norme pour la création de contenu vidéo », a poursuivi Buzdar. « La création de superbes vidéos est un investissement initial massif dans l’équipement, l’équipement, l’apprentissage de l’utilisation de cet équipement, les logiciels de montage – nous nous débarrassons de tout cela. »

Roll, qui s’adresse au marché des « prosommateurs » (pensez aux influenceurs et aux podcasteurs, mais aussi aux entreprises créant leur propre matériel marketing), se compose de deux produits : l’application Roll pour iPhone et l’application Web. L’application iPhone capture et enregistre la vidéo, puis la télécharge automatiquement sur le cloud de Roll pour le stockage et le traitement. L’application Web, quant à elle, est l’endroit où les images peuvent être prévisualisées, consultées, partagées, téléchargées et éditées par un ou une équipe de créateurs de contenu.

Bien sûr, les applications vidéo sont à la pelle. Alors, qu’est-ce qui rend Roll différent? D’une part, l’application vise des cas d’utilisation que la plupart des applications d’appareil photo ne sont pas, Bouzdar dit — comme entretiens vidéo à distance, podcasts vidéo et témoignages de clients. Alors que Zoom, Microsoft Teams et Google Meet répondent dans une certaine mesure au besoin, Buzdar affirme qu’ils ne sont pas conçus pour la production vidéo de « haute qualité ».

Roll utilise également un certain nombre d’effets en temps réel pour offrir (apparemment) une plus grande gamme de choix de post-production que la plupart des applications de capture vidéo. Par exemple, Roll enregistre dans la norme HEVC, offrant environ deux fois le débit binaire et une qualité d’image supérieure pour la même taille de fichier. Et rouler peut enregistrer et traiter jusqu’à deux prises de vue de caméra – une prise de vue grand angle et une prise de vue rapprochée – à la fois, permettant aux utilisateurs de créer des vidéos avec des perspectives « multi-caméras » efficaces.

Rouleau

L’interface d’édition Roll. Crédits image : Rouleau

Certes, le multicam n’est pas particulièrement unique – le rouleau est loin d’être la première application à l’offrir. Mais Buzdar dit que là où réside la magie, c’est dans le post-traitement. Roll exploite l’IA générative pour recréer des pièces dans l’espace 3D afin que les créateurs de contenu puissent déplacer une caméra virtuelle semblable à un jeu vidéo, simulant des mouvements comme un panoramique d’un côté à l’autre avec un chariot ou une grue.

« Aujourd’hui, l’IA générative est trop souvent associée à la création de faux contenus à partir de rien », dit Bouzdar. « C’est pas notre philosophie. Nous ne générons pas de faux pixels, personnes ou scènes. Nous utilisons l’IA générative uniquement comme un outil de productivité – nous voulons démocratiser l’accès à une production vidéo de meilleure qualité. »

Buzdar a expliqué que l’IA de Roll a été formée pour comprendre la profondeur 3D d’une scène, en utilisant des données pour mesurer la profondeur et les formes indépendamment de la personne assise dans la pièce. Roll a commencé à former ses algorithmes avec des ensembles de données open source couramment utilisés pour l’analyse comparative dans le milieu universitaire, mais a ensuite enregistré en interne plus de 22 000 appels vidéo, créant ainsi sa propre base de données riche.

Les résultats ne sont pas à moitié mauvais – du moins dans les images de démonstration qui Buzdar m’a montré. Certaines des casseroles générées par l’IA de Roll abordent l’étrange vallée, résultat d’une déformation non naturelle sur les objets en arrière-plan tandis que la caméra virtuelle passe. Mais dans les scènes courtes, les effets de l’IA sont suffisamment convaincants – et un ajout accrocheur à ce qui serait autrement une interview à distance ennuyeuse.

« Nous avons fait pas mal de recherches à ce sujet, et nous n’avons vu personne utiliser l’IA de la même manière que nous, en associant les données des capteurs de l’iPhone à de grands modèles d’IA dans le cloud », a déclaré Buzdar. « Notre technologie fournit des capacités fondamentales pour simuler tous les effets visuels qu’un utilisateur souhaiterait. »

Rouleau

Enregistrement d’appel avec Roll. Crédits image : Rouleau

N’importe quel les effets visuels semblent un peu exagérés. Mais Roll a d’autres astuces algorithmiques plus réalistes dans sa manche. Au fur et à mesure que Roll enregistre la vidéo, il rassemble des métadonnées à utiliser ultérieurement dans le processus de production vidéo, y compris les conditions d’enregistrement et d’éclairage, la distance entre la caméra et le sujet et la position du visage et du corps du sujet. Les métadonnées sont utilisées pour ajuster automatiquement les caméras et les capteurs du téléphone, ainsi que pour fournir des commentaires et des instructions pour la composition et l’éclairage.

Semblable à quelques autres éditeurs vidéo mobiles « compatibles avec l’IA » sur le marché, Roll exploite également les métadonnées pour créer une bobine multicaméra entièrement réalisée dans son nuage d’édition – aucune édition manuelle requise. (Les utilisateurs peuvent toujours modifier et ajuster les angles de caméra ou ajouter des mouvements de caméra et des effets visuels s’ils le souhaitent.) Dans un avenir proche, Roll pourra publier directement sur les réseaux sociaux, y compris TikTok, YouTube et Instagram – dans les deux résolution appropriée et rapport d’aspect.

« Aujourd’hui, la production vidéo nécessite de nombreux éléments matériels et logiciels pour être entièrement réalisée », dit Bouzdar. « À chaque étape, lorsque le fichier vidéo et audio saute d’un logiciel à un autre, il perd son contexte et devient simplement un fichier « stupide » qui est transmis. Nous avons fondamentalement reconstruit l’ensemble de la « pile » de production vidéo à partir de zéro. En dépassant les limites des logiciels traditionnels, nous avons appliqué l’IA pour offrir une expérience transformatrice de la capture à la publication qui intègre verticalement et automatise l’ensemble du workflow de production vidéo à distance.

Alors, comment Roll compte-t-il gagner de l’argent? Jusqu’à présent, la société a levé des fonds auprès de sources de capital-risque traditionnelles – Buzdar ne dirait pas où, exactement. Mais en termes de génération de revenus, Buzdar espère que Roll finira par se développer pour répondre aux besoins des entreprises, en particulier leurs équipes internes de marketing et de vidéo, qui paieront une sorte de redevance pour les services de Roll.

« La production vidéo est mûre pour les perturbations du cloud » dit Bouzdar. « Des attributs tels que des fichiers volumineux, un traitement complexe et la nécessité d’éditions et de cycles de révision multi-personnes en font le candidat idéal pour bénéficier des avantages exponentiels du cloud computing, tels que le stockage évolutif, l’IA, le calcul, le partage et la collaboration en temps réel.

Il y a sûrement du vrai là-dedans. Quant à savoir si Roll sera le perturbateur, le temps nous le dira.

Source-146