La semaine dernière, Nvidia a lancé une nouvelle version de Nvidia Broadcast (s’ouvre dans un nouvel onglet) – le logiciel d’apprentissage en profondeur et alimenté par l’IA qui peut faire la suppression du bruit, la suppression/remplacement de l’arrière-plan, le cadrage de la caméra, et maintenant… le contact visuel. Ce dernier est actuellement en version bêta, et… devrait probablement rester en version bêta.
L’IA et l’apprentissage en profondeur ont beaucoup fait les manchettes ces derniers temps, pour une bonne raison. Des trucs comme Dall-E, Midjourney et Stable Diffusion créent de l’art à partir de texte, souvent avec des résultats plutôt saisissants. Bien sûr, à d’autres moments, vous vous retrouvez avec des créatures mutantes mutilées avec deux têtes et demie et trop de membres. Du côté du texte, ChatGPT produit une écriture lisible que beaucoup craignent de signifier le glas des essais et du journalisme en anglais (et non, il n’a pas écrit cet article).
L’idée derrière Eye Contact est assez simple : lorsque vous participez à une diffusion Web ou à une réunion, vous détournez souvent le regard de la caméra. En fait, il y a de fortes chances que vous soyez toujours regarder loin de la caméra — parce qu’elle se trouve en haut de l’écran et que les choses que vous voulez regarder sont à l’écran. Mais que se passerait-il s’il y avait un moyen de donner l’impression que vous regardez votre appareil photo sans regarder votre appareil photo ?
Et si vous pouviez former un modèle d’IA sur les visages et lui apprendre à corriger l’image lorsque quelqu’un ne regarde pas droit dans l’objectif ? Obtenez des millions d’images étiquetées de manière appropriée, alimentez-les dans le réseau et obtenez un outil incroyable, n’est-ce pas ?
Sa mise en œuvre n’est pas aussi simple ; Nvidia parle de sa fonctionnalité Eye Contact depuis plus d’un an, et elle n’est que maintenant en version publique (bêta). Les différences entre une myriade de visages à travers le monde en font un problème difficile à « résoudre », et même maintenant, les résultats sont… imparfaits (et c’est bien dit).
Je suis allé de l’avant et je l’ai quand même testé, sur un système avec un RTX 3090 Ti :
L’une des choses que j’ai remarquées lors des tests, c’est que souvent le flux vidéo en direct oscillait entre moi regardant la caméra et moi regardant ailleurs, même si ma mise au point restait au même endroit. Je suppose que cela pourrait être intentionnel, car avoir quelqu’un qui regarde directement la caméra tout au long d’un chat vidéo entier serait un peu effrayant – mais si c’est le cas, certains ajustements de synchronisation doivent être faits.
Ce qui est plus difficile à dire, c’est si ce genre d’effet est même bénéfique en premier lieu. Si vous voulez avoir l’air de regarder la caméra, vous devriez probablement apprendre à regarder… la caméra. Résoudre les erreurs humaines grâce à l’IA pourrait bien finir par encourager de mauvaises habitudes – que se passe-t-il si vous vous retrouvez sur un flux vidéo qui ne corrige pas le contact visuel ?
Quoi qu’il en soit, Nvidia Broadcast with Eye Contact est désormais disponible pour les propriétaires de RTX. Je l’ai testé avec un RTX 3090 Ti, mais Nvidia répertorie le RTX 2060 comme point d’entrée (et cela devrait inclure les GPU mobiles RTX 3050, pour autant que je sache). À long terme, je soupçonne qu’à un moment donné, Nvidia se retrouvera avec des modèles d’IA plus complexes et nécessitant un matériel plus rapide qu’un RTX 2060 – tout comme la fonction de génération de trames de DLSS 3 nécessite une carte graphique de la série RTX 40 – mais pour l’instant tout GPU RTX fabriqué au cours des quatre dernières années peut alimenter cette fonctionnalité.
Aimez-vous l’effet, le détestez-vous, le trouvez-vous effrayant ou autre chose ? Faites-le nous savoir dans les commentaires, ainsi que d’autres effets que vous préférez voir. Personnellement, j’attends avec impatience le moment où nous pourrons tous avoir des avatars de dessins animés virtuels comme Toy Jensen parlant à la place de vraies personnes, lisant peut-être des articles écrits par l’IA, les vidéos et les articles étant tous deux consommés par l’IA.
Ce sont des bots tout le long à partir de là !