Test Nvidia VSR : mise à l’échelle et amélioration de l’IA pour la vidéo

Nvidia Video Super Resolution – Nvidia VSR – devient officiellement disponible au public aujourd’hui. Présenté pour la première fois au CES 2023, et à ne pas confondre avec le VSR (Virtual Super Resolution) d’AMD, Nvidia VSR vise à faire pour la vidéo ce que sa technologie DLSS fait pour les jeux. Eh bien, en quelque sorte. Vous aurez besoin de l’une des meilleures cartes graphiques de Nvidia pour commencer, c’est-à-dire d’un GPU RTX 30 ou 40. Bien sûr, vous voudrez également définir vos attentes de manière appropriée – l’image principale ci-dessus, par exemple, est truquée et exagérée et pas du tout représentative de VSR.

À présent, tout le monde devrait se familiariser avec une partie de ce que les modèles d’apprentissage en profondeur et d’IA peuvent accomplir. Qu’il s’agisse de génération d’art du texte à l’image avec Stable Diffusion, etc., de ChatGPT répondant aux questions et d’écriture d’articles, de voitures autonomes ou de nombreuses autres possibilités, l’IA fait désormais partie de notre vie quotidienne.

Le résumé de base de l’algorithme devrait sembler familier à toute personne connaissant le DLSS. Prenez un tas d’images appariées, chaque paire contenant une version basse résolution et à débit binaire inférieur d’une image vidéo de résolution supérieure (et de qualité supérieure), et exécutez-la via un algorithme d’apprentissage en profondeur pour apprendre au réseau comment améliorer et améliorer idéalement images d’entrée de qualité inférieure en sorties plus belles. Il y a bien sûr de nombreuses différences entre VSR et DLSS.

D’une part, DLSS obtient des données directement du moteur de jeu, y compris l’image actuelle, les vecteurs de mouvement et les tampons de profondeur. Combiné avec la ou les trames précédentes et le réseau d’IA formé pour générer des trames mises à l’échelle et anti-aliasées. Avec VSR, il n’y a pas de tampon de profondeur pré-calculé ou de vecteurs de mouvement à proprement parler, donc tout doit être fait en se basant uniquement sur les images vidéo. Ainsi, alors qu’en théorie, VSR pourrait utiliser les données de trame actuelles et précédentes, il semble que Nvidia ait opté pour une approche de mise à l’échelle spatiale pure. Mais quels que soient les détails exacts, parlons de son apparence.

(Crédit image : Nvidia)

Nvidia a fourni un exemple de vidéo montrant la sortie avant et après de VSR. Si vous voulez les originaux, voici la mise à l’échelle 1080p via une source d’échantillonnage bilinéaire et la version mise à l’échelle 4K VSR — hébergée sur un compte Drive personnel, nous verrons donc comment cela se passe. (Envoyez-moi un e-mail si vous ne pouvez pas télécharger les vidéos en raison du dépassement du plafond de bande passante.)

Nous allons contourner les problèmes potentiels de droits d’auteur et ne pas inclure un tas de nos propres vidéos, bien que nous ayons pris quelques captures d’écran de la sortie résultante de quelques émissions sportives pour montrer comment cela fonctionne sur d’autres contenus. Ce que nous pouvons dire, c’est que les vidéos lentes (comme les échantillons de Nvidia) fournissent les meilleurs résultats, tandis que les choses plus rapides comme le sport sont plus difficiles, car les changements d’image à image peuvent être assez importants. Mais en général, VSR fonctionne plutôt bien. Voici une galerie de captures d’écran de comparaison (capturées via Nvidia ShadowPlay).

Source-138