Intel détaille le fonctionnement interne de XeSS

Intel a publié une vidéo explicative pour sa prochaine technologie de mise à l’échelle XeSS AI et a montré comment la technologie fonctionne sur ses GPU Arc Alchemist presque prêts à être publiés. Il a utilisé l’Arc A770 le plus rapide pour les démonstrations, bien qu’il soit difficile de dire comment les performances se compareront aux meilleures cartes graphiques sur la base des détails de performances limités affichés.

Si vous êtes un peu familier avec le DLSS de Nvidia, qui existe depuis quatre ans maintenant dans diverses incarnations, la vidéo devrait susciter un sens aigu de Deja Vu. Tom Petersen, qui travaillait auparavant pour Nvidia et a donné certaines des anciennes présentations DLSS, passe en revue les principes fondamentaux de XeSS. Pour faire court, XeSS ressemble beaucoup à une version miroir du DLSS de Nvidia, sauf qu’il est conçu pour fonctionner avec les cœurs XMX d’apprentissage en profondeur d’Intel plutôt qu’avec les cœurs tenseurs de Nvidia. La technologie peut également fonctionner avec d’autres GPU, cependant, en utilisant le mode DP4a, ce qui pourrait en faire une alternative intéressante à l’upscaler FSR 2.0 d’AMD.

Dans les démos présentées par Intel, XeSS semblait bien fonctionner. Bien sûr, il est difficile de dire avec certitude quand la vidéo source est une version compressée 1080p du contenu réel, mais nous enregistrerons des comparaisons détaillées de la qualité de l’image pour une autre fois. Les gains de performances semblent être similaires à ce que nous avons vu avec DLSS, avec une augmentation de la fréquence d’images de plus de 100 % dans certaines situations lors de l’utilisation du mode XeSS Performance.

Comment ça fonctionne

Si vous savez déjà comment fonctionne DLSS, la solution d’Intel est en grande partie la même, mais avec quelques modifications mineures. XeSS est un algorithme de mise à l’échelle de la résolution accélérée par l’IA, conçu pour augmenter les fréquences d’images dans les jeux vidéo.

Cela commence par la formation, la première étape de la plupart des algorithmes d’apprentissage en profondeur. Le réseau AI prend des images d’échantillons de résolution inférieure à partir d’un jeu et les traite, générant ce qui devrait être des images de sortie mises à l’échelle. Ensuite, le réseau compare les résultats à l’image cible souhaitée et rétropropage les ajustements de poids pour essayer de corriger les « erreurs ». Au début, les images résultantes ne seront pas très belles, mais l’algorithme d’IA apprend lentement de ses erreurs. Après des milliers (ou plus) d’images d’entraînement, le réseau finit par converger vers des poids idéaux qui généreront « par magie » les résultats souhaités.

Une fois que l’algorithme a été entièrement formé, en utilisant des échantillons de nombreux jeux différents, il peut en théorie prendre n’importe quelle entrée d’image de n’importe quel jeu vidéo et la mettre à l’échelle presque parfaitement. Comme avec DLSS (et FSR 2.0), l’algorithme XeSS assume également le rôle d’anti-aliasing et remplace les solutions classiques comme l’AA temporelle.

(Crédit image : Intel)

Encore une fois, rien jusqu’à présent n’est particulièrement remarquable. DLSS et FSR 2.0 et même les algorithmes AA temporels standard ont en grande partie les mêmes fonctionnalités de base – moins les éléments d’IA pour FSR et TAA. Les jeux intégreront XeSS dans leur pipeline de rendu, généralement après le rendu principal et les effets initiaux, mais avant que les effets de post-traitement et les éléments GUI/HUD ne soient dessinés. De cette façon, l’interface utilisateur reste nette tandis que la tâche difficile du rendu 3D s’exécute à une résolution inférieure.

XeSS fonctionne sur les cœurs Arc XMX d’Intel, mais il peut également fonctionner sur d’autres GPU dans un mode légèrement différent. Les instructions DP4a sont essentiellement quatre calculs INT8 (entier 8 bits) effectués à l’aide d’un seul registre 32 bits, auxquels vous auriez généralement accès via un noyau de shader GPU. Les cœurs XMX prennent en charge nativement INT8 et peuvent fonctionner sur 128 valeurs à la fois.

Cela peut sembler très déséquilibré, mais à titre d’exemple, un Arc A380 possède 1024 cœurs de shader qui pourraient chacun effectuer quatre opérations INT8 en même temps. Alternativement, l’A380 dispose de 128 unités MXM qui peuvent chacune effectuer 128 opérations INT8. Cela rend le débit MXM quatre fois plus rapide que le débit DP4a, mais apparemment le mode DP4a devrait toujours être suffisant pour un certain niveau de qualité XeSS.

Notez que DP4a semble utiliser un différent réseau formé, un qui est peut-être moins intensif en calcul. Il reste à voir comment cela se traduira par des performances et une qualité d’image réelles, et il semble que les développeurs de jeux devront inclure explicitement la prise en charge des modes XMX et DP4a s’ils souhaitent prendre en charge les GPU non Arc.

Attentes de performances Intel XeSS

Source-138