Plonge dans l’architecture Blackwell de NVIDIA : DLSS 4, IA, Reflex 2, multi frame…

Une fois encore, NVIDIA a cr lvnement et, une fois encore, NVIDIA parle de rvolutionner le rendu offert par nos GPU. Enfin, en loccurrence, par ses GPU, les GB202 et ses drivs que lon connat par le nom de leur architecture, Blackwell. Entre rendu neuronal, DLSS 4 et intelligence artificielle (forcment !), on se fait une plonge dans les mandres techniques des RTX 50.

En premier lieu, posons quelques jalons chiffrs . Un GPU comme le GB202 lequel nest, comme toujours chez NVIDIA pas la version complte de ce que permet larchitecture Blackwell intgre tout de mme la bagatelle de 92 milliards de transistors sur une surface de 744 millimtres carrs. Il est comme la prcdente gnration grave par le numro un du secteur, TSMC, et emploie le processus 4N FinFET pour une gravure en 4 nanomtres donc.

Continuons sur des chiffres qui, dj, donnent un peu le tournis. Pour le GB202-400-A1 intgr la GeForce RTX 5090, on parle effectivement de 21 760 curs CUDA soit un accroissement de 33% par rapport aux 16 384 curs du GPU de la RTX 4090. Ajoutons cela que la RTX 5090 profite tout la fois de plus de mmoire vido (32 Go vs 24 Go) et dun bus mmoire plus performant (512-bit contre 384-bit)., mais les amliorations matrielles ne sont pas le cur de cible de NVIDIA.

NVIDIA est trs clair et larchitecture Blackwell se repose les technologies dites neuronales (DLSS en fait bien sr partie), mais pour en profiter pleinement, plusieurs lments cls doivent tre prsents :

les curs Tensor de cinquime gnration figurent en tte de liste,
les curs RT de quatrime gnration en sont les compagnons indispensables,
ct de a, NVIDIA parle de lAMP ou AI Management Processor pour organiser les choses,
et des Shader Multiprocessors ou SM qui ont t optimiss pour Blackwell,
enfin, la nouvelle GDDR7 doit apporter performances et fiabilit

5e gnration de curs Tensor : le FP4 lordre du jour

Chaque gnration de curs Tensor est videmment loccasion damliorations notables et de performances en hausse, mais pour cette 5e gnration, NVIDIA insiste aussi une efficacit bien plus importante et sur une moindre utilisation de la mmoire. Alors que lon parle beaucoup de la quantit de mmoire vido ncessaire, NVIDIA fait clairement des efforts dans ce sens.

Pour y parvenir, il ny a pas de miracle, il faut faire des concessions et chez NVIDIA cela revient prendre en charge le FP4 ou Floating Point 4 bits par rapport aux gnrations prcdentes qui ne pouvaient faire quavec le FP16 ou le FP32.

Pas de miracle car si on passe dune prcision 16 ou 32 bits une prcision 4 bits, il y a forcment de la perte, mais NVIDIA sest rendu compte que le jeu en vaut la chandelle : la prcision sur 4 bits est suffisante sur de trs nombreux scnarios et, notamment, dans les jeux vido. Plus important, le FP4 utilisant des formats de donnes plus petits et impliquant une moindre prcision, il faut sexcuter deux fois plus vite avec une empreinte mmoire largement rduite. Mission accomplie.

4e gnration de curs RT : des nouveauts moins marquantes

Comme son habitude, NVIDIA fait voluer de concert les curs Tensor et les curs RT, mais de ce que nous avons pu en comprendre tout cela est tout de mme trs complexe les nouveauts sont moins dcisives pour ces curs RT de 4e gnration. On parle par exemple de lintgration dun moteur dintersection de clusters triangulaires spcifiquement conu pour prendre en charge la mga gomtrie laquelle est de plus en plus prsente alors que les scnes ray tracing deviennent compltement folles.

Pour ce faire, NVIDIA voque pas mal de choses, mais nous retiendrons principalement lintgration dun nouveau format de compression conus pour les clusters triangulaires. Il est galement question dun moteur de dcompression qui, sans perte, permet de traiter de manire bien plus efficace tout ce qui est mga gomtrie justement. Sans surprise, mais il faudra le vrifier en test, NVIDIA souligne que ces progrs apportent une amlioration significative des performances : il avance par exemple un dbit doubl pour la gestion des clusters triangulaires par rapport la gnration Ada Lovelace.

GDDR7 : nouveau matre-talon de lindustrie

Quon se le dise, la GDDR6 et ses divers avatars comme la GDDR6X ont vcu. Avec Blackwell, NVIDIA passe la GDDR7 ce qui, on lespre ne posera pas de problme de disponibilit court et moyen terme. Ce nouveau type de mmoire ne rvolutionne pas la gestion des donnes, mais doit dabord permettre de considrablement augmenter les dbits puisque, comme chaque nouvelle gnration de GDDR, on parle dun doublement de la vitesse.

Mieux, cette acclration notable saccompagne dune bien meilleure efficacit nergtique a tombe bien, ctait un des chevaux de bataille de NVIDIA sur cette gnration. Il faut savoir que par bit de donn transfr, on parle dune consommation moiti moindre pour la GDDR7 par rapport aux puces de dernire gnration de GDDR6. Pas mal.
Ce nest toutefois pas la seule nouveaut et, aux yeux de NVIDIA, le changement le plus important, est le passage la signalisation PAM3 alors que la GDDR6 exploitait la PAM4. Schmatique, le changement porte sur le nombre de niveaux de logique utiliss, on passe assez logiquement de 4 sur la PAM4 3 sur la PAM3. Sur le papier, cest moins bon puisque par cycle dhorloge moins de donnes sont transfres. Mais, en ralit, on peut alors fonctionner des vitesses plus leves pour de meilleures performances globales. NVIDIA a fait ses comptes, vous vous en doutez !

Max-Q : pour plus defficacit nergtique ?

La GDDR7 nest pas la seule des innovations techniques mises en uvre par NVIDIA pour amliorer lefficacit nergtique de la gnration Blackwell par rapport la prcdente, Ada Lovelace. La documentation technique des RTX 50 met aussi en avant la technologie Max-Q dont on peut dire quelle cherche offrir les meilleures performances possibles tout en restant dans une certaine enveloppe de consommation. De plus, NVIDIA souhaite amliorer la gestion nergtique aussi durant les priodes de faible charge.

Max-Q doit permettre dy parvenir en ajustant de manire bien plus ractive la frquence dhorloge de la machine. NVIDIA ny va dailleurs pas par quatre chemins en prcisant quil est question dune ractivit 1000x suprieure sur Blackwell par rapport Ada Lovelace. Notons cependant que de tels ajustements sont, comme par le pass, davantage penss pour le monde des portables : Max-Q ne sera peut-tre mme pas accessible sur les cartes graphiques desktop.

Max-Q peut compter sur trois piliers pour parvenir ses fins : le dynamic boost 3.0 est l pour rpartir au mieux la puissance nergtique entre le CPU, le GPU et la mmoire vive, bien sr, en fonction des besoins lis aux tches en cours. Il va de paire avec le power gating qui gre de manire aussi fine que possible frquence et tension des curs GPU. Enfin, le battery boost est sa troisime composante : lobjectif est ici dajuster au mieux la puissance disponible afin de prserver la batterie tout en offrant de (encore) bonnes performances.

Toutes ces fonctionnalits ont leur mot dire dans larchitecture Blackwell, mais le point le plus important, celui que NVIDIA a le plus mis en avant durant ces prsentations est sans doute possible la sortie de DLSS 4. Comme ce fut le cas avec la gnration RTX srie 40, les RTX srie 50 profitent donc de leur DLSS encore que cette quatrime mouture pourra tourner avec une moindre efficacit sur les RTX srie 40. Cest toujours a de pris.
—-

DLSS 4 : la rvolution multi-frame generation

Du temps des RTX srie 40, NVIDIA a fait voluer DLSS par deux fois avec le frame generation (DLSS 3) puis le ray construction (DLSS 3.5), deux technologies que lon peut qualifier de complmentaires. Avec DLSS 4, NVIDIA tourne les choses diffremment et son approche dbute par un postulat : si nous voulons qualit dimage, fluidit de lanimation et ractivit, il faut souvent faire des compromis entre ce que NVIDIA appelle les trois piliers du jeu vido en temps rel Vous vous en doutez, DLSS 4 doit permettre de ne plus faire de compromis ou, en tout cas, le moins possible.

Les transformateurs remplacent le CNN

On ne va pas revenir sur les annes dvolution de DLSS. Aujourdhui, NVIDIA introduit ce quil appelle les transformateurs (transformers) lesquels doivent bouleverser les technologies prcdentes base de rseaux neuronaux convolutionnels ou CNN. NVIDIA explique sur les transformateurs utilisent des mcanismes dattention qui doivent permettre de focaliser les ressources de calcul sur les parties les plus importantes des donnes traiter. Lide est alors de mieux grer les parties les plus complexes dune scne pour en grer tous les dtails.

Plusieurs exemples ont t communiqus par NVIDIA afin de dmontrer toute lefficacit des transformateurs par rapport aux vieillissants CNN. Quil sagisse de cette maison derrire une clture en grillage ou de ce sac dos, les dtails ressortent effectivement bien davantage pour un rendu plus prcis, et ce, que lon parle de la technologie de ray construction ou de celle de super resolution. De plus, NVIDIA souligne quau-del des dtails, les transformateurs doivent aussi permettre une image plus agrable, plus naturelle, mme en mouvement.

Le multi-frame generation la rescousse

Nous connaissions le frame generation qui venait intercaler une image entirement calcule par lIA entre deux images rendues par le GPU. Avec les RTX srie 50 et DLSS 4, NVIDIA passe la seconde et nous propose le multi-frame generation qui, comme son nom lindique sans trop dambigut, vient dmultiplier les choses. LIA ne se charge donc plus ici dinsrer une image, mais gnre trois images supplmentaires pour deux images effectivement rendues par le GPU. NVIDIA samuse dire quau total 15 pixels sur 16 sont maintenant gnrs par lIA ce qui, bien sr, conduit une augmentation de lefficacit du rendu par un facteur 8. Rien que a !

NVIDIA aimant dcidment bien les chiffres, nous en avons plusieurs pour les amateurs : la multi-frame generation ne se contente pas de ces 15 pixels sur 16, elle le fait avec un modle de gnration dimages par lIA 40 % plus rapide et capable de bien davantage conomiser la mmoire vido : on parle l de 30 % dconomie tout de mme. Sur Cyberpunk 2077 un de ses jeux favoris NVIDIA boit du petit lait : on passe de 27 ips avec 70 ms sans DLSS, 70 ips/35 ms en DLSS, 140 ips/35 ms en DLSS 3.5 et carrment 248 ips en DLSS 4 tout en gardant une latence autour des 34 ms. Mieux, la qualit dimage serait amliore toujours selon NVIDIA bien sr.

De fait, NVIDIA peut parler de performances jusqu 8 fois suprieures grce au multi-frame generation de DLSS 4 tout en offrant un meilleur rendu visuel. Bien sr, si Cyberpunk 2077 est lexemple favori de NVIDIA, la firme au camlon a donn dautres exemples parmi les jeux les plus rcents : Alan Wake 2, Black Myth: Wukong, Frostpunk 2, Hitman World of Assassination, Hogwarts Legacy. chaque fois, les performances senvolent mme si le facteur 8 nest plus toujours de mise, on reste dans le pire des cas (Hitman World of Assassination) un facteur de 4,7.

Reste maintenant la question de ladoption de la technologie. Un point sur lequel NVIDIA sest voulu rassurant en voquant 75 jeux et applications compatibles DLSS 4 ds la sortie et, bien sr, une adoption qui devrait sacclrer trs rapidement. De plus, NVIDIA explique que la compatibilit avec DLSS 3/DLSS 3.5 est assure afin que le travail dintgration soit plus simple pour les dveloppeurs et il est aussi intressant de noter DLSS 4 nest pas strictement rserv aux RTX srie 50.

Entendons-nous, le multi-frame generation demandera un GPU RTX srie 50. L, il ny a pas tortiller et NVIDIA lexplique par le besoin des curs Tensor de 5e gnration par exemple. En revanche, les amliorations dans la qualit de la gnration dimages sera elle accessible dautres GPU. Oh, pas nimporte lesquels vous vous en doutez : seuls les GeForce RTX srie 40 pourront en profiter, mais a reste un point intressant qui devrait, l encore, favoriser ladoption de la technologie.

Reflex 2 : lutter contre la latence, toujours

Souvenez-vous, au moment dannoncer DLSS 3 et son frame generation, NVIDIA avait indiqu que sa Reflex tait indispensable pour viter une augmentation trop nette de la latence systme : de part son fonctionnement mme il doit attendre le rendu de limage suivante pour gnrer son image DLSS 3 entrane une augmentation de la latence. Reflex faisait plutt bien le boulot pour justement contrer ce dfaut, mais vous vous en doutez, le problme est plus crucial encore avec DLSS 4 puisquon parle de gnrer trois images toutes les deux rendues par le GPU.

Le lancement de DLSS 4 saccompagne donc de celui de Reflex 2 qui, une fois encore il sagit dun chiffre officiel NVIDIA, permet une amlioration de la latence de 75 % par rapport Reflex. Comment ? Grce une technologie que NVIDIA baptis frame warp et qui doit permettre une synchronisation encore plus efficace entre le CPU et le GPU. Lide est alors de surveiller les impulsions envoyes par lutilisateur afin de mettre jour en temps rel la position de la camra par rapport ces impulsions.

Accrochez-vous bien, NVIDIA explique que sa technologie prend en compte ses impulsions et transforme lintgration de limage cest le inpainting de la capture ci-dessus afin dajuster les choses en fonction de la position du curseur de la souris par exemple. Ensuite seulement, limage ainsi modifie est envoye lcran pour tre affiche ! Pour tre tout fait honnte, les explications donnes par NVIDIA nont pas toutes t parfaitement claires ce niveau, mais le rsultat semble devoir tre au rendez-vous. vrifier bien sr.

SOURCE