Kepler, la nouvelle architecture de processeur graphique de NVIDIA

**gbdivers** · 26/03/2012, 12h06

Kepler, la nouvelle architecture de processeur graphique de NVIDIA
Présentation des nouvelles technologies et des performances

Annoncée depuis plusieurs mois, la nouvelle architecture de carte graphique de NVIDIA a été officiellement annoncée la semaine dernière. Cette nouvelle architecture est destinée à concurrencer la nouvelle architecture de AMD sortie le mois dernier.

La première carte de cette gamme se nomme GTX 680 et est basée sur la puce GK104. Pour la génération précédente (architecture FERMI), NVIDIA s'était focalisé sur l'ajout de la tessellation et l'amélioration des performances. Pour Kepler, NVIDIA a travaillé principalement sur la consommation d'énergie : gravure 28nm, nouveaux SMX, GPU Boost pour la gestion dynamique de la fréquence. Il faut donc faire attention au fait que NVIDIA présente régulièrement les performances de la carte en fonction du rapport Performance/Consommation et pas uniquement des performances. La conséquence est que les chiffres NVIDIA donnent une amélioration de +50 % alors que les chiffres non officiels sont de +10 %, mais ces chiffres ne correspondent pas exactement à la même chose mesurée.

Le GK104 présente des caractéristiques intéressantes sur le papier :

gravure en 28 nm pour diminuer la consommation et la chaleur dégagée et augmentation du nombre de transistors à 3,54 billions ;
fréquence de base de 1006 MHz (accélérable à 1058 MHz) ;
nouvelle version de Streaming Multiprocessor, appelé SMX, permettant d'avoir 1536 Shader Processors (8 SMX * 192 cœurs), 32 unités ROP et 128 unités de textures. Particularité importante, sur FERMI, les shaders tournaient à une fréquence d'horloge double de celle de la carte. Cette approche a été abandonnée dans le SMX au profit de l'augmentation du nombre de cœurs pris en charge par chaque SMX ;
technologie GPU Boost. Cette technique permet d'adapter dynamiquement la fréquence horloge et les tensions d'alimentation en fonction de la puissance réellement consommée par une application et non en se basant sur une température théorique (TPD : thermal design point) ;
synchronisation verticale adaptative (Adaptive V-SYNC). Cette technique permet d'activer automatiquement la synchronisation verticale (pour éviter certains artefacts de déchirement de l'image) lorsque les FPS sont supérieurs à 60 images par seconde. En dessous de 60 FPS, la synchronisation verticale est désactivée pour éviter une perte importante de FPS (par exemple, avec un FPS théorique de 55, la synchronisation verticale bloquera le FPS à 30 si elle est active) ;
nouvel algorithme d'anti-aliasing plus rapide, appelé TXAA, dont on peut voir les résultats sur la démo Samaritain ;
nouvelle technologie de gestion des textures, appelée Bindless Textures, permettant de gérer jusqu'à un million de textures ;
un système dédié d'encodage, appelé NVENC, permettant de lire de la vidéo au format H.264 à 1080p ;
NVIDIA Surround : possibilité d'utiliser 3 moniteurs sur une seule carte ;
2 Go de GRAM ;
PCI-Express 3.0 ;
consommation annoncée de 195 W (pour rappel, la GTX580 consommait 244 W).

La sortie des pilotes optimisés pour cette puce (301.10 pour Windows et 295.33 pour Linux) est l'occasion de faire le tour des dernières versions des bibliothèques et des nouvelles fonctionnalités proposées.
DirectX 11.1 apporte de nombreuses nouvelles fonctionnalités :

amélioration du compilateur et ajout de fonctions HLSL permettant de tracer les shaders ;
possibilité de partager des contextes Direct3D 10 et 11 ;
augmentation de la taille des buffers constants supportés jusqu'à 64 Ko ;
possibilité d'utiliser des opérateurs logiques à la place du blending ;
utilisation des shaders pour travailler directement sur des vidéos ;
support étendu pour le partage des textures 2D.

Pour OpenGL 4.2, deux nouvelles extensions sont proposées :

multi_draw_indirect est une extension de draw_indirect. Cette extension, introduite dans OpenGL 4.0, permet de récupérer les informations produites par une fonction dans un buffer object et de retravailler dessus (feedback). multi_draw_indirect ajoute en plus la possibilité de lancer plusieurs commandes avec un seul appel de fonction ;
les shader_atomic_float, qui sont un équivalent des compteurs atomiques mais avec un float au lieu d'un entier. Cette extension pourra permettre par exemple d'utiliser des techniques avancées de culling sur GPU.

La nouvelle carte est disponible depuis quelques jours pour les tests. On en sait un peu plus sur les performances réelles de cette carte :

des performances exceptionnelles pour la tessellation (2 à 3 fois plus rapide que toutes les autres cartes actuelles) ;
des performances pour les jeux améliorées. Les différents tests placent la GTX680 entre la nouvelle carte AMD (7970) et les cartes bi-processeurs (GTX690 et AMD 6990)
Pour le moment, les jeux et les benchmarks ne sont pas optimisés pour cette nouvelle architecture donc on peut s'attendre, comme d'habitude, à une amélioration des performances dans les prochaines mises à jour des jeux et pilotes ;
pour la gestion de la physique, la GK104 ne possède pas de circuit dédié spécifiquement à PhysX. Les performances sont similaires ou légèrement supérieures à celles de la GTX580 en fonction des tests effectués ;
plusieurs tests présentent des benchmarks sur le GPU Computing. Malheureusement, ces tests ne sont pas significatifs pour le moment puisqu'ils ont été faits avant la sortie des pilotes 301.10. NVIDIA recommande d'ailleurs d'utiliser les pilotes 295.33 et le CUDA Toolkit 4.2.6. De plus, NVIDIA se focalisant plus sur sa technologie propre (CUDA) plutôt que sur OpenCL, il faudra peut-être attendre un peu de temps pour avoir des tests plus fiables. Cependant, des rumeurs évoquent le fait que l'architecture de Kepler serait moins orientée GPU Computing que Fermi, mais il faudra attendre que NVIDIA sorte les notes techniques pour vérifier la véracité de ces rumeurs.

Et puisqu'on n'a jamais assez de nouvelles, des rumeurs sur internet donnent les caractéristiques de la prochaine carte, la GTX685 basée sur la puce GK110, avec 2304 cœurs et une augmentation des performances de 50% par rapport à la GTX680. Cette carte devrait sortir en août 2012.

Que pensez-vous de cette nouvelle architecture ? Réel bénéfice pour les joueurs ou simple évolution marketing ?
Quelles sont les nouvelles technologies qui vous paraissent les plus intéressantes ? Celles qui manquent encore ?
Pour ceux qui font du GPU Computing, craignez-vous également que cette puce soit moins performante pour vos applications ?

Sources :

[NVIDIA] GeForce GTX-680 Whitepaper
Présentation du TXAA lors de la Game Developers Conference 2012
[Geeks3D] NVIDIA GeForce GTX 680 (Kepler GK104 GPU) Officially Launched
[Geeks3D] NVIDIA R301.10 WHQL Graphics Drivers for GeForce GTX 680
[Geeks3D] GeForce GTX 680: HD 6990 vs GTX 690, GTX 685 GK110 Possible Specs
[Geeks3D] GeForce GTX 680: New Pictures and First Tests (Noise, Temperature, OpenCL)
Test • nVIDIA GeFORCE GTX 680
GTX 680: PhysX Benchmarks roundup
[MSDN] Direct3D 11.1 Features

**tlt** · 26/03/2012, 13h48

ce qui m'interesse le plus c'est la partie gpu computing et j'ai peur que nVidia bride des fonctionnalités comme auparavant avec le passage vers Fermi

**gbdivers** · 26/03/2012, 14h15

Envoyé par tlt

ce qui m'interesse le plus c'est la partie gpu computing et j'ai peur que nVidia bride des fonctionnalités comme auparavant avec le passage vers Fermi

Bonjour

Peux-tu préciser quelles sont les fonctionnalités qui ont été bridées selon toi entre TESLA et FERMI ?

**cknaky** · 26/03/2012, 17h43

Effectivement sur je ne sais plus quel site, parmi les tests fait sur la 680, un test de GPU computing a été effectué. Et par rapport à une 7970 c'est la catastrophe puisque la 680 est plus de 3 fois moins puissante dans ce domaine. Alors que pour ce qui est du jeux vidéo elle est en moyenne 5% plus puissante que le 7970. Donc visiblement elle est bridée. Et puis avec un bus mémoire à 256 bits c'est un peu léger pour du GPU computing.

**gbdivers** · 26/03/2012, 17h54

Envoyé par cknaky

Effectivement sur je ne sais plus quel site, parmi les tests fait sur la 680, un test de GPU computing a été effectué. Et par rapport à une 7970 c'est la catastrophe puisque la 680 est plus de 3 fois moins puissante dans ce domaine. Alors que pour ce qui est du jeux vidéo elle est en moyenne 5% plus puissante que le 7970. Donc visiblement elle est bridée. Et puis avec un bus mémoire à 256 bits c'est un peu léger pour du GPU computing.

Tu as des précisions sur les tests effectués ? Les seuls que j'ai trouvé pour le moment se basent sur le benchmark LuxMark 2.0 et sur Sandra, avec OpenCL. Malheureusement, ces tests n'ont pas de sens pour le moment (ancien driver)

**Thorna** · 26/03/2012, 18h19

Y'a un bon gros dossier là, mais je ne trouve pas de tests de calculs.

**LeGreg** · 26/03/2012, 18h59

Envoyé par gbdivers

Tu as des précisions sur les tests effectués ? Les seuls que j'ai trouvé pour le moment se basent sur le benchmark LuxMark 2.0 et sur Sandra, avec OpenCL. Malheureusement, ces tests n'ont pas de sens pour le moment (ancien driver)

Il vaut mieux comparer les perfs sous CUDA qui est l'architecture la plus utilisée pour les applis compute sur cartes NVIDIA.

**gbdivers** · 26/03/2012, 19h23

Envoyé par LeGreg

Il vaut mieux comparer les perfs sous CUDA qui est l'architecture la plus utilisée pour les applis compute sur cartes NVIDIA

Oui. Mais pas encore non plus de tests trouvé avec CUDA

Envoyé par LeGreg

Pas de support DirectX 11.1 pour les dernières cartes.

A priori, si. Mais c'est une information non officielles (NVIDIA ne communique pas dessus) et je n'ai pas trouvé de tests spécifique pour DirectX 11.1 sur GTX680.

**LeGreg** · 27/03/2012, 19h47

Quelques tests avec DirectCompute depuis ces applications :
http://users.skynet.be/fquake/

comparaison GTX480, GTX680 in fps

Fluid3D_2
11, 40
------------

Mandeldx11

iterations = 2048
vector: 178, 372
Scalar: 195, 404
Double: 18 , 15
------------

Julia4D
dx11 compute shader

full detail
without shadows: 146, 300
with shadows: 99, 210
---

Donc c'est mieux pour tout sauf en double précision (ce qui parait normal pour une carte "gamer").

Les mêmes avec la version Cuda Single Precision de Sisoft Sandra

in the meanwhile some more synthethic benchmarks (sisoft sandra 2012, raw cuda sp shader performance):

Code:
gtx 560 ti @ default: 1065mpix/sec
gtx 570 @ default: 1520mpix/sec
gtx 580 @ default: 1680mpix/sec
gtx 580 @ 850mhz: 1850mpix/sec (also vram oc)
gtx 680 @ default: 2750mpix/sec = 1.64 times a gtx 580 or 2.58 times a gtx 560 ti at default clocks
gtx 680 + 300mhz: 3250mpix/sec (+15%)

**Dabou Master** · 31/03/2012, 00h42

Je suis moi aussi intéressé par le côté gpu computing ainsi que le côté gaming (c'est pas incompatible si ? ^^) mais je suis pas du tout inquiet pour ses performances vu que ma vieille gtx 275 est clairement moins orientée computing ^^.

Après pour ce qui est du réel bénéfice ou pas, ben je vois pas en quoi réduire sa facture d'électricité n'est pas intéressant, et puis la tesselation qui se répand dans les jeux va finir par devenir LE moyen d'apporter du détail là où il en manque donc je pense qu'ils ont développé les points capitaux. Après je me trompe peut être mais je ne pense pas avoir de réelles raisons d'être inquiet.

**LeGreg** · 02/04/2012, 00h21

Envoyé par Dabou Master

Je suis moi aussi intéressé par le côté gpu computing ainsi que le côté gaming (c'est pas incompatible si ? ^^)

Le problème c'est que les gens à fond dans le GPU computing (super calculateurs Cray, finance, pétrole) demandent des features lourdes en transistor : double précision performante, mémoire à correction d'erreur (ECC), et sont prêts à payer plus cher pour un design de carte custom pour mettre dans des serveurs.

Si tu ne te soucies d'aucune de ces features alors la gtx 680 devrait être satisfaisant (y compris pour le GPGPU). Pour le marché des serveurs ou certains projets qui tournent sur une carte (mais qui demandent de la puissance, double précision, ECC, taille de caches ou autres), il n'y a pas encore de successeur officiel à la puce GF110.

**Dabou Master** · 02/04/2012, 12h38

En fait c'est que Blender a un nouveau moteur de rendu "unbiased" (nommé Cycles) qui marche avec CUDA, enfin qui peut marcher avec CUDA ou OpenCL ou juste le CPU. Mon proce est vieux (un e6600 à 2.4 GHz de base oc à 3.5 Ghz) et ma carte graphique s'avère bien plus rapide pour les calculs (en toute logique ça devrait toujours être comme ça à puissance CPU/GPU égale tant qu'il n'y a pas de scène trop complexe je crois). Donc moi tout ce que je veux c'est un rendu plus rapide et vu que d'après ce que j'ai compris ma GTX 275 n'ayant que très peu de CUDA cores en comparaison avec ce qui se fait maintenant, je pense que je ne peux que y gagner. Et comme ma machine est autant ma station de travail que de jeu je ne peux pas me lancer dans de la carte spécialisée GPU computing uniquement. De toute façon j'ai du mal à m'y retrouver avec ce que ce foutu logiciel veut pour bien tourner, je crois qu'au final c'est surtout le code qui a besoin d'être "polished" mais un excès de puissance rendra peut être mon travail plus agréable.
A vrai dire sans doute.

En tout cas merci pour ta précision LeGreg même si là j'ai l'impression (je ne suis pas expert en matériel) que tu me parles plus d'unités de calcul que de vraies cartes graphiques à proprement parler (oui faut que je puisse jouer quand même ^^). Enfin je pense que les fonctionnalités dont tu parles ne sont pas intéressantes pour moi (enfin je dis ça quand je vois l'exemple du pétrole et de la finance) mais bon j'ai un peu trop de trucs à potasser en ce moment que l'architecture exacte qu'il me faudrait pour cartonner sur un logiciel libre qui manque cruellement (comme beaucoup de softs open source) d'optimisation ^^.

**gbdivers** · 26/04/2012, 12h08

Mark Harris va présenter CUDA 5 au GTC 2012, il faudra peut être attendre la sortie de CUDA 5 pour que la prise en charge soit optimale ?
Le futur du GPU Computing : CUDA 5 - Mark Harris présentera CUDA 5 au GTC 2012

Kepler, la nouvelle architecture de processeur graphique de NVIDIA

Développement 2D, 3D et Jeux

Discussions similaires

Partager

Partager