-
Mais généralement, on essaie de laisser les données d'un côté ou de l'autre (HOST/DEVICE) et de rapatrier qu'en cas d'absolue nécessité...
Par contre, il me semble avoir lu sur les papier fourni par NVidia que la vitesse d'accès au cache propre à chaque WARP est identique à la vitesse d'accès d'un processeur à son cache... (véracité -> ?)
J'ai trouvé quelques documents écrit par V. Volkov, je vais commencer à les lire...
Si vous avez d'autres exemple / bench, je suis prenneur!
-
ouais enfin, a un moment, les données faut les envoyer au moins 1 fois et les retrouver 1 fois. Si tu traites une video, tu dois faire ça a chaque frame :€
Paradoxalement, le traitement d'image sur GPU, y a pas d'algos suffisament gourmand pour gagner plus que x2 x4 par rapport a du simd+openmp et vu l'effort et la maintenance, ca vaut pas le coup.
Par contre dans d'aures domaines c'ets un peu plus interessant.