IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Hardware Discussion :

La Titan V de Nvidia fait des erreurs de calcul pendant les simulations scientifiques


Sujet :

Hardware

  1. #1
    Expert éminent sénior

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Mars 2017
    Messages
    1 177
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Madagascar

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Mars 2017
    Messages : 1 177
    Points : 78 775
    Points
    78 775
    Par défaut La Titan V de Nvidia fait des erreurs de calcul pendant les simulations scientifiques
    La Titan V de Nvidia fait des erreurs de calcul pendant les simulations scientifiques
    Car elle ne supporte pas la technologie ECC comme les Quadro

    En décembre dernier, le fabricant californien de puces graphiques NVIDIA a profité de la conférence NIPS qui se tenait à San Francisco pour dévoiler sa Titan V, une carte graphique (GPU) pour PC basée sur l’architecture Volta (GV100). Elle embarque 12 Go de mémoire HBM2 et sa puissance de calcul annoncée est 110 téraflops en « demi-précision » (16 bits) et 6 875 téraflops en « double précision » (64 bits).

    Sur son site, le fabricant de GPU décrit son produit comme suit : « Moteur d’innovation dans toutes les industries, l’architecture GPU de NVIDIA pour supercalculateurs est désormais disponible sur PC pour vous permettre de réaliser tous vos projets. » Elle précise également que « les utilisateurs de NVIDIA TITAN peuvent accéder gratuitement à des logiciels Deep Learning optimisés pour le calcul sur GPU via NVIDIA GPU Cloud. »

    La Titan V est à l’origine un produit haut de gamme de la série GeForce dédié à la fois à l’intelligence artificielle (IA) et au jeu extrême. Cette carte n’a pas que d’extrême ses spécifications (21,1 milliards de transistors réunis sur un die de 8 cm² environ) puisqu’elle est actuellement vendue sur le site Web de la marque en France à 3100 euros.

    Nom : 1.jpg
Affichages : 9046
Taille : 40,2 Ko

    Mais voilà, un scientifique (anonyme) a récemment révélé que le GPU NVIDIA Titan V produit des erreurs dans des simulations scientifiques. D’après lui, le GPU Titan V de NVIDIA fournit des résultats différents, alors qu’on reproduit les mêmes calculs, et serait, de ce fait, incapable de donner des résultats fiables dans des conditions spécifiques.

    Ce « problème » serait dû à l’absence d’implémentation ou à la désactivation par NVIDIA de la technologie de détection et de correction d’erreurs en mémoire, abrégé ECC, qu’on retrouve sur certains modèles de GPU. Chez NVIDIA, cette technologie est, en général, réservée aux GPU de la série QUADRO (dédiés à la conception professionnelle et au marché de la création) et TESLA (dédiés au calcul haute performance ou HPC).

    Il faut préciser que l’entrainement des réseaux neuronaux pour l’IA et le Deep Learning ne nécessite généralement pas de recourir à des calculs en haute précision. Ce sont surtout les performances en « demi-précision » du matériel qui font toute la différence dans ce domaine.

    Sur une carte graphique dédiée au jeu, la survenue d’erreurs en mémoire qui peut, à titre d’exemple, se manifester par l’apparition d’une couleur de pixel incorrecte pour une image donnée n’aura en général aucune incidence sur l’expérience d’utilisation globale. La plupart du temps, elle demeure d’ailleurs imperceptible. C’est la raison pour laquelle les constructeurs de GPU n’ont pas jugé utile d’implémenter l’ECC sur les cartes graphiques dédiées au jeu.

    Cependant, certaines applications spécialisées ont impérativement besoin que les données qu’elles manipulent soient toujours exactes afin d’éviter que le résultat final ne soit faussé et d’anticiper la survenue d’échecs lors d’une expérience. Pour ce type d’application, les fabricants de GPU ont conçu des GPU bien particuliers qui excellent dans le calcul en double précision et prennent en charge la technologie ECC permettant de détecter et de corriger les erreurs éventuelles. Tous les derniers GPU Tesla V100, Tesla P100 et Quadro GP100 supportent la technologie ECC qui est implémentée dans la mémoire HBM2 principale, ainsi que dans les fichiers de registre, les mémoires partagées, le cache L1 et le cache L2.

    Suite à cette affaire, le constructeur a réagi en déclarant : « tous nos GPU sont complémentaires. Notre gamme Tesla, qui profite de l’ECC [error-correcting code memory], est conçue pour ce type de simulation haute performance et à grande échelle. Toute personne rencontrant des problèmes devrait contacter support@nvidia.com. »

    Source : WccfTech, Microway, NVIDIA

    Et vous ?

    Qu’en pensez-vous ?

    Voir aussi

    NVIDIA demande aux détaillants d'arrêter de vendre ses GPU GeForce aux mineurs de crytomonnaies pour contrer la pénurie et la hausse des prix des GP
    NVIDIA accusé de pratiques anticoncurrentielles à cause de son programme partenaire NVIDIA
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Membre expert
    Profil pro
    undef
    Inscrit en
    Février 2013
    Messages
    957
    Détails du profil
    Informations personnelles :
    Localisation : France, Lot (Midi Pyrénées)

    Informations professionnelles :
    Activité : undef

    Informations forums :
    Inscription : Février 2013
    Messages : 957
    Points : 3 525
    Points
    3 525
    Par défaut
    Qu'il s'agit vraisemblablement d'un "sabotage" volontaire de la part de NVIDIA pour dissuader les mineurs de cryptomonnaies d'acheter des modèles destinés aux gamers.

  3. #3
    Membre éprouvé
    Homme Profil pro
    Everything
    Inscrit en
    Décembre 2013
    Messages
    361
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Italie

    Informations professionnelles :
    Activité : Everything

    Informations forums :
    Inscription : Décembre 2013
    Messages : 361
    Points : 1 277
    Points
    1 277
    Par défaut
    Citation Envoyé par 23JFK Voir le message
    Qu'il s'agit vraisemblablement d'un "sabotage" volontaire de la part de NVIDIA pour dissuader les mineurs de cryptomonnaies d'acheter des modèles destinés aux gamers.
    Il se trouve que les mineurs de cryptomonnaies s’accommodent très bien d'erreurs statistiques. En revanche pour les modèles scientifiques déterministes c'est clairement beaucoup plus embêtant.
    Ceux qui abandonnent une liberté essentielle pour une sécurité minime et temporaire ne méritent ni la liberté ni la sécurité.
    Benjamin Franklin

  4. #4
    Expert éminent sénior
    Homme Profil pro
    Responsable Données
    Inscrit en
    Janvier 2009
    Messages
    5 197
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Responsable Données

    Informations forums :
    Inscription : Janvier 2009
    Messages : 5 197
    Points : 12 772
    Points
    12 772
    Par défaut
    110 téraflops en « demi-précision » (16 bits) et 6 875 téraflops en « double précision » (64 bits).
    Elle va donc 62 fois plus vite en 64bits qu'en 16 bits ?
    Les 110 TFLOPS concernent uniquement TensorFlow, sinon c'est 13.8 TFLOPS en simple précision, et 6.9 TFLOPS en double précision.
    Tatayo.

Discussions similaires

  1. Excel fait une erreur de calcul !
    Par jlp65 dans le forum Excel
    Réponses: 14
    Dernier message: 05/02/2015, 15h52
  2. Un bogue de direct3D provoque des erreurs de calcul
    Par comtois dans le forum PureBasic
    Réponses: 0
    Dernier message: 18/04/2011, 00h03
  3. Dédié : affichage des erreurs php pour tous les domaines
    Par renaud26 dans le forum Administration système
    Réponses: 2
    Dernier message: 30/05/2008, 17h14
  4. C++Builder fait une erreur de calcul
    Par gandf dans le forum C++Builder
    Réponses: 7
    Dernier message: 03/01/2004, 22h27

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo