IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Coprocesseurs et calcul hétérogène Discussion :

IBM propose une bibliothèque d'apprentissage profond 46 x plus rapide que Google TensorFlow


Sujet :

Coprocesseurs et calcul hétérogène

  1. #1
    Responsable Qt & Livres


    Avatar de dourouc05
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Août 2008
    Messages
    26 676
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2008
    Messages : 26 676
    Points : 188 684
    Points
    188 684
    Par défaut IBM propose une bibliothèque d'apprentissage profond 46 x plus rapide que Google TensorFlow
    Pour le moment, dans le domaine en ébullition qu’est celui de l’apprentissage de réseaux neuronaux profonds, l’outil TensorFlow de Google est très souvent utilisé, notamment pour sa performance. Celle-ci est très importante, au vu de la taille des jeux de données… et de la complexité des modèles souhaités.

    IBM annonce avoir réussi à battre TensorFlow par un facteur quarante-six : sur une application de référence (prédire si un utilisateur clique ou non sur une publicité, selon un jeu de données de Criteo comportant plus de quatre milliards d’entrées), IBM a réussi à produire un modèle de la même qualité et de la même complexité (une « simple » régression logistique) en un peu plus d’une minute et demie, quand TensorFlow prend septante minutes pour arriver à ce résultat (selon des résultats fournis par Google).


    Pour ce faire, IBM a mélangé son outil SNAP ML (pas encore disponible au grand public) et ses serveurs POWER9, avec des cartes graphiques NVIDIA V100 (quatre serveurs, chacun avec deux processeurs principaux et quatre cartes graphiques). De son côté, Google a utilisé son offre infonuagique publique, sans carte graphique. Selon les tests de Google, utiliser des cartes graphiques nuit à la performance : les données sont tellement massives qu’il faut sans cesse les transférer de la mémoire centrale à celle des processeurs graphiques, un temps pendant lequel aucun calcul ne peut être effectué.

    Au contraire, IBM a cherché à optimiser au maximum la localité des données au niveau du GPU, afin d’éviter tout transfert. Au niveau matériel, les cartes utilisent le bus NVLink : les copies de données vers les GPU se font six fois plus vite que par PCI Express. Avec ces optimisations, le temps d’entraînement sur une petite partie des données est plus grand que le temps de transfert de ces données : l’utilisation de GPU a maintenant du sens !


    Source : New IBM Machine Learning Framework Demonstrates 46x Speedup.

  2. #2
    Membre éclairé Avatar de Matthieu76
    Homme Profil pro
    Consultant informatique
    Inscrit en
    Mars 2013
    Messages
    568
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Consultant informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2013
    Messages : 568
    Points : 890
    Points
    890
    Par défaut
    Citation Envoyé par dourouc05 Voir le message
    Avec ces optimisations, le temps d’entraînement sur une petite partie des données est plus petit que le temps de transfert de ces données : l’utilisation de GPU a maintenant du sens !
    C'est pas plutôt l’inverse ? Vu que le temps d’entraînement sur une petite partie et moins rapide que le temps de transfert de ces données, on peut transférer les données de l'apprentissage suivant pendant le temps d'apprentissage et ainsi ne pas interrompre l'apprentissage (excepter les 3ms d'initialisation).

  3. #3
    Responsable Qt & Livres


    Avatar de dourouc05
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Août 2008
    Messages
    26 676
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2008
    Messages : 26 676
    Points : 188 684
    Points
    188 684
    Par défaut
    De fait, merci pour ta lecture attentive !

  4. #4
    Membre chevronné
    Avatar de emixam16
    Homme Profil pro
    Chercheur en sécurité
    Inscrit en
    Juin 2013
    Messages
    335
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Calvados (Basse Normandie)

    Informations professionnelles :
    Activité : Chercheur en sécurité

    Informations forums :
    Inscription : Juin 2013
    Messages : 335
    Points : 1 837
    Points
    1 837
    Par défaut
    Quelle prouesse technique, je serai curieux de voir le code.

    On savait que TensorFlow était loin d'être optimal, mais si ces résultat s'avèrent généralisables, c'est un sacré boost

  5. #5
    Membre éclairé Avatar de Matthieu76
    Homme Profil pro
    Consultant informatique
    Inscrit en
    Mars 2013
    Messages
    568
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Consultant informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2013
    Messages : 568
    Points : 890
    Points
    890
    Par défaut
    Oui enfin calmons-nous un peu, c'est juste sur 1 seul exemple. Cela ne prouve absolument rien, de plus s'ils ont développé leur projet juste pour un seul exemple avec du hardware spécifique c'est normal d'avoir de meilleurs résultats que TensorFlow qui est une library grand public.

  6. #6
    Responsable Qt & Livres


    Avatar de dourouc05
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Août 2008
    Messages
    26 676
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2008
    Messages : 26 676
    Points : 188 684
    Points
    188 684
    Par défaut
    Ce n'est pas tellement du matériel spécifique : si tu as le budget nécessaire, tu peux t'acheter la même chose. Maintenant, c'est de bonne guerre : tous les fabricants cherchent à optimiser ce genre d'opérations sur leur matériel.

  7. #7
    Membre éclairé Avatar de Matthieu76
    Homme Profil pro
    Consultant informatique
    Inscrit en
    Mars 2013
    Messages
    568
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Consultant informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2013
    Messages : 568
    Points : 890
    Points
    890
    Par défaut
    Je voulais juste souligner que du code spécifique à une configuration de PC sera toujours plus rapide que du code qui fonctionne sur tout les PC. C'est juste que TensorFlow n'a pas optimize son code pour le PCI Express et cela n'a pas vraiment d'intérêt de la faire si quasiment personne n'en utilise pour le moment. Et encore, peut-être que sur d'autre jeux de données ou l'apprentissage est plus court et les données plus petite cela cela plus lent que TensorFlow. Et aussi faut être sur que les 2 codes font exactement la même choses.

    En conclusion la solution d'IBM est bien mais je pense que sur plus 90% des projets développés avec TensorFlow leur solution serait plus lente.

  8. #8
    Membre averti

    Homme Profil pro
    Directeur de projet
    Inscrit en
    Juillet 2003
    Messages
    111
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Directeur de projet
    Secteur : Transports

    Informations forums :
    Inscription : Juillet 2003
    Messages : 111
    Points : 372
    Points
    372
    Par défaut
    En lisant l'article on s'attend à ce que ce soit le code qui soit optimisé, alors qu'en fait c'est le couple logiciel/matériel. On ne peut pas faire ce type de comparaison !
    Un bon pilote sur une 2CV ira moins vite qu'un mauvais pilote sur une Ferrari...

Discussions similaires

  1. Réponses: 0
    Dernier message: 08/02/2014, 06h01
  2. IBM sort une bibliothèque de chiffrement homomorphe
    Par Stéphane le calme dans le forum Sécurité
    Réponses: 3
    Dernier message: 20/06/2013, 16h51
  3. Réponses: 14
    Dernier message: 11/07/2011, 10h14
  4. Réponses: 19
    Dernier message: 16/09/2009, 08h41

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo