IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

C++ Discussion :

Thread et performances


Sujet :

C++

  1. #1
    Membre Expert
    Avatar de Aspic
    Homme Profil pro
    Étudiant
    Inscrit en
    Août 2005
    Messages
    3 905
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Électronique et micro-électronique

    Informations forums :
    Inscription : Août 2005
    Messages : 3 905
    Par défaut Thread et performances
    Bonjour,

    J'essaye d'améliorer les performances de mon programme en mettant des threads.
    J'ai un soucis de performance : j'ai une fonction admettons fastWorkFunction() qui est très rapide en single thread mais elle est appelée énormément de fois (ordre de grandeur 1 à 10 millions de fois). Après profiling du programme avec gprof, il me dit que 80% du temps, il se trouve dans cette fonction fastWorkFunction() ce qui est logique en soit.

    J'ai donc eu l'idée de threader cette fonction avec une pool de threads mais j'ai une perte de perte de performance et la version threadée devient plus lente que la version single thread !! A noter qu'il n'y a pas de mutex dans cette fonction donc le problème ne se situe pas au niveau des locks...

    Je pense que c'est parce que la fonction en question est trop rapide et que l'overhead ajouté par la gestion des threads explique cette perte de performance.

    Y'a til une solution pour threader des fonctions rapides appelées énormément de fois ?

    EDIT: Après profiling, la fonction qui prend le plus de temps est pthread_spin_lock je suppose que ca vient de la threadpool car je n'ai pas de mutex dans ma fonction... Un idée ?


    Au passage voilà ma thraedpool prise sur internet :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
    207
    208
    209
    210
    211
    212
    213
    214
    215
    216
    217
    218
    219
    220
    221
    222
    223
    224
    225
    226
    227
    228
    229
    230
    231
    232
    233
    234
    235
    236
    237
    238
    239
    240
    241
    242
    243
    244
    245
    246
    247
    248
    249
    #ifndef THREAD_POOL_H
    #define THREAD_POOL_H
     
    #include <vector>
    #include <queue>
    #include <memory>
    #include <thread>
    #include <mutex>
    #include <condition_variable>
    #include <future>
    #include <functional>
    #include <stdexcept>
     
    #define NB_THREAD_USE   8
     
    /*********************************************************
    *
    *  Copyright (C) 2014 by Vitaliy Vitsentiy
    *
    *  Licensed under the Apache License, Version 2.0 (the "License");
    *  you may not use this file except in compliance with the License.
    *  You may obtain a copy of the License at
    *
    *     http://www.apache.org/licenses/LICENSE-2.0
    *
    *  Unless required by applicable law or agreed to in writing, software
    *  distributed under the License is distributed on an "AS IS" BASIS,
    *  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    *  See the License for the specific language governing permissions and
    *  limitations under the License.
    *
    *********************************************************/
     
    // thread pool to run user's functors with signature
    //      ret func(int id, other_params)
    // where id is the index of the thread that runs the functor
    // ret is some return type
     
    namespace ctpl {
     
        namespace detail {
            template <typename T>
            class Queue {
            public:
                bool push(T const & value) {
                    std::unique_lock<std::mutex> lock(this->mutex);
                    this->q.push(value);
                    return true;
                }
                // deletes the retrieved element, do not use for non integral types
                bool pop(T & v) {
                    std::unique_lock<std::mutex> lock(this->mutex);
                    if (this->q.empty())
                        return false;
                    v = this->q.front();
                    this->q.pop();
                    return true;
                }
                bool empty() {
                    std::unique_lock<std::mutex> lock(this->mutex);
                    return this->q.empty();
                }
            private:
                std::queue<T> q;
                std::mutex mutex;
            };
        }
     
        class thread_pool {
     
        public:
     
            thread_pool() { this->init(); }
            thread_pool(int nThreads) { this->init(); this->resize(nThreads); }
     
            // the destructor waits for all the functions in the queue to be finished
            ~thread_pool() {
                this->stop(true);
            }
     
            // get the number of running threads in the pool
            int size() { return static_cast<int>(this->threads.size()); }
     
            // number of idle threads
            int n_idle() { return this->nWaiting; }
            std::thread & get_thread(int i) { return *this->threads[i]; }
     
            // change the number of threads in the pool
            // should be called from one thread, otherwise be careful to not interleave, also with this->stop()
            // nThreads must be >= 0
            void resize(int nThreads) {
                if (!this->isStop && !this->isDone) {
                    int oldNThreads = static_cast<int>(this->threads.size());
                    if (oldNThreads <= nThreads) {  // if the number of threads is increased
                        this->threads.resize(nThreads);
                        this->flags.resize(nThreads);
     
                        for (int i = oldNThreads; i < nThreads; ++i) {
                            this->flags[i] = std::make_shared<std::atomic<bool>>(false);
                            this->set_thread(i);
                        }
                    }
                    else {  // the number of threads is decreased
                        for (int i = oldNThreads - 1; i >= nThreads; --i) {
                            *this->flags[i] = true;  // this thread will finish
                            this->threads[i]->detach();
                        }
                        {
                            // stop the detached threads that were waiting
                            std::unique_lock<std::mutex> lock(this->mutex);
                            this->cv.notify_all();
                        }
                        this->threads.resize(nThreads);  // safe to delete because the threads are detached
                        this->flags.resize(nThreads);  // safe to delete because the threads have copies of shared_ptr of the flags, not originals
                    }
                }
            }
     
            // empty the queue
            void clear_queue() {
                std::function<void(int id)> * _f;
                while (this->q.pop(_f))
                    delete _f; // empty the queue
            }
     
            // pops a functional wrapper to the original function
            std::function<void(int)> pop() {
                std::function<void(int id)> * _f = nullptr;
                this->q.pop(_f);
                std::unique_ptr<std::function<void(int id)>> func(_f); // at return, delete the function even if an exception occurred
                std::function<void(int)> f;
                if (_f)
                    f = *_f;
                return f;
            }
     
            // wait for all computing threads to finish and stop all threads
            // may be called asynchronously to not pause the calling thread while waiting
            // if isWait == true, all the functions in the queue are run, otherwise the queue is cleared without running the functions
            void stop(bool isWait = false) {
                if (!isWait) {
                    if (this->isStop)
                        return;
                    this->isStop = true;
                    for (int i = 0, n = this->size(); i < n; ++i) {
                        *this->flags[i] = true;  // command the threads to stop
                    }
                    this->clear_queue();  // empty the queue
                }
                else {
                    if (this->isDone || this->isStop)
                        return;
                    this->isDone = true;  // give the waiting threads a command to finish
                }
                {
                    std::unique_lock<std::mutex> lock(this->mutex);
                    this->cv.notify_all();  // stop all waiting threads
                }
                for (int i = 0; i < static_cast<int>(this->threads.size()); ++i) {  // wait for the computing threads to finish
                        if (this->threads[i]->joinable())
                            this->threads[i]->join();
                }
                // if there were no threads in the pool but some functors in the queue, the functors are not deleted by the threads
                // therefore delete them here
                this->clear_queue();
                this->threads.clear();
                this->flags.clear();
            }
     
            template<typename F, typename... Rest>
            auto push(F && f, Rest&&... rest) ->std::future<decltype(f(0, rest...))> {
                auto pck = std::make_shared<std::packaged_task<decltype(f(0, rest...))(int)>>(
                    std::bind(std::forward<F>(f), std::placeholders::_1, std::forward<Rest>(rest)...)
                    );
                auto _f = new std::function<void(int id)>([pck](int id) {
                    (*pck)(id);
                });
                this->q.push(_f);
                std::unique_lock<std::mutex> lock(this->mutex);
                this->cv.notify_one();
                return pck->get_future();
            }
     
            // run the user's function that excepts argument int - id of the running thread. returned value is templatized
            // operator returns std::future, where the user can get the result and rethrow the catched exceptins
            template<typename F>
            auto push(F && f) ->std::future<decltype(f(0))> {
                auto pck = std::make_shared<std::packaged_task<decltype(f(0))(int)>>(std::forward<F>(f));
                auto _f = new std::function<void(int id)>([pck](int id) {
                    (*pck)(id);
                });
                this->q.push(_f);
                std::unique_lock<std::mutex> lock(this->mutex);
                this->cv.notify_one();
                return pck->get_future();
            }
     
     
        private:
     
            // deleted
            thread_pool(const thread_pool &);// = delete;
            thread_pool(thread_pool &&);// = delete;
            thread_pool & operator=(const thread_pool &);// = delete;
            thread_pool & operator=(thread_pool &&);// = delete;
     
            void set_thread(int i) {
                std::shared_ptr<std::atomic<bool>> flag(this->flags[i]); // a copy of the shared ptr to the flag
                auto f = [this, i, flag/* a copy of the shared ptr to the flag */]() {
                    std::atomic<bool> & _flag = *flag;
                    std::function<void(int id)> * _f;
                    bool isPop = this->q.pop(_f);
                    while (true) {
                        while (isPop) {  // if there is anything in the queue
                            std::unique_ptr<std::function<void(int id)>> func(_f); // at return, delete the function even if an exception occurred
                            (*_f)(i);
                            if (_flag)
                                return;  // the thread is wanted to stop, return even if the queue is not empty yet
                            else
                                isPop = this->q.pop(_f);
                        }
                        // the queue is empty here, wait for the next command
                        std::unique_lock<std::mutex> lock(this->mutex);
                        ++this->nWaiting;
                        this->cv.wait(lock, [this, &_f, &isPop, &_flag](){ isPop = this->q.pop(_f); return isPop || this->isDone || _flag; });
                        --this->nWaiting;
                        if (!isPop)
                            return;  // if the queue is empty and this->isDone == true or *flag then return
                    }
                };
                this->threads[i].reset(new std::thread(f)); // compiler may not support std::make_unique()
            }
     
            void init() { this->nWaiting = 0; this->isStop = false; this->isDone = false; }
     
            std::vector<std::unique_ptr<std::thread>> threads;
            std::vector<std::shared_ptr<std::atomic<bool>>> flags;
            detail::Queue<std::function<void(int id)> *> q;
            std::atomic<bool> isDone;
            std::atomic<bool> isStop;
            std::atomic<int> nWaiting;  // how many threads are waiting
     
            std::mutex mutex;
            std::condition_variable cv;
        };
     
    }
     
    #endif
    Peut être que le problème vient aussi du code de la threadpool ?

    Merci d'avance
    Qui ne tente rien n'a rien !
    Ce qui ne nous tue pas nous rends plus fort !!
    Mon projet ZELDA en C++/Allegro
    http://www.tutoworld.com - Le Forum -
    Mes ressources Dotnet (cours, sources, tutos)
    --------------------------------------------
    + + =

    Ne pas oublier le Tag !

  2. #2
    Rédacteur/Modérateur


    Homme Profil pro
    Network game programmer
    Inscrit en
    Juin 2010
    Messages
    7 147
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : Canada

    Informations professionnelles :
    Activité : Network game programmer

    Informations forums :
    Inscription : Juin 2010
    Messages : 7 147
    Billets dans le blog
    4
    Par défaut
    Donc si je comprends bien, tu as une fonction très rapide, et tu veux la threader en ajoutant tout un tas d'overhead (je vois des std::bind, atomic, lock, new ...) et t'es surpris que ça soit plus lent ?
    "mettre des threads" n'améliore pas les performances, il faut les mettre intelligemment. Si tous tes threads tournent sur le même core, ça sert à rien et l'impact est souvent négatif.
    Si tu veux utiliser une threadpool, avec une fonction vraiment rapide, il faudrait que chaque thread la lance X fois (tu ne montres que le code de la threadpool, c'est aussi utile que de voir le capot fermé d'une voiture et demander pourquoi quand on passe la 5° la jauge d'essence s'éteint).
    Et s'il s'agit d'une fonction nécessaire au bon déroulement du programme, dont tu dois attendre le résultat pour passer à la suite, la threader semble encore moins une bonne idée.
    Pensez à consulter la FAQ ou les cours et tutoriels de la section C++.
    Un peu de programmation réseau ?
    Aucune aide via MP ne sera dispensée. Merci d'utiliser les forums prévus à cet effet.

  3. #3
    Membre Expert
    Profil pro
    Inscrit en
    Mars 2007
    Messages
    1 415
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Mars 2007
    Messages : 1 415
    Par défaut
    Si ta fonction est très rapide, il ne faut pas faire passer chaque appel par une tâche car pour chaque appel, en plus du coût de la fonction, tu vas payer le passage par la queue et l'overhead de std::function (qui est hélas élevé). Il y a des chances que cela ne soit pas intéressant.

    Si tu veux gagner du temps, il faut donner à chaque thread de quoi faire son travail en évitant les primitives de synchronisation. Si tu as 4 threads et 10 millions d'appels à faire, alors débrouilles toi pour que chaque thread n'aie qu'une seule tâche qui contient 2.5 millions d'appels à ta fonctions, et pas 2.5 millions de tâches qui ne contiennent qu'un seul appel chacune.

    Aussi, il faut garder le pool et ne pas le re-créer pour chaque tour de traitement, car créer des threads est coûteux.

  4. #4
    Membre Expert
    Avatar de Aspic
    Homme Profil pro
    Étudiant
    Inscrit en
    Août 2005
    Messages
    3 905
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Électronique et micro-électronique

    Informations forums :
    Inscription : Août 2005
    Messages : 3 905
    Par défaut
    Bonjour,

    Merci pour ces précisions, effectivement il faut que je donne plus de travail à chaque thread
    Je comprends mieux le mécanisme des threads, je ne pensais pas que l'overhead des operations std::function / mutex et compagnie était si élevés.

    Bonne soirée et merci
    Qui ne tente rien n'a rien !
    Ce qui ne nous tue pas nous rends plus fort !!
    Mon projet ZELDA en C++/Allegro
    http://www.tutoworld.com - Le Forum -
    Mes ressources Dotnet (cours, sources, tutos)
    --------------------------------------------
    + + =

    Ne pas oublier le Tag !

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Thread et performances
    Par seeme dans le forum Android
    Réponses: 0
    Dernier message: 03/05/2010, 02h24
  2. thread et performance
    Par gene69 dans le forum Débuter avec Java
    Réponses: 6
    Dernier message: 13/06/2008, 18h42
  3. C# Thread et performances
    Par TheGriffin dans le forum C#
    Réponses: 15
    Dernier message: 06/08/2007, 14h08
  4. Réponses: 5
    Dernier message: 09/10/2006, 16h20

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo