IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

 C Discussion :

Optimiser une boucle à l'aide d'instructions simd


Sujet :

C

  1. #1
    Membre régulier Avatar de moomba
    Profil pro
    Inscrit en
    Avril 2007
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2007
    Messages : 134
    Points : 104
    Points
    104
    Par défaut Optimiser une boucle à l'aide d'instructions simd
    Bonjour,

    Je cherche à optimiser une boucle classique, à savoir la résolution 2D de l’équation de la chaleur. Le calcul est très simple : on calcul U1 à partir de U0, puis U0 à partir de U1, et on recommence niter fois pour que le calcul converge. Il suffit de respecter le critère de stabilité pour que le calcul fonctionne.

    Il s'agit d'une boucle utilisant des tableaux à deux dimensions et faisant appel à des instructions simples.

    Je cherche à améliorer les performances en utilisant les instructions SIMD des processeurs, notamment les AVX des nouveaux Intels qui permettent de gérer 4 double à la fois. Il y a aussi l'instruction d'AMD permettant de faire une multiplication et une addition en 1 cycle.

    Voici mon programme de test actuel, je cherche à pousser le compilateur à faire le travail lui même, mais ca en me dérange pas de mettre les mains dans le cambouis. Le raisonnement est très simple : je décompose de plus en plus les boucles pour étudier le comportement :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
    207
    208
    209
    210
    211
    212
    213
    214
    215
    216
    217
    218
    219
    220
    221
    222
    223
    224
    225
    226
    227
    228
    229
    230
    231
    232
    233
    234
    235
    236
    237
    238
    239
    240
    241
    242
    243
    244
    245
    246
    247
    248
    249
    250
    251
    252
    253
    254
    255
    256
    257
    258
    259
    260
    261
    262
    263
    264
    265
    266
    267
    268
    269
    270
    271
    272
    273
    274
    275
    276
    277
    278
    279
    280
    281
    282
    283
    284
    285
    286
    287
    288
    289
    290
    291
    292
    293
    294
    295
    296
    297
    298
    299
    300
    301
    302
    303
    304
    305
    306
    307
    308
    309
    310
    311
    312
    313
    314
    315
    316
    317
    318
    319
    320
    321
    322
    323
    324
    325
    326
    327
    328
    329
    330
    331
    332
    333
    334
    335
    336
    337
    338
    339
    340
    341
    342
    343
    344
    345
    346
    347
    348
    349
    350
    351
    352
    353
    354
    355
    356
    357
    358
    359
    360
    361
    362
    #include <stdio.h>
    #include <time.h>
    /*#include<emmintrin.h>*/
     
    #define n1 102
    #define n2 102
    #define niter 20000
     
    double U0[n1][n2];
    double U1[n1][n2];
    double U2[n1][n2]; /* tampon */
     
    /* simd */
     
    /*__m128d vU0[n1][n2];
    __m128d vU1[n1][n2];
    __m128d vU2[n1][n2]; *//* tampon */
     
     
    int i,j,t;
    double Dx,Dy,Lx,Ly,InvDxDx,InvDyDy,Dt,alpha,totaltime,Stab,DtAlpha,DxDx,DyDy;
    clock_t time0,time1;
    FILE *f1;
     
    int main()
    {
     
    /* ---- GENERAL ---- */
     
       alpha = 0.4;
       totaltime = 1.0;
       Dt = totaltime/((niter-1)*1.0);
       Lx = 1.0;
       Ly = 1.0;
       Dx = Lx/((n1-1)*1.0);
       Dy = Ly/((n2-1)*1.0);
       InvDxDx = 1.0/(Dx*Dx);
       InvDyDy = 1.0/(Dy*Dy);
       DxDx = Dx*Dx;
       DyDy = Dy*Dy;
       Stab = alpha*Dt*(InvDxDx+InvDyDy);
       DtAlpha = Dt*alpha;
     
    /* Stability if result <= 0.5 */
       printf("Stability factor : %f \n",Stab);
     
     
    /* +----------------+ */
    /* |     LOOP 0     | */
    /* +----------------+ */
     
    /* Init */
       for( i = 0; i < n1; i++)
       {
          for( j = 0; j < n2; j++)
          {
             U0[i][j] = 0.0;
             U1[i][j] = 0.0;
          }
       }
     
       for( i = 0; i < n1; i++)
       {
          U0[i][0] = 1.0;
          U1[i][0] = 1.0;
       }
     
       printf("Init OK \n");
     
    /* Core */
     
     time0=clock();
     
     for( t = 0; t < niter; t++)
     {
     
        /* even */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j++)
           {
              U1[i][j] = U0[i][j] + DtAlpha*( (U0[i+1][j]-2.0*U0[i][j]+U0[i-1][j])*InvDxDx + (U0[i][j+1]-2.0*U0[i][j]+U0[i][j-1])*InvDyDy);
           }
        }
     
        /* odd */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j++)
           {
              U0[i][j] = U1[i][j] + DtAlpha*( (U1[i+1][j]-2.0*U1[i][j]+U1[i-1][j])*InvDxDx + (U1[i][j+1]-2.0*U1[i][j]+U1[i][j-1])*InvDyDy);
           }
        }
     
       }
     
     time1=clock();
     
     printf("Loop 0, total time : %f \n", (double) time1-time0);
     
     
     f1 = fopen ("out0.dat", "wt");
     for( i = 1; i < n1-1; i++)
     {
        for( j = 1; j < n2-1; j++)
        {
           fprintf (f1, "%d\t%d\t%f\n", i, j, U0[i][j]);
        }
     }
     
     
     
     
    /* +----------------+ */
    /* |     LOOP 1     | */
    /* +----------------+ */
     
    /* Init */
       for( i = 0; i < n1; i++)
       {
          for( j = 0; j < n2; j++)
          {
             U0[i][j] = 0.0;
             U1[i][j] = 0.0;
          }
       }
     
       for( i = 0; i < n1; i++)
       {
          U0[i][0] = 1.0;
          U1[i][0] = 1.0;
       }
     
       printf("Init OK \n");
     
    /* Core */
     
     time0=clock();
     
     for( t = 0; t < niter; t++)
     {
     
        /* even */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j++)
           {
              /* U1[i][j] = U0[i][j] + Dt*alpha*( (U0[i+1][j]-2.0*U0[i][j]+U0[i-1][j])*InvDxDx + (U0[i][j+1]-2.0*U0[i][j]+U0[i][j-1])*InvDyDy); */
     
              U1[i][j] = -2.0*U0[i][j];
     
              U1[i][j] = U1[i][j] + U0[i+1][j];
     
              U1[i][j] = U1[i][j] + U0[i-1][j];
     
              U1[i][j] = U1[i][j] * InvDxDx;
     
              U2[i][j] = -2.0*U0[i][j];
     
              U2[i][j] = U2[i][j] + U0[i][j+1];
     
              U2[i][j] = U2[i][j] + U0[i][j-1];
     
              U2[i][j] = U2[i][j] * InvDyDy;
     
              U1[i][j] = U1[i][j] + U2[i][j];
     
              U1[i][j] = U1[i][j] * DtAlpha;
     
              U1[i][j] = U1[i][j] + U0[i][j];
     
           }
        }
     
        /* odd */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j++)
           {
     
              U0[i][j] = -2.0*U1[i][j];
     
              U0[i][j] = U0[i][j] + U1[i+1][j];
     
              U0[i][j] = U0[i][j] + U1[i-1][j];
     
              U0[i][j] = U0[i][j] * InvDxDx;
     
              U2[i][j] = -2.0*U1[i][j];
     
              U2[i][j] = U2[i][j] + U1[i][j+1];
     
              U2[i][j] = U2[i][j] + U1[i][j-1];
     
              U2[i][j] = U2[i][j] * InvDyDy;
     
              U0[i][j] = U0[i][j] + U2[i][j];
     
              U0[i][j] = U0[i][j] * DtAlpha;
     
              U0[i][j] = U0[i][j] + U1[i][j];
     
           }
        }
     
       }
     
     time1=clock();
     
     printf("Loop 1, total time : %f \n", (double) time1-time0);
     
     
     
    /* End */
     
     f1 = fopen ("out1.dat", "wt");
     for( i = 1; i < n1-1; i++)
     {
        for( j = 1; j < n2-1; j++)
        {
           fprintf (f1, "%d\t%d\t%f\n", i, j, U0[i][j]);
        }
     }
     
     
     
     
    /* +----------------+ */
    /* |     LOOP 2     | */
    /* +----------------+ */
     
    /* Init */
       for( i = 0; i < n1; i++)
       {
          for( j = 0; j < n2; j++)
          {
             U0[i][j] = 0.0;
             U1[i][j] = 0.0;
          }
       }
     
       for( i = 0; i < n1; i++)
       {
          U0[i][0] = 1.0;
          U1[i][0] = 1.0;
       }
     
       printf("Init OK \n");
     
    /* Core */
     
     time0=clock();
     
     for( t = 0; t < niter; t++)
     {
     
        /* even */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j=j+2)
           {
              /* U1[i][j] = U0[i][j] + Dt*alpha*( (U0[i+1][j]-2.0*U0[i][j]+U0[i-1][j])*InvDxDx + (U0[i][j+1]-2.0*U0[i][j]+U0[i][j-1])*InvDyDy); */
     
              U1[i][j] = -2.0*U0[i][j];
              U1[i][j+1] = -2.0*U0[i][j+1];
     
              U1[i][j] = U1[i][j] + U0[i+1][j];
              U1[i][j+1] = U1[i][j+1] + U0[i+1][j+1];
     
              U1[i][j] = U1[i][j] + U0[i-1][j];
              U1[i][j+1] = U1[i][j+1] + U0[i-1][j+1];
     
              U1[i][j] = U1[i][j] * InvDxDx;
              U1[i][j+1] = U1[i][j+1] * InvDxDx;
     
              U2[i][j] = -2.0*U0[i][j];
              U2[i][j+1] = -2.0*U0[i][j+1];
     
              U2[i][j] = U2[i][j] + U0[i][j+1];
              U2[i][j+1] = U2[i][j+1] + U0[i][j+2];
     
              U2[i][j] = U2[i][j] + U0[i][j-1];
              U2[i][j+1] = U2[i][j+1] + U0[i][j];
     
              U2[i][j] = U2[i][j] * InvDyDy;
              U2[i][j+1] = U2[i][j+1] * InvDyDy;
     
              U1[i][j] = U1[i][j] + U2[i][j];
              U1[i][j+1] = U1[i][j+1] + U2[i][j+1];
     
              U1[i][j] = U1[i][j] * DtAlpha;
              U1[i][j+1] = U1[i][j+1] * DtAlpha;
     
              U1[i][j] = U1[i][j] + U0[i][j];
              U1[i][j+1] = U1[i][j+1] + U0[i][j+1];
     
           }
        }
     
        /* odd */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j=j+2)
           {
     
              U0[i][j] = -2.0*U1[i][j];
              U0[i][j+1] = -2.0*U1[i][j+1];
     
              U0[i][j] = U0[i][j] + U1[i+1][j];
              U0[i][j+1] = U0[i][j+1] + U1[i+1][j+1];
     
              U0[i][j] = U0[i][j] + U1[i-1][j];
              U0[i][j+1] = U0[i][j+1] + U1[i-1][j+1];
     
              U0[i][j] = U0[i][j] * InvDxDx;
              U0[i][j+1] = U0[i][j+1] * InvDxDx;
     
              U2[i][j] = -2.0*U1[i][j];
              U2[i][j+1] = -2.0*U1[i][j+1];
     
              U2[i][j] = U2[i][j] + U1[i][j+1];
              U2[i][j+1] = U2[i][j+1] + U1[i][j+2];
     
              U2[i][j] = U2[i][j] + U1[i][j-1];
              U2[i][j+1] = U2[i][j+1] + U1[i][j];
     
              U2[i][j] = U2[i][j] * InvDyDy;
              U2[i][j+1] = U2[i][j+1] * InvDyDy;
     
              U0[i][j] = U0[i][j] + U2[i][j];
              U0[i][j+1] = U0[i][j+1] + U2[i][j+1];
     
              U0[i][j] = U0[i][j] * DtAlpha;
              U0[i][j+1] = U0[i][j+1] * DtAlpha;
     
              U0[i][j] = U0[i][j] + U1[i][j];
              U0[i][j+1] = U0[i][j+1] + U1[i][j+1];
     
           }
        }
     
       }
     
     time1=clock();
     
     printf("Loop 2, total time : %f \n", (double) time1-time0);
     
     
     
    /* End */
     
     f1 = fopen ("out2.dat", "wt");
     for( i = 1; i < n1-1; i++)
     {
        for( j = 1; j < n2-1; j++)
        {
           fprintf (f1, "%d\t%d\t%f\n", i, j, U0[i][j]);
        }
     }
     
     
    }
    Les résultats sont pour le moment les mêmes avec gcc et icc : la première boucle est sensiblement moins rapide que la seconde, et la dernière est à la ramasse (presque deux fois plus lent). Je cherchai à le pousser à utiliser les SIMD par paquets de deux. (4 sur les Snady/Ivy Bridge)

    Avez vous des idées sur la façon d'optimiser tout ça, et de pousser le compilateur à utiliser les SIMD pour accélérer le tout ?

    Moomba
    "Celui qui à le pouvoir de faire le mal, mais qui ne le fait pas, celui là est le prince de l'univers." (shakespeare)

  2. #2
    Membre régulier Avatar de moomba
    Profil pro
    Inscrit en
    Avril 2007
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2007
    Messages : 134
    Points : 104
    Points
    104
    Par défaut
    Code mis à jours. Les instructions sont codés en dur, mais c'est encore plus lent...

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
    207
    208
    209
    210
    211
    212
    213
    214
    215
    216
    217
    218
    219
    220
    221
    222
    223
    224
    225
    226
    227
    228
    229
    230
    231
    232
    233
    234
    235
    236
    237
    238
    239
    240
    241
    242
    243
    244
    245
    246
    247
    248
    249
    250
    251
    252
    253
    254
    255
    256
    257
    258
    259
    260
    261
    262
    263
    264
    265
    266
    267
    268
    269
    270
    271
    272
    273
    274
    275
    276
    277
    278
    279
    280
    281
    282
    283
    284
    285
    286
    287
    288
    289
    290
    291
    292
    293
    294
    295
    296
    297
    298
    299
    300
    301
    302
    303
    304
    305
    306
    307
    308
    309
    310
    311
    312
    313
    314
    315
    316
    317
    318
    319
    320
    321
    322
    323
    324
    325
    326
    327
    328
    329
    330
    331
    332
    333
    334
    335
    336
    337
    338
    339
    340
    341
    342
    343
    344
    345
    346
    347
    348
    349
    350
    351
    352
    353
    354
    355
    356
    357
    358
    359
    360
    361
    362
    363
    364
    365
    366
    367
    368
    369
    370
    371
    372
    373
    374
    375
    376
    377
    378
    379
    380
    381
    382
    383
    384
    385
    386
    387
    388
    389
    390
    391
    392
    393
    394
    395
    396
    397
    398
    399
    400
    401
    402
    403
    404
    405
    406
    407
    408
    409
    410
    411
    412
    413
    414
    415
    416
    417
    418
    419
    420
    421
    422
    423
    424
    425
    426
    427
    428
    429
    430
    431
    432
    433
    434
    435
    436
    437
    438
    439
    440
    441
    442
    443
    444
    445
    446
    447
    448
    449
    450
    451
    452
    453
    454
    455
    456
    457
    458
    459
    460
    461
    462
    463
    464
    465
    466
    467
    468
    469
    470
    471
    472
    473
    474
    475
    476
    477
    478
    479
    480
    481
    482
    483
    484
    485
    486
    487
    488
    489
    490
    491
    492
    493
    494
    495
    496
    497
    498
    499
    500
    501
    502
    503
    504
    505
    506
    507
    508
    509
    510
    511
    512
    513
    514
    515
    516
    517
    518
    519
    520
    521
    522
    523
    524
    525
    526
    527
    528
    529
    530
    531
    532
    533
    534
    535
    536
    537
    538
    539
    540
    541
    542
    543
    544
    545
    546
    547
    548
    549
    550
    551
    552
    553
    554
    555
    556
    557
    558
    559
    560
    561
    562
    563
    564
    565
    566
    567
    568
    569
    570
    571
    572
    573
    574
    575
    576
    577
    578
    579
    580
    581
    582
    583
    584
    585
    586
    587
    588
    589
    590
    591
    592
    593
    594
    595
    596
    597
    598
    599
    600
    601
    602
    603
    604
    605
    606
    607
    608
    609
    610
    611
    612
    613
    614
    615
    616
    617
    618
    619
    620
    621
    622
    #include <stdio.h>
    #include <time.h>
    #include<emmintrin.h>
     
    #define n1 102
    #define n2 102
    #define niter 20000
     
    double U0[n1][n2];
    double U1[n1][n2];
    double U2[n1][n2]; /* tampon */
     
    double *cU0[n1][n2];
     
    /* simd */
     
    __m128d vU0[n1][n2];
    __m128d vU1[n1][n2];
    __m128d vU2[n1][n2]; /* tampon */
     
    int i,j,t;
    double Dx,Dy,Lx,Ly,InvDxDx,InvDyDy,Dt,alpha,totaltime,Stab,DtAlpha,DxDx,DyDy;
    clock_t time0,time1;
    FILE *f1;
     
    int main()
    {
     
    /* ---- GENERAL ---- */
     
       alpha = 0.4;
       totaltime = 1.0;
       Dt = totaltime/((niter-1)*1.0);
       Lx = 1.0;
       Ly = 1.0;
       Dx = Lx/((n1-1)*1.0);
       Dy = Ly/((n2-1)*1.0);
       InvDxDx = 1.0/(Dx*Dx);
       InvDyDy = 1.0/(Dy*Dy);
       DxDx = Dx*Dx;
       DyDy = Dy*Dy;
       Stab = alpha*Dt*(InvDxDx+InvDyDy);
       DtAlpha = Dt*alpha;
     
    /* Stability if result <= 0.5 */
       printf("Stability factor : %f \n",Stab);
     
     
    /* +----------------+ */
    /* |     LOOP 0     | */
    /* +----------------+ */
     
    /* Init */
       for( i = 0; i < n1; i++)
       {
          for( j = 0; j < n2; j++)
          {
             U0[i][j] = 0.0;
             U1[i][j] = 0.0;
          }
       }
     
       for( i = 0; i < n1; i++)
       {
          U0[i][0] = 1.0;
          U1[i][0] = 1.0;
       }
     
       printf("Init OK \n");
     
    /* Core */
     
     time0=clock();
     
     for( t = 0; t < niter; t++)
     {
     
        /* even */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j++)
           {
              U1[i][j] = U0[i][j] + DtAlpha*( (U0[i+1][j]-2.0*U0[i][j]+U0[i-1][j])*InvDxDx + (U0[i][j+1]-2.0*U0[i][j]+U0[i][j-1])*InvDyDy);
           }
        }
     
        /* odd */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j++)
           {
              U0[i][j] = U1[i][j] + DtAlpha*( (U1[i+1][j]-2.0*U1[i][j]+U1[i-1][j])*InvDxDx + (U1[i][j+1]-2.0*U1[i][j]+U1[i][j-1])*InvDyDy);
           }
        }
     
       }
     
     time1=clock();
     
     printf("Loop 0, total time : %f \n", (double) time1-time0);
     
     
     f1 = fopen ("out0.dat", "wt");
     for( i = 1; i < n1-1; i++)
     {
        for( j = 1; j < n2-1; j++)
        {
           fprintf (f1, "%d\t%d\t%f\n", i, j, U0[i][j]);
        }
     }
     
     
     
     
    /* +----------------+ */
    /* |     LOOP 1     | */
    /* +----------------+ */
     
    /* Init */
       for( i = 0; i < n1; i++)
       {
          for( j = 0; j < n2; j++)
          {
             U0[i][j] = 0.0;
             U1[i][j] = 0.0;
          }
       }
     
       for( i = 0; i < n1; i++)
       {
          U0[i][0] = 1.0;
          U1[i][0] = 1.0;
       }
     
       printf("Init OK \n");
     
    /* Core */
     
     time0=clock();
     
     for( t = 0; t < niter; t++)
     {
     
        /* even */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j++)
           {
              /* U1[i][j] = U0[i][j] + Dt*alpha*( (U0[i+1][j]-2.0*U0[i][j]+U0[i-1][j])*InvDxDx + (U0[i][j+1]-2.0*U0[i][j]+U0[i][j-1])*InvDyDy); */
     
              U1[i][j] = -2.0*U0[i][j];
     
              U1[i][j] = U1[i][j] + U0[i+1][j];
     
              U1[i][j] = U1[i][j] + U0[i-1][j];
     
              U1[i][j] = U1[i][j] * InvDxDx;
     
              U2[i][j] = -2.0*U0[i][j];
     
              U2[i][j] = U2[i][j] + U0[i][j+1];
     
              U2[i][j] = U2[i][j] + U0[i][j-1];
     
              U2[i][j] = U2[i][j] * InvDyDy;
     
              U1[i][j] = U1[i][j] + U2[i][j];
     
              U1[i][j] = U1[i][j] * DtAlpha;
     
              U1[i][j] = U1[i][j] + U0[i][j];
     
           }
        }
     
        /* odd */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j++)
           {
     
              U0[i][j] = -2.0*U1[i][j];
     
              U0[i][j] = U0[i][j] + U1[i+1][j];
     
              U0[i][j] = U0[i][j] + U1[i-1][j];
     
              U0[i][j] = U0[i][j] * InvDxDx;
     
              U2[i][j] = -2.0*U1[i][j];
     
              U2[i][j] = U2[i][j] + U1[i][j+1];
     
              U2[i][j] = U2[i][j] + U1[i][j-1];
     
              U2[i][j] = U2[i][j] * InvDyDy;
     
              U0[i][j] = U0[i][j] + U2[i][j];
     
              U0[i][j] = U0[i][j] * DtAlpha;
     
              U0[i][j] = U0[i][j] + U1[i][j];
     
           }
        }
     
       }
     
     time1=clock();
     
     printf("Loop 1, total time : %f \n", (double) time1-time0);
     
     
     
    /* End */
     
     f1 = fopen ("out1.dat", "wt");
     for( i = 1; i < n1-1; i++)
     {
        for( j = 1; j < n2-1; j++)
        {
           fprintf (f1, "%d\t%d\t%f\n", i, j, U0[i][j]);
        }
     }
     
     
     
     
    /* +----------------+ */
    /* |     LOOP 2     | */
    /* +----------------+ */
     
    /* Init */
       for( i = 0; i < n1; i++)
       {
          for( j = 0; j < n2; j++)
          {
             U0[i][j] = 0.0;
             U1[i][j] = 0.0;
          }
       }
     
       for( i = 0; i < n1; i++)
       {
          U0[i][0] = 1.0;
          U1[i][0] = 1.0;
       }
     
       printf("Init OK \n");
     
    /* Core */
     
     time0=clock();
     
     for( t = 0; t < niter; t++)
     {
     
        /* even */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j=j+2)
           {
              /* U1[i][j] = U0[i][j] + Dt*alpha*( (U0[i+1][j]-2.0*U0[i][j]+U0[i-1][j])*InvDxDx + (U0[i][j+1]-2.0*U0[i][j]+U0[i][j-1])*InvDyDy); */
     
              U1[i][j] = -2.0*U0[i][j];
              U1[i][j+1] = -2.0*U0[i][j+1];
     
              U1[i][j] = U1[i][j] + U0[i+1][j];
              U1[i][j+1] = U1[i][j+1] + U0[i+1][j+1];
     
              U1[i][j] = U1[i][j] + U0[i-1][j];
              U1[i][j+1] = U1[i][j+1] + U0[i-1][j+1];
     
              U1[i][j] = U1[i][j] * InvDxDx;
              U1[i][j+1] = U1[i][j+1] * InvDxDx;
     
              U2[i][j] = -2.0*U0[i][j];
              U2[i][j+1] = -2.0*U0[i][j+1];
     
              U2[i][j] = U2[i][j] + U0[i][j+1];
              U2[i][j+1] = U2[i][j+1] + U0[i][j+2];
     
              U2[i][j] = U2[i][j] + U0[i][j-1];
              U2[i][j+1] = U2[i][j+1] + U0[i][j];
     
              U2[i][j] = U2[i][j] * InvDyDy;
              U2[i][j+1] = U2[i][j+1] * InvDyDy;
     
              U1[i][j] = U1[i][j] + U2[i][j];
              U1[i][j+1] = U1[i][j+1] + U2[i][j+1];
     
              U1[i][j] = U1[i][j] * DtAlpha;
              U1[i][j+1] = U1[i][j+1] * DtAlpha;
     
              U1[i][j] = U1[i][j] + U0[i][j];
              U1[i][j+1] = U1[i][j+1] + U0[i][j+1];
     
           }
        }
     
        /* odd */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j=j+2)
           {
     
              U0[i][j] = -2.0*U1[i][j];
              U0[i][j+1] = -2.0*U1[i][j+1];
     
              U0[i][j] = U0[i][j] + U1[i+1][j];
              U0[i][j+1] = U0[i][j+1] + U1[i+1][j+1];
     
              U0[i][j] = U0[i][j] + U1[i-1][j];
              U0[i][j+1] = U0[i][j+1] + U1[i-1][j+1];
     
              U0[i][j] = U0[i][j] * InvDxDx;
              U0[i][j+1] = U0[i][j+1] * InvDxDx;
     
              U2[i][j] = -2.0*U1[i][j];
              U2[i][j+1] = -2.0*U1[i][j+1];
     
              U2[i][j] = U2[i][j] + U1[i][j+1];
              U2[i][j+1] = U2[i][j+1] + U1[i][j+2];
     
              U2[i][j] = U2[i][j] + U1[i][j-1];
              U2[i][j+1] = U2[i][j+1] + U1[i][j];
     
              U2[i][j] = U2[i][j] * InvDyDy;
              U2[i][j+1] = U2[i][j+1] * InvDyDy;
     
              U0[i][j] = U0[i][j] + U2[i][j];
              U0[i][j+1] = U0[i][j+1] + U2[i][j+1];
     
              U0[i][j] = U0[i][j] * DtAlpha;
              U0[i][j+1] = U0[i][j+1] * DtAlpha;
     
              U0[i][j] = U0[i][j] + U1[i][j];
              U0[i][j+1] = U0[i][j+1] + U1[i][j+1];
     
           }
        }
     
       }
     
     time1=clock();
     
     printf("Loop 2, total time : %f \n", (double) time1-time0);
     
     
     
    /* End */
     
     f1 = fopen ("out2.dat", "wt");
     for( i = 1; i < n1-1; i++)
     {
        for( j = 1; j < n2-1; j++)
        {
           fprintf (f1, "%d\t%d\t%f\n", i, j, U0[i][j]);
        }
     }
     
     
     
     
     
     
     
    /* +----------------+ */
    /* |     LOOP 3     | */
    /* +----------------+ */
     
    /* Init */
       for( i = 0; i < n1; i++)
       {
          for( j = 0; j < n2; j++)
          {
             vU0[i][j] = _mm_set1_pd(0.0);
             vU1[i][j] = _mm_set1_pd(0.0);
          }
       }
     
       for( i = 0; i < n1; i++)
       {
          vU0[i][0] = _mm_set1_pd(1.0);
          vU1[i][0] = _mm_set1_pd(1.0);
       }
     
       printf("Init OK \n");
     
    /* Core */
     
     time0=clock();
     
     for( t = 0; t < niter; t++)
     {
     
        /* even */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j+=2)
           {
              /* U1[i][j] = U0[i][j] + Dt*alpha*( (U0[i+1][j]-2.0*U0[i][j]+U0[i-1][j])*InvDxDx + (U0[i][j+1]-2.0*U0[i][j]+U0[i][j-1])*InvDyDy); */
     
              /*va = _mm_load_pd(cU0[i][j]);
              vb = __m128d -2.0;
              vU1[i][j] = _mm_mul_pd (vb, va);*/
     
     
              __m128d va = _mm_set1_pd(-2.0);			/* U1[i][j] = -2.0*U0[i][j]; */
              vU1[i][j] = _mm_mul_pd(va,vU0[i][j]);
     
              vU1[i][j] = _mm_add_pd(vU1[i][j],vU0[i+1][j]);	/* U1[i][j] = U1[i][j] + U0[i+1][j]; */
     
              vU1[i][j] = _mm_add_pd(vU1[i][j],vU0[i-1][j]);	/* U1[i][j] = U1[i][j] + U0[i-1][j]; */
     
              __m128d vb = _mm_set1_pd(InvDxDx);			/* U1[i][j] = U1[i][j] * InvDxDx; */
              vU1[i][j] = _mm_mul_pd(vb,vU1[i][j]);
     
              vU2[i][j] = _mm_mul_pd(va,vU0[i][j]);			/* U2[i][j] = -2.0*U0[i][j]; */
     
              vU2[i][j] = _mm_add_pd(vU2[i][j],vU0[i+1][j]);	/* U2[i][j] = U2[i][j] + U0[i+1][j]; */
     
              vU2[i][j] = _mm_add_pd(vU2[i][j],vU0[i-1][j]);	/* U2[i][j] = U2[i][j] + U0[i-1][j]; */
     
              __m128d vc = _mm_set1_pd(InvDyDy);			/* U2[i][j] = U2[i][j] * InvDyDy; */
              vU2[i][j] = _mm_mul_pd(vc,vU2[i][j]);
     
              vU1[i][j] = _mm_add_pd(vU1[i][j],vU2[i][j]);		/* U1[i][j] = U1[i][j] + U2[i][j]; */
     
              __m128d vd = _mm_set1_pd(DtAlpha);			/* U1[i][j] = U1[i][j] * DtAlpha; */
              vU1[i][j] = _mm_mul_pd(vd,vU1[i][j]);
     
              vU1[i][j] = _mm_add_pd(vU1[i][j],vU0[i][j]);		/* U1[i][j] = U1[i][j] + U0[i][j]; */
     
           }
        }
     
        /* odd */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j++)
           {
              __m128d va = _mm_set1_pd(-2.0);			/* U0[i][j] = -2.0*U1[i][j]; */
              vU0[i][j] = _mm_mul_pd(va,vU1[i][j]);
     
              vU0[i][j] = _mm_add_pd(vU0[i][j],vU1[i+1][j]);	/* U0[i][j] = U0[i][j] + U1[i+1][j]; */
     
              vU0[i][j] = _mm_add_pd(vU0[i][j],vU1[i-1][j]);	/* U0[i][j] = U0[i][j] + U1[i-1][j]; */
     
              __m128d vb = _mm_set1_pd(InvDxDx);			/* U0[i][j] = U0[i][j] * InvDxDx; */
              vU0[i][j] = _mm_mul_pd(vb,vU0[i][j]);
     
              vU2[i][j] = _mm_mul_pd(va,vU1[i][j]);			/* U2[i][j] = -2.0*U1[i][j]; */
     
              vU2[i][j] = _mm_add_pd(vU2[i][j],vU1[i+1][j]);	/* U2[i][j] = U2[i][j] + U1[i+1][j]; */
     
              vU2[i][j] = _mm_add_pd(vU2[i][j],vU1[i-1][j]);	/* U2[i][j] = U2[i][j] + U1[i-1][j]; */
     
              __m128d vc = _mm_set1_pd(InvDyDy);			/* U2[i][j] = U2[i][j] * InvDyDy; */
              vU2[i][j] = _mm_mul_pd(vc,vU2[i][j]);
     
              vU0[i][j] = _mm_add_pd(vU0[i][j],vU2[i][j]);		/* U0[i][j] = U0[i][j] + U2[i][j]; */
     
              __m128d vd = _mm_set1_pd(DtAlpha);			/* U0[i][j] = U0[i][j] * DtAlpha; */
              vU0[i][j] = _mm_mul_pd(vd,vU0[i][j]);
     
              vU0[i][j] = _mm_add_pd(vU0[i][j],vU1[i][j]);		/* U0[i][j] = U0[i][j] + U1[i][j]; */
     
           }
        }
     
       }
     
     time1=clock();
     
     printf("Loop 3, total time : %f \n", (double) time1-time0);
     
     
     
    /* End */
     
     f1 = fopen ("out3.dat", "wt");
     for( i = 1; i < n1-1; i++)
     {
        for( j = 1; j < n2-1; j+=2)
        {
           fprintf (f1, "%d\t%d\t%f\n", i, j, vU0[i][j]);
        }
     }
     
     
     
     
    /* +----------------+ */
    /* |     LOOP 4     | */
    /* +----------------+ */
     
    /* Init */
       for( i = 0; i < n1; i++)
       {
          for( j = 0; j < n2; j++)
          {
             vU0[i][j] = _mm_set1_pd(0.0);
             vU1[i][j] = _mm_set1_pd(0.0);
          }
       }
     
       for( i = 0; i < n1; i++)
       {
          vU0[i][0] = _mm_set1_pd(1.0);
          vU1[i][0] = _mm_set1_pd(1.0);
       }
     
       printf("Init OK \n");
     
    /* Core */
     
     time0=clock();
     
              __m128d va = _mm_set1_pd(-2.0);			/* U1[i][j] = -2.0*U0[i][j]; */
              __m128d vb = _mm_set1_pd(InvDxDx);			/* U1[i][j] = U1[i][j] * InvDxDx; */
              __m128d vc = _mm_set1_pd(InvDyDy);			/* U2[i][j] = U2[i][j] * InvDyDy; */
              __m128d vd = _mm_set1_pd(DtAlpha);			/* U1[i][j] = U1[i][j] * DtAlpha; */
     
     for( t = 0; t < niter; t++)
     {
     
        /* even */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j+=2)
           {
              /* U1[i][j] = U0[i][j] + Dt*alpha*( (U0[i+1][j]-2.0*U0[i][j]+U0[i-1][j])*InvDxDx + (U0[i][j+1]-2.0*U0[i][j]+U0[i][j-1])*InvDyDy); */
     
              /*va = _mm_load_pd(cU0[i][j]);
              vb = __m128d -2.0;
              vU1[i][j] = _mm_mul_pd (vb, va);*/
     
     
     
              vU1[i][j] = _mm_mul_pd(va,vU0[i][j]);
     
              vU1[i][j] = _mm_add_pd(vU1[i][j],vU0[i+1][j]);	/* U1[i][j] = U1[i][j] + U0[i+1][j]; */
     
              vU1[i][j] = _mm_add_pd(vU1[i][j],vU0[i-1][j]);	/* U1[i][j] = U1[i][j] + U0[i-1][j]; */
     
     
              vU1[i][j] = _mm_mul_pd(vb,vU1[i][j]);
     
              vU2[i][j] = _mm_mul_pd(va,vU0[i][j]);			/* U2[i][j] = -2.0*U0[i][j]; */
     
              vU2[i][j] = _mm_add_pd(vU2[i][j],vU0[i+1][j]);	/* U2[i][j] = U2[i][j] + U0[i+1][j]; */
     
              vU2[i][j] = _mm_add_pd(vU2[i][j],vU0[i-1][j]);	/* U2[i][j] = U2[i][j] + U0[i-1][j]; */
     
     
              vU2[i][j] = _mm_mul_pd(vc,vU2[i][j]);
     
              vU1[i][j] = _mm_add_pd(vU1[i][j],vU2[i][j]);		/* U1[i][j] = U1[i][j] + U2[i][j]; */
     
     
              vU1[i][j] = _mm_mul_pd(vd,vU1[i][j]);
     
              vU1[i][j] = _mm_add_pd(vU1[i][j],vU0[i][j]);		/* U1[i][j] = U1[i][j] + U0[i][j]; */
     
           }
        }
     
        /* odd */
        for( i = 1; i < n1-1; i++)
        {
           for( j = 1; j < n2-1; j++)
           {
     
              vU0[i][j] = _mm_mul_pd(va,vU1[i][j]);
     
              vU0[i][j] = _mm_add_pd(vU0[i][j],vU1[i+1][j]);	/* U0[i][j] = U0[i][j] + U1[i+1][j]; */
     
              vU0[i][j] = _mm_add_pd(vU0[i][j],vU1[i-1][j]);	/* U0[i][j] = U0[i][j] + U1[i-1][j]; */
     
     
              vU0[i][j] = _mm_mul_pd(vb,vU0[i][j]);
     
              vU2[i][j] = _mm_mul_pd(va,vU1[i][j]);			/* U2[i][j] = -2.0*U1[i][j]; */
     
              vU2[i][j] = _mm_add_pd(vU2[i][j],vU1[i+1][j]);	/* U2[i][j] = U2[i][j] + U1[i+1][j]; */
     
              vU2[i][j] = _mm_add_pd(vU2[i][j],vU1[i-1][j]);	/* U2[i][j] = U2[i][j] + U1[i-1][j]; */
     
     
              vU2[i][j] = _mm_mul_pd(vc,vU2[i][j]);
     
              vU0[i][j] = _mm_add_pd(vU0[i][j],vU2[i][j]);		/* U0[i][j] = U0[i][j] + U2[i][j]; */
     
     
              vU0[i][j] = _mm_mul_pd(vd,vU0[i][j]);
     
              vU0[i][j] = _mm_add_pd(vU0[i][j],vU1[i][j]);		/* U0[i][j] = U0[i][j] + U1[i][j]; */
     
           }
        }
     
       }
     
     time1=clock();
     
     printf("Loop 4, total time : %f \n", (double) time1-time0);
     
     
     
    /* End */
     
     f1 = fopen ("out4.dat", "wt");
     for( i = 1; i < n1-1; i++)
     {
        for( j = 1; j < n2-1; j+=2)
        {
           fprintf (f1, "%d\t%d\t%f\n", i, j, vU0[i][j]);
        }
     }
     
    }
    "Celui qui à le pouvoir de faire le mal, mais qui ne le fait pas, celui là est le prince de l'univers." (shakespeare)

  3. #3
    Membre expérimenté

    Homme Profil pro
    Collégien
    Inscrit en
    Juillet 2010
    Messages
    545
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Afghanistan

    Informations professionnelles :
    Activité : Collégien

    Informations forums :
    Inscription : Juillet 2010
    Messages : 545
    Points : 1 429
    Points
    1 429
    Par défaut
    Salut,

    Je doute qui tu puisse faire comprendre au compilo qu'il faut utiliser une instruction SIMD. je pense qu'il faut obligatoirement passer par de l'assembleur, mais je n'en mettrais pas ma main a couper...

    Tu peux essayer de jouer avec les option de compilation
    Avec gcc de tenterais le coup avec -O3 -march=corei7

    SI ca ne marche pas , cela me confortera dans l'idée que les architectures CISC ca sert à rien, sinon à consommer + => polluer +.

    Bon courage.

  4. #4
    Membre régulier Avatar de moomba
    Profil pro
    Inscrit en
    Avril 2007
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2007
    Messages : 134
    Points : 104
    Points
    104
    Par défaut
    Les deux dernières boucles utilisent des instructions spécifiques aux SIMD, mais effectivement gcc ne semble pas en tirer partie.

    Cependant, concernant les CISC je peut t'assurer qu'elles fonctionnent : j'ai réussi en Fortran 95 à faire comprendre au compilateur Ifort 12.x d'utiliser les SSE dans une boucle particulière (qui consomme presque 95% du temps de calcul du code qui est de plusieurs semaines tout de même sur 1024 processeurs). Le gain est de 1.73x environ pour du double précision, donc quand on arrive à les lancer ça sert, et pas qu'un peu. J'attends des résultats encore meilleurs avec l'AVX.

    Mais il faut les activer, tout le problème est là
    "Celui qui à le pouvoir de faire le mal, mais qui ne le fait pas, celui là est le prince de l'univers." (shakespeare)

  5. #5
    Membre expérimenté

    Homme Profil pro
    Collégien
    Inscrit en
    Juillet 2010
    Messages
    545
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Afghanistan

    Informations professionnelles :
    Activité : Collégien

    Informations forums :
    Inscription : Juillet 2010
    Messages : 545
    Points : 1 429
    Points
    1 429
    Par défaut
    As tu essayer avec l'option de compilation -mavx?

  6. #6
    Membre régulier Avatar de moomba
    Profil pro
    Inscrit en
    Avril 2007
    Messages
    134
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2007
    Messages : 134
    Points : 104
    Points
    104
    Par défaut
    Bonne idée. Mais mon processeur ne supporte pas l'avx, c'est un xeon équivalent au i7 920, donc sur le socket 1366. et le super calculateur est sur westmer, donc pas d'avx non plus.

    Je me demande si ce n'est pas due au fait que nos processeurs ont deux fpu, et que donc le sse en double précision ne sert à rien...
    "Celui qui à le pouvoir de faire le mal, mais qui ne le fait pas, celui là est le prince de l'univers." (shakespeare)

Discussions similaires

  1. optimiser une boucle while imbriquer dans une boucle for
    Par bakaratoun dans le forum MATLAB
    Réponses: 0
    Dernier message: 28/01/2010, 15h35
  2. optimiser une boucle for
    Par bakaratoun dans le forum MATLAB
    Réponses: 2
    Dernier message: 28/01/2010, 14h22
  3. [MySQL] Cherche a optimiser une boucle avec SELECT [.] FROM [.] IN
    Par Kijer dans le forum PHP & Base de données
    Réponses: 3
    Dernier message: 16/07/2008, 14h36
  4. optimiser une boucle
    Par bolloche dans le forum Macros et VBA Excel
    Réponses: 11
    Dernier message: 09/06/2008, 10h20
  5. Réponses: 4
    Dernier message: 17/01/2006, 19h17

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo