Problème de performance d'une subroutine FORTRAN

**Kercheur** · 14/02/2011, 15h04

Bien le bonjour,

Dans notre labo nous développons un solveur de mécanique des fluides en fortran. Je me suis décidé la semaine dernière à tenter de l'optimiser. J'ai donc commencé par le profiling: gprof, oprofile et Intel Vtune sont formels; une de mes subroutines consomment 20% du temps...alors qu'elle ne le devrait pas. donc j'ai un pb.

Sous oprofile ou sous Vtune on peut voir quelles sont les lignes de code consommant le plus de CPU. A notre grande surprise toutes les boucles DO servant à remettre à Zero les vecteurs consomment énormément de temps!!! Je fais par exemple:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
 
do inp=icst,icen
     su(inp)=d0
     pp(inp)=d0
enddo

ce qui est vraiment étrange c'est que qd je fais:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
 
do inp=icst,icen
     su(inp)=d0
enddo
do inp=icst,icen
     pp(inp)=d0
enddo

ces boucles DO n'apparaissent plus comme "hotspot" sous Vtune par exemple...à la place intel_new_memset (j'utilise intel fortran compiler) fait son apparition dans les subroutines consommant bcp de CPU.

Quelqu'un a une explication sur ce comportement. des liens ? une solution ?
Merci d'avance!

**bobbyboy** · 15/02/2011, 11h38

Bonjour,

C'est effectivement plus judicieux de faire deux boucles séparées. C'est un problème similaire au parcours d'un tableau à 2 dimensions :
Pour respecter l'organisation des tableaux en mémoire, la boucle suivante est préférable:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
do j=1,n
   do i=1,n
      A(i,j) = ...
   enddo
enddo

à celle-ci

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
do i=1,n
   do j=1,n
      A(i,j) = ...
   enddo
enddo

Dans votre cas, le problème est similaire, les 2 tableaux sont stocké à des adresses différentes :
adresse1 : tab1(1),tab1(2),...tab1(n)
adresse2 : tab2(1),tab2(2),...tab2(n)

L'écriture que vous proposez en 1 seule boucle l'oblige à changer d'adresse mémoire à chaque itération. Alors que la seconde écriture parcours la même adresse de proche en proche puis passe à la seconde adresse.

Vous pouvez également utiliser l'écriture vectorielle, lorsque c'est possible, qui est préférable à une boucle explicite pour le temps de calcul :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
su(icst:icen) = d0
pp(icst:icen) = d0

**Kercheur** · 15/02/2011, 16h45

Bonjour,

merci de votre réponse.

J'ai fait un test comparatif entre une boucle explicitement écrite et la version vectorielle. Avec notre programme il n'y a "pas" de grandes différences. Je vais y faire attention à l'avenir et tester la chose.

Merci encore!

**Sylvain Bergeron** · 15/02/2011, 17h54

Quand tu as séparé la boucle en 2 pour initialiser séparément tes vecteurs, le compilateur a décider d'utiliser la fonction intel_new_memset. Le compilateur avant donc déjà converti la boucle en opération globale d'initialisation. La version vectorielle ne devrait pas avoir changé la stratégie du compilateur; la performance devrait donc être la même...

Problème de performance d'une subroutine FORTRAN

Fortran

Vue hybride

Discussions similaires

Partager

Partager