Bonjour,

Toujours à propos de l'optimisation de performance de programme fortran, je me posais la question de l'efficacité des routine "matmul" et "transpose" sur de petites matrices (3x3).
Plus généralement, matmul, se base-t-elle sur du blas 3 ?

Dans un précédent message, j'ai déjà pu observer la très mauvaise performance des boucles implicites sur les tableaux de petites tailles (dim=3). Il valait mieux dans ce cas, laisser les boucles explicitement et permettre au compilateur de faire son travail en les déroulant. J'obtenais un gain substantiel.

Quelqu'un a déjà essayé de recoder à la main ces routines ?