Amélioration performance d'insertion

Version imprimable

Bonjour à tous.
Domaine : base de données analytiques
SGBD : SQL Server 2005 et SQL Server 2008 (mais si la solution trouvé est que pour 2008 ça m'ira)
Voici mon objectif :
Insérer de nombreuses lignes (Plusieurs millions) dans une table existante le plus rapidement possible.

Option :
en acceptant les insertion concurrente et les accès concurrent à la table via un select (update et delete non utilisé). Sachant qu'on ne peut pas essayer d'inserer deux fois la meme chose (normal car y a la PK) et on ne peut pas essayer de sélectionner des datas qui sont en train d'être insérées.

Table dans laquelle inserer :
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 Create table maTableDest ( Champ1 int not null, Champ2 int not null, Champ3 int not null, Champ4 int not null ) PRIMARY KEY CLUSTERED ( [Champ1] ASC, [Champ2] ASC, [Champ3] ASC )WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, SORT_IN_TEMPDB = OFF, IGNORE_DUP_KEY = OFF, ONLINE = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
Stats de l'index a jour quotidiennement
Fragmentation de l'index : 0 %

Genre de requete pour inserer les donner
Code:

1 2 3 4 5 6 7 8 Insert into maTableDest Select distinct 'valeur en dur' as Champ1 ,C2 as Champ2 ,C3 as Champ3 ,C4 as Champ4 FROM uneTable with(nolock) INNER JOIN .... WHERE ....
Ce que j'ai essayé :
Insert into maTableDest with(tablock)
Select distinct 'valeur en dur' as Champ1
,C2 as Champ2
,C3 as Champ3
,C4 as Champ4
FROM uneTable with(nolock)
INNER JOIN ....
WHERE ....

L'avantage du tablock est que j'augmente de façon importante la vitesse d'insertion (2x plus rapide et l'impact est de plus en plus important avec la volumétrie), les performances sont équivalentes a une insertion dans une table temporaire :
Code:

1 2 3 4 5 6 7 8 Select distinct 'valeur en dur' as Champ1 ,C2 as Champ2 ,C3 as Champ3 ,C4 as Champ4 INTO #Temp FROM uneTable with(nolock) INNER JOIN .... WHERE ....
Mais les accès concurrents sont lockés avec le tablock (c'est le principe d'un côté).

De plus si je fais :
Code:

1 2 3 select * from maTableDest with(nolock) where ...
Avec en parallèle, une insertion (lancée en 2eme), l'insertion est locké et la les temps explosent :
3 fois plus de temps que si l'insertion était seul. Je me dit que ça vient du fait que le select
pose des lock sur les lignes, requete et enlève les locks (1 à 1 car par ligne)
Je me demandé si le fait d'augmenté la granularité des lock (locké au niveau page voir table) au
lieu de row pouvait être interessant.

J'ai testé le paramètre :

Code:

RECOVERY à BULK_LOGGED

qui permet de limité l'écriture de log lors
d'insertion notamment mais l'impact n'est pas présent.
Effectivement, il me semble qu'il faut que la table soit vide pour que le bulk-logged soit vraiment
utilisé. A moins que je me sois trompé dans mon paramètrage.

Donc avez vous d'autres pistes ?

22/06/2010, 21h38
ATMorphine

Aucune piste a suggérer ?
23/06/2010, 12h00
SQLpro

1) tailler les storages (fichiers) de façon suffisament grande pour 3 à 5 ans d'eploitation
2) multiplier le nombre de fichier de données sur des disques physiques afin de répartir les IO
3) multiplexer le journal de transaction en utilisant du RAID 10 sur 4, 6 ou 8 disques
4) saucissoner vos transactions, en utilisant si possible des blocs de 64 Ko de data
5) éventuellement partitionner votre table sur une colonne critère

A +
23/06/2010, 12h47
ATMorphine

Très interessant tous ça.
Je essayer de me document sur les avantages et inconvénient de ce que vous venez de souligner et surtout trouver comment mettre ça en place.
23/06/2010, 13h03
mikedavem

En sus de ce que dit SQLPro,

Vous pouvez également voir du côté d'une iinfrastructure SSIS qui permet de charger rapidement les données.

Je sais également qu'avec la version 2008 il est possible d'utiliser le Trace Flag 610 pour pouvoir journaliser au minimum une table déjà remplie avec un index cluster ... (Je n'ai jamais testé personnellement)

++
23/06/2010, 13h06
ATMorphine

J'ai essayé le Trace Flag pour éviter un minimum l'écriture de Log en cas d'insertion mais je n'ai vu aucune différence, cela vient peut être aussi d'une mauvaise configuration de la base ou server.

Pour information, je teste dans un environnement vierge, aucune requête extérieur ne perturbe mes tests.
23/06/2010, 14h15
mikedavem

Citation:

J'ai essayé le Trace Flag pour éviter un minimum l'écriture de Log en cas d'insertion mais je n'ai vu aucune différence, cela vient peut être aussi d'une mauvaise configuration de la base ou server.

Il faut effectivement voir .. le mode de récupération BULK LOGGED ne garantit qu'une journalisation minimum dans le journal. Bien que ce mode permet d'aller plus vite dans la plupart des cas, il ne le garantit pas dans tous les cas.

++
23/06/2010, 18h13
ATMorphine

Ce qui prend énormément de temps en faite c'est le recalcul de l'index.
Car quand la table est vide la requête prend moins d'une minute alors qu'à volume équivalent la seconde insertion prend 3:30, par contre je ne sais pas si j'ai un moyen de souligner que c'est vraiment le recalcul de l'index qui prend du temps.

Pour information j'ai déjà essayé de supprimer l'index puis inserer et reconstruire l'index mais la c'est juste horrible
23/06/2010, 18h39
ATMorphine

@SQLpro
Est ce que tu peux me fournir de la documentation (liens) pour les idées annoncées (sauf pour le 1)
23/06/2010, 19h06
SQLpro

http://sqlpro.developpez.com/optimis...SQLserver2.pdf
http://blog.developpez.com/sqlpro/p8...t-le-stocakge/
http://blog.developpez.com/sqlpro/p8...irtualisation/
http://blog.developpez.com/sqlpro/p5...fichiers-et-t/
http://mikedavem.developpez.com/sqls.../architecture/
http://blog.developpez.com/businessi...l-server-2005/
http://www.developpez.net/forums/d73...nnement-table/

Déjà un bon début !!

A +
25/06/2010, 17h38
ATMorphine

Je vais essayer de partitionner plus que ça ne l'est (actuellement par client).
Ensuite je vais regarder, le fait de mettre le fichier de log sur un autre disque que le fichier de datas.

Mais bon pour etre honnête la c'est du boulot de DBA et il est un peu chargé pour l'instant :cry:.
Pour vous, la requête est optimal au moins ?
30/06/2010, 10h05
ATMorphine

Citation:

Envoyé par SQLpro

1) tailler les storages (fichiers) de façon suffisament grande pour 3 à 5 ans d'eploitation
2) multiplier le nombre de fichier de données sur des disques physiques afin de répartir les IO
3) multiplexer le journal de transaction en utilisant du RAID 10 sur 4, 6 ou 8 disques
4) saucissoner vos transactions, en utilisant si possible des blocs de 64 Ko de data
5) éventuellement partitionner votre table sur une colonne critère

A +

Ca m'a bien servi merci.