Recherche un avis index sur grosse table en 2012 Standard

**Donpi** · 27/07/2016, 13h46

Bonjour,

Voilà la situation :
J'ai un flux constant de clients, entre 800 et 1000 par jours. Ce nombre devrait diminué pour se stabilisé à 200.
J'ai 3 canal d'acquisition qui sont centralisé/synchronisé dans une table clients (avec actuellement 120'000 records).

Comme je n'ai pas de contrôle la capture dans le différents canaux, je n'ai pas non plus de contrôle sur les doublons potentiels. Je parle de doublons sur l’entité client et non de les valeurs saisies. Car il pourrait y avoir des fautes de frappes ou que sais-je.

Bref j'ai un système qui recherche les doublons potentiels assez efficacement. Mais qui me crée un énorme volume de donnée de résultats. ~6.2 Milliards de lignes pour mes 120'000 clients.
Ce volume est bien trop grand pour notre structure et encore plus par rapport à l’utilité de la donnée une fois que le doublon est qualifié.

Du coup je ne sauvegarde le résultat que si le cas a une forte probabilité d'être un doublon. J'ai réduit à ~250 millions de lignes.

Le résultat est stocké dans cette table :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
 
CREATE TABLE [dbo].[ClientDoublons](
	[IdClient1] [int] NOT NULL,
	[IdClient2] [int] NOT NULL,
	[Distance] [float] NULL,
	CONSTRAINT [PK_ClientDoublons] PRIMARY KEY CLUSTERED 
	(
		[IdClient1] ASC,
		[IdClient2] ASC
	)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON, FILLFACTOR = 90) ON [PRIMARY]
) ON [PRIMARY]

J'utilise BulkInsert par tranches de 25000 lignes pour écrire le résultat, ce qui fonctionne maintenant assez bien.

J'en viens à mon interrogation:
J'ai besoin d'indexer la colonne [Distance] pour le traitement et la qualification des doublons.
Mais si je crée l'index à la fin, ça va prendre au moins 20 minutes donc c'est inimaginable dans un processus de production.
Si je le crée avant de remplir ma table, au bout d'un moment le système fait des timeout car le temps d'écriture devient trop long.
J'ai pensé à diminué le fillfactor, mais ça ne va que retarder le problème.

Je sais que c'est un peu brouillon comme j'explique mon cas. Désole.

Donc, l'un de vous a-t-il un idée ou peut être une approche différente du problème ?

A+

**SQLpro** · 27/07/2016, 15h20

Si vous le créez en mode ONLINE = ON, ceci ne vas pas bloquer la table pendant toute la durée de la création de l'index.

A +

**mikedavem** · 27/07/2016, 22h53

En standard le ONLINE c'est foutu

Quid de la table partitionnée dans ton cas ?
Avec une maintenance d'index sur la partition active?

++

**elsuket** · 27/07/2016, 23h31

Bonjour,

Comme Donpi travaille en édition Standard, il ne peut pas utiliser l'option ONLINE = ON de l'instruction ALTER INDEX, ni le partitionnement. Je vois deux solutions :

- Créer une série d'index filtrés : je ne vois par contre pas comment spécifier la clause WHERE
- Créer plusieurs tables, avec une vue partitionnée qui les chapeaute, mais cela demande un investissement plus important en termes de développement.

Ceci étant, ne vous est-il pas possible d'éliminer les doublons avant de procéder au BULK INSERT ?
En fait, comment ajoutez vous les lignes à cette table ? A l'aide d'un ETL comme SSIS ou bien en T-SQL/BULK INSERT, ou bien par exemple, en .NET, avec SqlBulkCopy ?

@++

**mikedavem** · 27/07/2016, 23h59

Envoyé par elsuket

Bonjour,

Comme Donpi travaille en édition Standard, il ne peut pas utiliser l'option ONLINE = ON de l'instruction ALTER INDEX, ni le partitionnement
@++

Yep, très juste également !!

De loin je vois bien une vue partitionnée mais il faudrait peut être avoir plus de précision sur le processus en amont comme demandé par Elsuket

++

**Donpi** · 28/07/2016, 07h51

Envoyé par elsuket

...

Ceci étant, ne vous est-il pas possible d'éliminer les doublons avant de procéder au BULK INSERT ?
En fait, comment ajoutez vous les lignes à cette table ? A l'aide d'un ETL comme SSIS ou bien en T-SQL/BULK INSERT, ou bien par exemple, en .NET, avec SqlBulkCopy ?

@++

C'est difficile voir impossible.

J'ai des formulaires papier qui arrivent chaque matin, et des stagiaires/étudiants/chaumeurs qui les saisissent via une application maison.
Limiter les doublons en amont demande a ce qu'a chaque saisie la personne recherche dans notre base de données puis décide si il s'agit d'un doublon ou non.
Rien qu'en terme de cout de saisie, cela rentabilise le développement.
Ensuite les stagiaires et autre ne sont la que qqes jours pendant l'été pour faire le argent de poche pour les vacances.
Donc ils n'auront probablement pas l’assiduité nécessaire pour identifié eux même le doublon.

Donc la solution retenue est de faire une comparaison "automatique" et de faire qualifié le doublon par qqun de sensibilisé à l’importance de la donnée.

Les indexes filtrés semblent être une bonne idée.
Je vais essayé ça.

**aieeeuuuuu** · 01/08/2016, 17h48

Bonjour,

Vous pourriez tenter de poser l'index cluster sur la colonne Distance et de trier en amont vos données afin d'utiliser l'option ORDER de bulk insert.
C'est juste une piste a tenter, je ne sais pas quel gain attendre de cette option...

Recherche un avis index sur grosse table en 2012 Standard

Développement SQL Server

Discussions similaires

Partager

Partager