IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Développement SQL Server Discussion :

Recherche un avis index sur grosse table en 2012 Standard


Sujet :

Développement SQL Server

  1. #1
    Membre confirmé
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Octobre 2008
    Messages
    698
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Boutique - Magasin

    Informations forums :
    Inscription : Octobre 2008
    Messages : 698
    Points : 586
    Points
    586
    Par défaut Recherche un avis index sur grosse table en 2012 Standard
    Bonjour,

    Voilà la situation :
    J'ai un flux constant de clients, entre 800 et 1000 par jours. Ce nombre devrait diminué pour se stabilisé à 200.
    J'ai 3 canal d'acquisition qui sont centralisé/synchronisé dans une table clients (avec actuellement 120'000 records).

    Comme je n'ai pas de contrôle la capture dans le différents canaux, je n'ai pas non plus de contrôle sur les doublons potentiels. Je parle de doublons sur l’entité client et non de les valeurs saisies. Car il pourrait y avoir des fautes de frappes ou que sais-je.

    Bref j'ai un système qui recherche les doublons potentiels assez efficacement. Mais qui me crée un énorme volume de donnée de résultats. ~6.2 Milliards de lignes pour mes 120'000 clients.
    Ce volume est bien trop grand pour notre structure et encore plus par rapport à l’utilité de la donnée une fois que le doublon est qualifié.

    Du coup je ne sauvegarde le résultat que si le cas a une forte probabilité d'être un doublon. J'ai réduit à ~250 millions de lignes.

    Le résultat est stocké dans cette table :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
     
    CREATE TABLE [dbo].[ClientDoublons](
    	[IdClient1] [int] NOT NULL,
    	[IdClient2] [int] NOT NULL,
    	[Distance] [float] NULL,
    	CONSTRAINT [PK_ClientDoublons] PRIMARY KEY CLUSTERED 
    	(
    		[IdClient1] ASC,
    		[IdClient2] ASC
    	)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON, FILLFACTOR = 90) ON [PRIMARY]
    ) ON [PRIMARY]
    J'utilise BulkInsert par tranches de 25000 lignes pour écrire le résultat, ce qui fonctionne maintenant assez bien.

    J'en viens à mon interrogation:
    J'ai besoin d'indexer la colonne [Distance] pour le traitement et la qualification des doublons.
    Mais si je crée l'index à la fin, ça va prendre au moins 20 minutes donc c'est inimaginable dans un processus de production.
    Si je le crée avant de remplir ma table, au bout d'un moment le système fait des timeout car le temps d'écriture devient trop long.
    J'ai pensé à diminué le fillfactor, mais ça ne va que retarder le problème.

    Je sais que c'est un peu brouillon comme j'explique mon cas. Désole.

    Donc, l'un de vous a-t-il un idée ou peut être une approche différente du problème ?

    A+

  2. #2
    Rédacteur

    Avatar de SQLpro
    Homme Profil pro
    Expert bases de données / SQL / MS SQL Server / Postgresql
    Inscrit en
    Mai 2002
    Messages
    21 763
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Expert bases de données / SQL / MS SQL Server / Postgresql
    Secteur : Conseil

    Informations forums :
    Inscription : Mai 2002
    Messages : 21 763
    Points : 52 554
    Points
    52 554
    Billets dans le blog
    5
    Par défaut
    Si vous le créez en mode ONLINE = ON, ceci ne vas pas bloquer la table pendant toute la durée de la création de l'index.

    A +
    Frédéric Brouard - SQLpro - ARCHITECTE DE DONNÉES - expert SGBDR et langage SQL
    Le site sur les SGBD relationnels et le langage SQL: http://sqlpro.developpez.com/
    Blog SQL, SQL Server, SGBDR : http://blog.developpez.com/sqlpro
    Expert Microsoft SQL Server - M.V.P. (Most valuable Professional) MS Corp.
    Entreprise SQL SPOT : modélisation, conseils, audit, optimisation, formation...
    * * * * * Expertise SQL Server : http://mssqlserver.fr/ * * * * *

  3. #3
    Expert éminent sénior
    Avatar de mikedavem
    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Août 2005
    Messages
    5 450
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Ain (Rhône Alpes)

    Informations professionnelles :
    Activité : Administrateur de base de données
    Secteur : Distribution

    Informations forums :
    Inscription : Août 2005
    Messages : 5 450
    Points : 12 891
    Points
    12 891
    Par défaut
    En standard le ONLINE c'est foutu

    Quid de la table partitionnée dans ton cas ?
    Avec une maintenance d'index sur la partition active?

    ++

  4. #4
    Modérateur

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Janvier 2005
    Messages
    5 826
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Administrateur de base de données
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Janvier 2005
    Messages : 5 826
    Points : 12 371
    Points
    12 371
    Par défaut
    Bonjour,

    Comme Donpi travaille en édition Standard, il ne peut pas utiliser l'option ONLINE = ON de l'instruction ALTER INDEX, ni le partitionnement. Je vois deux solutions :

    - Créer une série d'index filtrés : je ne vois par contre pas comment spécifier la clause WHERE
    - Créer plusieurs tables, avec une vue partitionnée qui les chapeaute, mais cela demande un investissement plus important en termes de développement.

    Ceci étant, ne vous est-il pas possible d'éliminer les doublons avant de procéder au BULK INSERT ?
    En fait, comment ajoutez vous les lignes à cette table ? A l'aide d'un ETL comme SSIS ou bien en T-SQL/BULK INSERT, ou bien par exemple, en .NET, avec SqlBulkCopy ?

    @++

  5. #5
    Expert éminent sénior
    Avatar de mikedavem
    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Août 2005
    Messages
    5 450
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Ain (Rhône Alpes)

    Informations professionnelles :
    Activité : Administrateur de base de données
    Secteur : Distribution

    Informations forums :
    Inscription : Août 2005
    Messages : 5 450
    Points : 12 891
    Points
    12 891
    Par défaut
    Citation Envoyé par elsuket Voir le message
    Bonjour,

    Comme Donpi travaille en édition Standard, il ne peut pas utiliser l'option ONLINE = ON de l'instruction ALTER INDEX, ni le partitionnement
    @++
    Yep, très juste également !!

    De loin je vois bien une vue partitionnée mais il faudrait peut être avoir plus de précision sur le processus en amont comme demandé par Elsuket

    ++

  6. #6
    Membre confirmé
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Octobre 2008
    Messages
    698
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Boutique - Magasin

    Informations forums :
    Inscription : Octobre 2008
    Messages : 698
    Points : 586
    Points
    586
    Par défaut
    Citation Envoyé par elsuket Voir le message
    ...

    Ceci étant, ne vous est-il pas possible d'éliminer les doublons avant de procéder au BULK INSERT ?
    En fait, comment ajoutez vous les lignes à cette table ? A l'aide d'un ETL comme SSIS ou bien en T-SQL/BULK INSERT, ou bien par exemple, en .NET, avec SqlBulkCopy ?

    @++
    C'est difficile voir impossible.

    J'ai des formulaires papier qui arrivent chaque matin, et des stagiaires/étudiants/chaumeurs qui les saisissent via une application maison.
    Limiter les doublons en amont demande a ce qu'a chaque saisie la personne recherche dans notre base de données puis décide si il s'agit d'un doublon ou non.
    Rien qu'en terme de cout de saisie, cela rentabilise le développement.
    Ensuite les stagiaires et autre ne sont la que qqes jours pendant l'été pour faire le argent de poche pour les vacances.
    Donc ils n'auront probablement pas l’assiduité nécessaire pour identifié eux même le doublon.

    Donc la solution retenue est de faire une comparaison "automatique" et de faire qualifié le doublon par qqun de sensibilisé à l’importance de la donnée.

    Les indexes filtrés semblent être une bonne idée.
    Je vais essayé ça.

  7. #7
    Modérateur

    Profil pro
    dba
    Inscrit en
    Janvier 2010
    Messages
    5 643
    Détails du profil
    Informations personnelles :
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : dba

    Informations forums :
    Inscription : Janvier 2010
    Messages : 5 643
    Points : 13 092
    Points
    13 092
    Par défaut
    Bonjour,

    Vous pourriez tenter de poser l'index cluster sur la colonne Distance et de trier en amont vos données afin d'utiliser l'option ORDER de bulk insert.
    C'est juste une piste a tenter, je ne sais pas quel gain attendre de cette option...

Discussions similaires

  1. Réponses: 37
    Dernier message: 26/11/2008, 17h10
  2. MySQL - Probleme avec 2 index sur une table
    Par xG-Hannibal dans le forum Outils
    Réponses: 7
    Dernier message: 31/03/2006, 14h08
  3. Besoin d'aide pour requête sur grosse table
    Par Fabouney dans le forum Langage SQL
    Réponses: 3
    Dernier message: 25/01/2006, 09h01
  4. left join multiple sur grosses tables
    Par hn2k5 dans le forum Requêtes
    Réponses: 6
    Dernier message: 30/11/2005, 16h10
  5. Comment savoir s'il existe un index sur ma table ?
    Par CDRIK dans le forum Langage SQL
    Réponses: 3
    Dernier message: 06/10/2004, 09h58

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo