IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

MS SQL Server Discussion :

Optimisation table avec des millions de lignes


Sujet :

MS SQL Server

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Homme Profil pro
    Dev
    Inscrit en
    Octobre 2014
    Messages
    35
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Dev

    Informations forums :
    Inscription : Octobre 2014
    Messages : 35
    Par défaut Optimisation table avec des millions de lignes
    Bonjour tout le monde,

    je récupère aujourd'hui un projet un peu spécial. Il s'agit d'un outil de statistiques enregistrant énormément de données en base. Pour vous donner un ordre de grandeur, la table principale contient aujourd'hui 716 millions de lignes....

    Un outil a été développé pour faire des recherches sur cette table. L'outil effectue une recherche sur deux critères (toujours renseignés):
    - un champ date (avec un between)
    - un identifiant de client (alpha-numérique pouvant contenir des caractères spéciaux). Cet identifiant est actuellement stocké dans une colonne de type varchar(20).
    - un identifiant bis de client (alpha-numérique pouvant contenir des caractères spéciaux). Cet identifiant est actuellement stocké dans une colonne de type varchar(20).

    Un index existe sur cette table. Voici ses caractéristiques :
    - NonClustered
    - Ordre des colonnes : Identifiant client, identifiant bis client, date

    La table possède un nombre élevé de colonnes : 50. Toutes les colonnes doivent être remontées lors d'une recherche.

    Actuellement, l'outil exécute une requête en 45 - 60 secondes environ. L'idée serait de savoir si il est possible d'optimiser cette requête, car j'ai peur qu'avec un nombre de données croissant, le temps d'exécution devienne de plus en plus long. Qu'en pensez-vous ?

    Je vous remercie pour vos avis éclairés

  2. #2
    Modérateur
    Avatar de escartefigue
    Homme Profil pro
    bourreau
    Inscrit en
    Mars 2010
    Messages
    10 546
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loir et Cher (Centre)

    Informations professionnelles :
    Activité : bourreau
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2010
    Messages : 10 546
    Billets dans le blog
    10
    Par défaut
    Bonjour,

    Ces identifiants qui servent de critères de recherche sont des critères fonctionnels par exemple un nom ou un prénom, ou des identifiants techniques ?

    Y a -t- il des critères de jointure ou de filtrage sur ces critères (communiquez vos requêtes les plus critiques) ?

    Faites vous des recherches génériques (where moncritère like 'xxxx%')

  3. #3
    Membre averti
    Homme Profil pro
    Dev
    Inscrit en
    Octobre 2014
    Messages
    35
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Dev

    Informations forums :
    Inscription : Octobre 2014
    Messages : 35
    Par défaut
    Bonjour,

    tout d'abord merci pour votre réponse

    Ces identifiants sont générés par un outil tiers. On ne connait que la taille maximale et on sait qu'ils peuvent contenir n'importe quoi (principalement des chiffres et des signes tels que : + ). Par contre, je ne comprends pas votre seconde question La requête ne sélectionne des données que de cette table, aucune autre table n'est appelée.

    Pour votre dernière question, non pas de Like mais directement des idclient = "XXXXX"

    Encore merci de vous intéressés à mon cas

  4. #4
    Membre chevronné
    Homme Profil pro
    Consultant en Business Intelligence
    Inscrit en
    Décembre 2007
    Messages
    327
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Consultant en Business Intelligence

    Informations forums :
    Inscription : Décembre 2007
    Messages : 327
    Par défaut
    Une solution (pas forcément la plus propre), mais la plus performante de prime abord serait de modifier l'index existant en créant un index couvrant avec l'ensemble des colonnes a afficher c'est a dire via un include dans l'index

    voici un peu d'aide :

    http://sqlpro.developpez.com/cours/quoi-indexer/

    Vous pouvez aussi completer votre index en le filtrant si certaines années ne sont plus recherchez par exemple.

    La solution la plus pragmatique serait de modifier la structure de votre table afin de diminuer l'ensemble des colonnes et revoir la modélisation vous pouvez aussi partionner cette table en fonction des années afin d'archiver chaque années sur des espaces disque spécifiques.

    A+

  5. #5
    Modérateur
    Avatar de escartefigue
    Homme Profil pro
    bourreau
    Inscrit en
    Mars 2010
    Messages
    10 546
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loir et Cher (Centre)

    Informations professionnelles :
    Activité : bourreau
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2010
    Messages : 10 546
    Billets dans le blog
    10
    Par défaut
    Citation Envoyé par devnet75 Voir le message
    Ces identifiants sont générés par un outil tiers. On ne connait que la taille maximale et on sait qu'ils peuvent contenir n'importe quoi (principalement des chiffres et des signes tels que : + ).
    S'il s'agit d'identifiants techniques, il est nettement préférable, notamment pour les perfs (et pour plein d'autres raison) d'utiliser un type integer (voir bigint si vous devez dépasser à terme 4 294 967 295 lignes).
    50 colonnes pour une table, ce n'est pas énorme, par contre si ces colonnes sont larges ou contiennent des images, ça peut couter très cher

    Question subsidiaire : Est-ce que l'identifiant est unique, sinon combien de lignes sont ramenées en moyenne par requête ?

    Et svp, communiquez la ou les requêtes qui posent souci, quitte à changer les noms des tables et colonnes si confidentialité il y a

  6. #6
    Membre averti
    Homme Profil pro
    Dev
    Inscrit en
    Octobre 2014
    Messages
    35
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Dev

    Informations forums :
    Inscription : Octobre 2014
    Messages : 35
    Par défaut
    Citation Envoyé par julien94320 Voir le message
    Une solution (pas forcément la plus propre), mais la plus performante de prime abord serait de modifier l'index existant en créant un index couvrant avec l'ensemble des colonnes a afficher c'est a dire via un include dans l'index

    voici un peu d'aide :

    http://sqlpro.developpez.com/cours/quoi-indexer/

    Vous pouvez aussi completer votre index en le filtrant si certaines années ne sont plus recherchez par exemple.

    La solution la plus pragmatique serait de modifier la structure de votre table afin de diminuer l'ensemble des colonnes et revoir la modélisation vous pouvez aussi partionner cette table en fonction des années afin d'archiver chaque années sur des espaces disque spécifiques.

    A+
    La modification de la structure de la table pour l'éclater en plus petites tables n'est pas possible. En effet, l'outil qui intègre les stats est fiable et ne peut pas être modifié. Un partitionnement serait-il une bonne solution du coup ? Sachant que les 716 millions de lignes actuelles ne correspondent qu'aux 4 derniers mois de 2016

    Citation Envoyé par escartefigue Voir le message
    S'il s'agit d'identifiants techniques, il est nettement préférable, notamment pour les perfs (et pour plein d'autres raison) d'utiliser un type integer (voir bigint si vous devez dépasser à terme 4 294 967 295 lignes).
    50 colonnes pour une table, ce n'est pas énorme, par contre si ces colonnes sont larges ou contiennent des images, ça peut couter très cher

    Question subsidiaire : Est-ce que l'identifiant est unique, sinon combien de lignes sont ramenées en moyenne par requête ?

    Et svp, communiquez la ou les requêtes qui posent souci, quitte à changer les noms des tables et colonnes si confidentialité il y a
    Impossible d'utiliser un integer. Les identifiant comprennent des caractères spéciaux et cela ne peut pas être modifié. Au niveau des colonnes, il ne s'agit que de colonnes de types varchar, int et datetime. Voici comme demandé la requête en question :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
     
    SELECT * 
    FROM  StatsTable
    WHERE 
    	Date >= @dateDebut 
    	AND Date < @dateFin
    	AND
    	(
    		NumeroClient = @numero
    		OR NumeroBisClient = @numero
    	)
    Merci à tous pour votre aide

  7. #7
    Membre chevronné
    Homme Profil pro
    Consultant en Business Intelligence
    Inscrit en
    Décembre 2007
    Messages
    327
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Consultant en Business Intelligence

    Informations forums :
    Inscription : Décembre 2007
    Messages : 327
    Par défaut
    Le partionnement peut etre a tester ( a voir la clé de partionnement Mensuel ? Annuel ? )

    Tout comme l'index couvrant voir filtrant ...

    Une vue indexer peut aussi répondre a vos besoins ...

    Essayer de vous constituer un environement de test avec de la volumétrie et tester les solutions proposés ...

    N'oubliez pas de mettre a jour vos statistiques régulièrement vu que la quantité de données augmente régulièrement ... ( un plan de maintenance existe t'il ? )

    Bon courage

    Julien

Discussions similaires

  1. Traiter des fichiers avec des millions de lignes
    Par nice-one dans le forum Développement de jobs
    Réponses: 3
    Dernier message: 22/04/2013, 12h03
  2. Requête sur table avec des centaines de millions de lignes
    Par kaka83185 dans le forum MS SQL Server
    Réponses: 3
    Dernier message: 24/01/2012, 15h05
  3. Réponses: 13
    Dernier message: 23/04/2011, 04h19
  4. Est-il possible de créer des tables avec des lignes identiques ?
    Par raton_laveur dans le forum Développement
    Réponses: 2
    Dernier message: 25/05/2009, 09h10
  5. Réponses: 2
    Dernier message: 04/01/2009, 17h59

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo