Optimisation du temps d'éxécution des traitements

**vanessa75** · 12/12/2016, 09h15

Hello tout le monde,

Sur SSIS, je lis une table de 20millions de lignes dans laquelle de façon parallèle je lui passe trois traitements de mise en qualité de données( grâce au multicast: doublons, manquant et caractères valides) mais c'est très très très long j'y arrive jamais au bout. J'aimerais prendre quelques conseils pour que ce soit rapide svp.

Je vous remercie infiniment

Vaness

**escartefigue** · 12/12/2016, 09h40

Bonjour,

Sans la structure de vos tables et index ni la requête générée, difficile de vous aider

Sinon, les performances sont rarement au rendez vous avec les ETL, avez vous essayé d'exécuter vos requêtes directement sans passer par SSIS ?

**julien94320** · 12/12/2016, 09h52

Bonjour,

Comment effectuez vous vos mise a jour ? Via des lookup ?

Pouvez vous nous fournir la structure de vos tables et les colonnes a mettre a jour avec les colonnes de recherches ?

Avez vous des index sur ces colonnes ?

Comme dit précédement, avez vous tester la même opération en direct via SQL Server via des procédures stockées par exemple si vous voulez continuer a utiliser SSIS comme ordonnaceur

A+

Julien

**SQLpro** · 12/12/2016, 10h36

Globalement pour accélérer les mises à jour les éléments importants sont les suivants :
1) bien dimensionner les espaces de stockage en provisionnant les fichiers pour plusieurs années d'exploitation et en multiplexant les fichiers. But : ne jamais avoir d'opération de croissance en pleine mise à jour et paralléliser les accès physiques aux données tant en lecture qu'en écriture
2) supprimer tout ce qui logiquement va contraindre le traitement, par exemple les déclencheurs inutiles et les index non sémantiques dont les données sont impactés par le traitement
3) découper les mises en jours en plus petits lots, par exemple par fragments de 100 000 lignes afin de minimiser la demande en cache
4) augmenter le cache si nécessaire
5) utilisez au maximum des procédures stockées et faire en sorte que toutes les tables, vues et autres objets soient préfixés par leur schémas SQL, même si c'est toujours dbo.

A +

**vanessa75** · 12/12/2016, 10h57

Merci à tous pour vos réponses

Alors pour les doublons je passe par un aggregate je compte par clients le nombre de clients redondant ensuite via un conditional split je rentre dans ma table gestion_des _erreurs les lignes qui sont dupliquées autrement dit si mon nombre de ligne par clients est strictement supérieur à 1.
Ensuite pour les caractères invalides j'utilise le data quality client pour créer mes règles grâce à une regex. Ensuite sur SSIS, je fais le lien avec ma base de connaissances . Je fais de même pour savoir si jai des valeurs manquantes je crée une regle dans ma base de connaissance grace à data quality client. Le but en fait est de mettre dans une ta gestion_des _erreurs les lignes des clients qui présentent des valeurs manquantes ou/et caractères invalides ou/et doublons. Je n'ai pas du tout crée d'index. Le but est d'optimiser les temps de traitement en utilisant SSIS.

Je vous remercie

Vaness

Nom : Capture_gestion.PNG
Affichages : 808
Taille : 53,6 Ko

**julien94320** · 12/12/2016, 11h56

Quand vous lancez votre traitement avez vous déjà analysé coté SQL Server ( via l'activity Monitor ou des traces par exemple ) comment se comporte le moteur ?

Ne pas mettre d'index n'est pas bon non plus ... Vous accedez à des données pour mettre a jour d'autres données situées a des références spécifiques ...

Optimisation du temps d'éxécution des traitements

Développement SQL Server

Vue hybride

Discussions similaires

Partager

Partager