Algorithmique : Comparaison performante de table/liste de string

**Tarmineldur** · 12/03/2014, 16h51

Bonjour a tous,

Je requete dans une deux grande tables sensees etre identiques de tres nombreuses lignes. Jusqu'a 400 000 de chaques cotes avec entre 2 et 30 colonnes.

J'aimerais les comparer pour savoir a quel point elles sont differentes si elles le sont.

Jusqu'a maintenant, je comparais dans mon code c# la celule y de la ligne x de la table 1 avec la celule y de la ligne x de la table 2 en ayant trie au prealable mon resultat via un order by dans ma requete sql.

Le probleme, c'est que lorsque j'ai des lignes supplementaires d'un cote ou de l'autre, ca n'est plus du tout efficace. Si par exemple j'ai une ligne manquante des le debut, alors tout est decale et mon resultat donnant 99% de difference n'est pas tres pertinent.

Ma premiere idee fut de rechercher pour chaque ligne de gauche une ligne correspondante a droite mais ca ne me parait pas optimale non plus et je ne trouve pas d'algorithme qui me convienne.

Vous auriez une idee ?

**arichou** · 12/03/2014, 17h04

tu peux le faire directement niveau sql

il suffit de faire la différence entre les deux tables, tu aura les lignes qui sont dans l'une et pas dans l'autre.

Ex:
SELECT nom, prénom
FROM Table1
WHERE Table1.nom NOT IN (SELECT nom FROM Table2) AND Table1.prénom NOT IN (SELECT prénom FROM Table2);

NB : ll faut au préalable que les colonnes de la table retournés soient identique sinon tu fais une projection sur les tables (comme l'exemple ci dessus)

**arichou** · 12/03/2014, 17h13

tu peux aussi le faire niveau c# en utilisant des requetes linq, c'est super efficace.

Soit le résultat de tes deux requetes sur chaque tables dans datatable (table1 & table2)
Avec le code suivant tu obtient la différence entre les deux tables.
Ex :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
 
DataTable table1= ds.Tables["table1"];
DataTable table2= ds.Tables["table2"];
var diff= table1.AsEnumerable().Except(table2.AsEnumerable(),
                                                    DataRowComparer.Default);

NB : il faut bien entendu tenir compte des colonnes desdeux tables, elles doivent être identiques.

ensuite il te suffit de faire un cast sur la variable diff pour la convertir en datatable et le tour est joué.

espérant t'avoir aidé.

Bon courage

**Tarmineldur** · 13/03/2014, 12h43

Merci beaucoup, Linq c'est effectivement revele tres efficace et tres interessant. Je le reutiliserai.

La solution via SQL est pas mal non plus mais ca aurai ete plus lent dans mon cas.

Encore merci pour votre soutient.

Algorithmique : Comparaison performante de table/liste de string [Débutant]

Dotnet

Discussions similaires

Partager

Partager