recherche de doublons dans un fichier texte

**portu** · 04/10/2003, 19h14

bonjour a tous, voila, j'essaie de trouver le meilleur algo pour supprimer tout les doublons d'un fichier texte.
les fichiers seront formatés de cette facon :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
 
gfghghhggh
ghghghg
hgjhjjhjhjh
ghhgjjhjhjhjh
ghjhgjhjhjh
fggyttyytuyu
ghgujyuy
hgghuuyyuu

en gros , un mot par ligne et le but c'est de comparer l'ensemble de ses lignes.
voici mes solutions :
1 :
la var list est un tstringlist , c'est elle qui charge le texte

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
 
while x < list.Count-2 do begin
x := x+1;
y := x;
   while y < list.Count -1 do begin
   y := y+1;
 
        if list[x] = list[y] then begin
        list.Delete(y);
 
        y := y-1;
 
        end;
 
 
 
   end;
 
end;

2 :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
 
list.LoadFromFile(currentfile);
 
list.Sort;
 
 
x := -1;
 
while x < list.Count-2 do begin
x := x+1;
 
 
 
        if list[x] = list[x+1] then begin
        list.Delete(x+1);
        x := x-1;
        end;
 
 
 
 
 
end;

voila, la premiere methode traite le fichier comme il est, tandis que la deuxieme trie le les lignes par ordre alphabetique.

resultat , la deuxieme solution est beaucoup plus rapide que la premiere mais pour des gros fichiers c'est quand meme assez lent.

ps quand il y a un list.delete[x] le list[x+1] devient list[x] en gros ce qui est au dessus redescend.

y a t'il des autres algo plus rapides.
merci

**D[r]eadLock** · 07/10/2003, 10h36

1: Le sort, c'est toi qui l'a ecrit ?
Si oui, tu peux ajouter une option (ou non) qui supprime (lors du tri) les doublons.

2: Si non, :
2a il a peut-etre une option qui supprime les doublons.
2btu peux l'implementer toi-meme (voir quel algo est le plus rapide ? quick-sort?) et goto 1:

**scarabee** · 07/10/2003, 11h00

tout simple !

tu charges ton fichier dans une tstringlist standard, puis tu prends chaque ligne que tu mets dans un autres tstringlist où tu as interdit les doublons

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
TaList->Sorted = true; 
TaList->Duplicates = dupIgnore;

Au final, ta liste n'a aucun doublons et ca devrait etre le plus rapide je pense !

**portu** · 07/10/2003, 14h13

Envoyé par scarabee

tout simple !

tu charges ton fichier dans une tstringlist standard, puis tu prends chaque ligne que tu mets dans un autres tstringlist où tu as interdit les doublons

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
TaList->Sorted = true; 
TaList->Duplicates = dupIgnore;

Au final, ta liste n'a aucun doublons et ca devrait etre le plus rapide je pense !

oui je viens de le decouvrir

, mais il est pas très rapidos pour les gros fichiers. Je me suis fait un programme qui effaçait tout les doublons (pas deleter la ligne) et ce programme s'avere très tres rapides (30 sec/ file de 100 mb de texte)mais le probleme c'est qu'il laisse des lignes blanches (sans texte) mais bon , apparament y a pas d'autre moyen.
Je vais mettre mon post en resolu.
merci a vous.

recherche de doublons dans un fichier texte

Algorithmes et structures de données

Discussions similaires

Partager

Partager