Parcourir un fichier texte sans charger le fichier

**sovitec** · 07/06/2007, 17h08

Envoyé par Art19

est ce que ca veut dire que quand je fais

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

if lignes.IndexOf(s) > -1

il va me renvoyer true dans certains cas alors que s n'appartient pas a lignes?? dans ce cas la c'est une veritable catastrophe parce qu'il va me reperer des doublons qui n'existent pas!

Non, rassures toi. Le THashedStringList utilise bien le HashOf pour indéxer les chaînes, mais il vérifie ensuite que la (ou les) chaînes ayant ce hash sont identiques à la chaîne recherchée.

**sovitec** · 07/06/2007, 17h19

Envoyé par Gilbert Geyer

... par exemple la fonction HashOf(string) renvoie un cardinal (fonction de l'unités IniFiles utilisée dans THashStringList de Delphi) autrement dit cette fonction convertit les strings en des entiers et ensuite les comparaisons ne s'effectuent plus qu'entre ces entiers d'où gain de vitesse lors des comparaisons.

En fait c'est un peu plus compliqué. La valeur du hash est utilisée pour l'insertion et la recherche dans un arbre binaire équilibré, donc avec des fonctions d'insertion et de recherche ayant une complexité en O(log2(n)). C'est à dire que lorsque l'on double le nombre de valeurs la recherche et l'insertion augmentent de façon linéaire.

voir par exemple http://fr.wikipedia.org/wiki/Arbre_binaire_de_recherche

**Art19** · 07/06/2007, 17h30

Non, rassures toi. Le THashedStringList utilise bien le HashOf pour indéxer les chaînes, mais il vérifie ensuite que la (ou les) chaînes ayant ce hash sont identiques à la chaîne recherchée.

alors quel est l'interet de hasher?

ah oui c'est bon j'ai compris (il regarde si les chaines sont identiques que quand le hash est identique.. is that it?)

**Gilbert Geyer** · 07/06/2007, 17h40

A Art19 : Mille excuses de t'avoir fait peur à propos de mes constats avec les HashOf.

A Sovitec : : Merci pour ces infos rassurantes / THashedStringList (ruse de Sioux : mais il vérifie ensuite que la (ou les) chaînes ayant ce hash sont identiques à la chaîne recherchée).

Vu Wikipédia/Arbre binaire de recherche : Et dire qu'avec toute cette usine-à-gaz située en arrière-plan des THashedStringList cela ait quand-même permis à Art de multiplier par 1000 la rapidité d'exécution de son code ... ben chapeau!

Au fait c'est quoi la formule du "... hash MD5" histoire de comparer avec la formule du HashOf(string)? (simple curiosité intellectuelle).
A+

**Art19** · 07/06/2007, 17h45

bon merci a vous..
Gilbert, j'ai dit 1000 mais c'est un peu une expression parce que je n'ai pas mesure. Mais c'est vraiment beaucoup beaucoup plus rapide.. c'est sur que la Hashed est optimisee pour ce genre de requetes.. il faut juste le savoir.. apres c'est interessant de savoir ce qu'il se passe derriere

**ShaiLeTroll** · 07/06/2007, 17h49

Si tu remets une TStringList mais que tu ajoute Sorted := True, est-ce vraiement différent de la THashedStringList ?

**Gilbert Geyer** · 07/06/2007, 17h58

A Art19 : "il faut juste le savoir.. apres c'est interessant de savoir ce qu'il se passe derriere" : Exact, mais il y a tellement de trucs à savoir! On n'arrête pas de découvrir et je n'en suis qu'à Delphi-5 ...
Je vais faire quand-même faire des tests pour voir s'il n'y a pas moyen de faire un peu plus speed avec une lecture via TFileStream ... et avec chrono à l'appui.
Cela m'occupera demain.
A+

**sovitec** · 08/06/2007, 09h38

Envoyé par Art19

alors quel est l'interet de hasher?

ah oui c'est bon j'ai compris (il regarde si les chaines sont identiques que quand le hash est identique.. is that it?)

Oui, exactement.

Envoyé par Gilbert Geyer

Au fait c'est quoi la formule du "... hash MD5" histoire de comparer avec la formule du HashOf(string)? (simple curiosité intellectuelle).

Tu peux trouver le principe là.

La principale différence avec le HashOf de Delphi est que le hash est sur 128 bits et que deux chaînes très proches engendrent des hash très différents. Du fait que le hash est sur 128 bits le paradoxe des anniversaires montre que la probabilité que deux chaînes différentes aient un hash identique est négligeable quand le nombre de chaînes est d'un ordre inférieur à 2^60 (un milliard de milliards). Concrètement la première collision sur des hash MD5 date de moins de trois ans, et résulte d'une construction mathématique très complexe, on n'a jamais réussi à générer une collision "par hasard". De ce fait on peut se contenter de comparer uniquement les hash dans l'application qui nous intéresse, pas besoin de conserver la chaîne elle même.

Envoyé par ShaiLeTroll

Si tu remets une TStringList mais que tu ajoute Sorted := True, est-ce vraiement différent de la THashedStringList ?

L'insertion dans un TStringList se fait en O(n) losque Sorted = True (Il faut décaler toutes les chaînes suivant celle que l'on veut insérer). Donc la recherche est rapide, mais l'insertion lente, ce qui est l'opposé du cas Sorted = False où l'insertion est rapide mais la recherche lente.

**Art19** · 08/06/2007, 15h13

est-il raisonable de supprimer les doublons en :

* trier le fichier en appliquant un tri a bulles
* comparer chaque ligne a la ligne precedente

?

**e-ric** · 08/06/2007, 15h28

Le tri à bulle n'est pas forcément adapté à un fichier de grande taille. Autre écueil : si les enregistrements du fichier sont de taille variable, cela va compliquer l'algorithme.

cdlt

**Art19** · 08/06/2007, 15h36

le meilleur algo doit etre le quicksort j'imagine. quelqu'un peut me l'expliquer rapidement sur un petit exemple svp?

**e-ric** · 08/06/2007, 15h53

Envoyé par Art19

le meilleur algo doit etre le quicksort j'imagine. quelqu'un peut me l'expliquer rapidement sur un petit exemple svp?

Pour tout dire, je suis en train de travailler sur le sujet (recherche de doublons en maintenant un fichier d'index triés grâce au QuickSort),
ça avance mais je n'ai pas beaucoup de temps devant moi. La solution sur laquelle je travaille devrait m'affranchir des limites de taille sur les fichiers à 2 Go mais je n'ai pas d'idée précise sur la performance de la solution.

cdlt

**sovitec** · 08/06/2007, 15h58

Puisque tu as déjà une méthode pour supprimer les doublons pourquoi vouloir faire un tri maintenant ? La problématique à changé ?

Sinon si le quicksort est bien en O(nLog(n)) en moyenne (donc optimal) il est par contre en O(n²) dans le pire des cas (donc pas meilleur qu'un algorithme naïf). Et le pire des cas se produit facilement, il suffit que l'ensemble soit déjà trié.

**Art19** · 08/06/2007, 16h02

vu que j'ai 19 000 fichiers qui ne sont pas tries le pire des cas ne risque pas d'arriver...

Puisque tu as déjà une méthode pour supprimer les doublons pourquoi vouloir faire un tri maintenant ? La problématique à changé ?

je n'ai jamais dit que j'avais une methode pour supprimer les doublons.. je sais juste reperer si il y a AU MOINS un doublon dans un fichier c'est tout

**e-ric** · 08/06/2007, 16h11

Ma solution (non encore testée ni publiée) risque de peiner sur 19 000 fichiers mais elle devrait être adaptée à un gros fichiers.
Est-ce que tes fichiers peuvent être fusionnés, en d'autres termes est-ce leur contenu est compatible?

Je rappelle ce que je disais tout à l'heure, un tri Shell est pratique à mettre en oeuvre dans une structure indexée, ce qui n'est pas forcément le cas avec un fichier texte. En outre un tri directe sur les chaînes de caractères risque de plomber les perf.

cdlt

**Art19** · 08/06/2007, 16h14

mes fichiers ne doivent surtout pas etre fusionnes looool

**Art19** · 08/06/2007, 16h24

personnellement ma preference va vers le tri a bulles car il est nettement plus facile a implemanter que le quick sort.. mais en meme temps le quick sort s'avere etre beaucoup plus rapide dans le meilleur des cas

**sovitec** · 08/06/2007, 16h24

Envoyé par Art19

je n'ai jamais dit que j'avais une methode pour supprimer les doublons.. je sais juste reperer si il y a AU MOINS un doublon dans un fichier c'est tout

Oui, mais il est facile d'étendre la méthode de recherche de doublon. Il suffit de ne pas insérer les chaînes qui sont des doublons, puis de réécrire le THashedStringList dans un fichier si des doublons ont été détectés.

**Art19** · 08/06/2007, 16h29

Envoyé par sovitec

Oui, mais il est facile d'étendre la méthode de recherche de doublon. Il suffit de ne pas insérer les chaînes qui sont des doublons, puis de réécrire le THashedStringList dans un fichier si des doublons ont été détectés.

c'est vraiment pas bete du tout ca! comment n'y avais-je pas pense.. le seul truc c'est que dans mon algo actuel, je fais un break des que je repere le 1er doublon.
autre inconvenient: je ne sais pas si je pourrais loader tout un fichier dans une THashedStringList..

reste a savoir aussi la performance d'un SaveToFile..

qu'en pensez vous?

**e-ric** · 08/06/2007, 16h49

Envoyé par Art19

personnellement ma preference va vers le tri a bulles car il est nettement plus facile a implemanter que le quick sort.. mais en meme temps le quick sort s'avere etre beaucoup plus rapide dans le meilleur des cas

Si tu veux un exemple de mise en oeuvre du tri quicksort, étudie le code de la méthode TList.Sort (dans l'unité Classes de la VCL). Il n'y a pas d'explication mais le code est facile à adapter.

cdlt

Parcourir un fichier texte sans charger le fichier

Delphi

Discussions similaires

Partager

Partager