Comparaison de 2 TStringList pour extraire d'un texte les mots vides

Bonjour à tous,

Toujours dans un soucis de déterminer la langue des pages HTML que je
récolte je voudrais votre avis sur ma méthode qui consiste à mettre dans 2
TStringLists :
- Mes mots vides me permettant de déterminer la langue
(le, la, les, un, une, etc...pour le FR)
(the, these, this, that, ... pour le EN)
etc...Biensur mes listes sont bcp plus longues et comportent aussi certains verbes

- Ma page texte à analyzer.
J'ai fait un Split(maPageText, ' ', maStringListResultante)
De cette maniere j'ai tous les mots dans maStringListResultante

Ensuite je fais un InterSecStringList(A, B) qui me renvoie un integer
Mon IntersecList est juste 2 boucles imbriquées (pour l'instant) qui compte
l'occurrence des mots communs

Pourrais-je savoir comment vous auriez fait vous car:
- j'obtiens un résultat sur 500 doc = 370 ok, et le reste KO !
Pourtant les textes sont faciles à analyser et ont été convertir en texte sans balise.
- j'utilise des TstringList mais je ne suis pas fixé sur ce choix

Je suis sûr qu'il doit y avoir moulte façon de faire mais j'aimerai avoir vos avis !
De plus le nombre de mots vides ou de ma page n'a-t-il pas une influence sur le résultat ?

Pour l'instant j'incrémente un entier à chaque fois que je rencontre un mot
vide mais jamais je ne tiens compte de la longueur des 2 fichiers (mots vides
et mon texte)

Merci pour vos conseils et algo à l'occaz :o)

Amicalement,
Bruno

Delphi

Mode arborescent

Discussions similaires

Partager

Partager