non non, ce n'ai pas une histoire de graphe!!
Jean-Marc.Bourguet: c'est +/- ca
(mais comme j'ai pas tout compris à 100%, je peux pas dire que c'est excactement ca
)
Pour faire plus simple, voici un exemple concret:
Liste de mots:
[Bonjour, nous, bonjoure, aventure, bonjur]
A ce jour, je fonctionne comme suit:
Je donne un numero(etiquette) à chaque:
1 2 3
| [Bonjour, nous, bonjoure, aventure, bonjur]
reprectivement
[0,1,2,3,4] |
Ensuite, je parcours un à un et je regarde la distance:
pour Bonjour, ca donne en distance
[0,x,1,x,1]
(lire: entre "bonjour" et "bonjour" la distance est de 0, le x signifie different de 0 ou 1)
Je crée en parallele un liste
[liste0,liste1,liste2, liste3, liste4]
chaque liste contient par defaut l'etiquette initiale
Je mets en plus dans les liste les etiquettes où la distance est =1.
Donc, une fois le premier element analysé, on aura
[{0,2,4},{1},{2},{3},{4}]
On passe alors au deuxieme elmeent ="nous" que nous comparons à ses successeurs (et jamais à ces precedents, pour gagner du tps)
ensuite au 3me, 4eme,...
A la fin, les listes sont:
[{0,2,4},{1},{2},{3},{4}]
De cette liste nous pouvons dire:
1 2 3
| groupe 1 = Bonjour = bonjoure= bonjur
groupe 2 =nous
groupe 3 =aventure |
Pour l'instant, j'ai aps encore implementé, c'est que la logique qui a été faite, j'aimerais savoir si cela vous semble bons?
Mon dico est assez grand (4millions de records dont de nombreux redondants)
En effet, je risque d'avoir des soucis de creations de groupes (surtout si les mots sont petits), mais ce n'est pas tres tres grave.
Pour tout dire, mon but premier est de corriger des encodages qui ont été fait à la main, certains mots sont donc tres proches
Exemple: alexandre et alecandre lorsque quelqu'un entre des noms
Je souhaite donc creer des groupes avec un ensemble de noms +/- identique et reperer le noms exacte pour constituer une liste de noms exactes.
A partir de cette liste, je remplacerai les noms mal orthographiés par les valeurs exactes.
D'avance merci pour votre lecture
Partager