Bonjour à tous,
voila, je programme en java (mais pas grave ca) et je suis confronté à un GROS probleme:
J'ai un tableau de données (une suite de mots). Je souhaite mettre au point des groupes de mots proches orthographiquement.
Exemple:
Bonjour
Bonjor
Bonjoure
J'utilise pour ca la distance de livenshtein pour savoir si un mot est proche de l'autre. Je mets dans le meme groupe des mots dont la distance =1.
Masi mon algo ne focntionne pas crrectement car dans l'exemple, j'obtiens plusieurs groupes alors que ca devrait etre le meme.
Ainsi:
d(bonjour,bonjor) = 1
d(bonjour,bonjoure) = 1
d(bonjor,bonjoure) = 2
donc je dis "meme groupe" car meme si d(bonjor,bonjoure) =2, on peut passer de l'in à l'autre via un intermediare dont la distance = 1
d(bonjor,bonjour) = 1 --> d(bonjour,bonjoure) = 1 et donc
bonjor,bonjoure appartienne au meme groupe
Comment puis-je faire pour grouper des mots? d'avance merci
Partager