Bonjour à tous,
Je souhaite calculer le % de ressemblance entre 2 chaînes de caractères. J'ai trouvé sur internet quelques discussions, quelques bout de codes, mais pour des chaines de caractères très courtes (1 mot, voir 2). (algorithme de Levenshtein, ou procédure visant à comparer des noms de famille...). Et la plupart ne comparent que la longueur des chaînes et non le contenu.
Mes chaînes de caractères,qui sont des résumés d'articles extraient de différentes bases de données, ont une longueur comprise entre 50 et 150 mots.
Malheureusement j'ai remarqué que sur 1000 résumés, venant 2 bases de données différentes, j'obtient une bonne 50ène de doublons...
Selon vous quel est le meilleur moyen de calculer le % de ressemblance entre eux, dans le but de supprimer les doublons?
Pour info les strings sont stockés dans des fichiers textes et je suis sur une winform.
Merci d'avance!
Partager