J'ai trouvé ce
lien qui montre comment calculer la distance de Jaccard à partir de texte. Mais j'avoue que la méthode à mettre en oeuvre me plaît moyennement.
Je vais plutôt appliquer la distance de rameau Levenstein et l'adapter pour s'occuper de plusieurs mots:
1) compter le nombre de mots i et j des deux chaînes
2) comparer les chaînes avec 1 mots chacune
3) additionner les distances (là il faudra peut-être que je trouve une meilleure solution, comme une moyenne ou un écart type ou les deux car si il y a beaucoup de mots en plus dans une chaîne, la distance va croitre alors que ce n'est pas le but recherché. En effet, on peut oublier des morceaux du titre en écrivant le film)
ça devrait me donner un indice de la proximité des chaînes. Qu'est-ce que vous en pensez?
Partager