Bonjour,
Je sais pas si je suis au bon endroit pour poser la question, mais dans le doute je poste ici.
Je cherche à faire une fonction qui me renvoie un pourcentage de similarité entre plusieurs chaînes (des titres de films). Je dispose d'un nom de film tiré du nom d'un fichier (donc peu fiable) et d'une liste de titres de films dans laquelle je suis plus ou moins sûr que le titre du film est présent. Je cherche donc à faire une fonction qui me donnera un pourcentage de similitude entre la chaine de base et chaque chaine de la liste.
J'ai déjà regardé la distance de Levenstein mais bien sûr, les titres de films peuvent contenir plusieurs mots et sur wikipedia il est conseillé d'utiliser autre chose comme l'algorithme de Jaccard. Mais là, pas d'exemples, rien sur cet algorithme.
Ma question est: est-ce que la distance de Levenstein donne quand même des résultats assez satisfaisants si il y a plusieurs mots? Existe-t-il des exemple d'autres algorithme plus adaptés à ce que je recherche?
Merci de votre aide.
Cordialement
Partager