Bonjour à tous,
J’ai des données sur les noms d’écoles et de diplômes qui sont rentrées manuellement.
Je dois rapprocher avec les noms d’écoles référentiel.
La même chose pour les diplômes ressortir le niveau et le domaine.
Mais les données sont très différents pour une même école où un même diplôme.
Environ 20k lignes et 10k valeurs uniques pour les écoles.
J’ai utilisé une méthode levenshtein et de clustering mais les résultas ne sont pas très satisfaisants.
J’aurais besoin d’aide pour trouver la bonne solution pour ce genre de cas.
Je vous remercie d’avance pour toute aide.
Partager