Bonsoir tout le monde,
Je me demande s'il y a un composant sur talend qui permet de voir les clusters sur des colonnes d'un fichier csv.
Exemple:
J'ai une colonne intitulé nom, qui contient des données comme suit:
ABC.
XY-Z
AB-C ....
Sachant que ABC. et AB-C représentent le même individu, comment puis-je faire pour leur donner le même nom?
Je veux vérifier la similarité de toutes les données des individus sur toutes les colonnes
(C'est un peu comme sur Openrefine: choisir l'algorithme de clustering ...)
Merci d'avance.
Partager