Bonjour;

J'ai un problème de Data Mining et j'ai fait des rechercher pour le résoudre mais je ne suis pas arrivé à une solution.
Le problème consiste à appliquer un algorithme de clustering afin de pouvoir regrouper des numéros de CIN par âge. Mais le problème est que les numéros de CIN sont de type chaine vu que la longueur de chaque numéro doit être 8 et il peut avoir des 0 à gauche comme par exemple (00125869) et je veux garder les 0 mais lorsque je fais la conversion des CIN à des variables numérique les 0 seront enlevés et donc l'algorithme ne va pas me donner une solution exacte. Ma question est :
Existe-il un algorithme de clustering qui peut prendre des données qualitative comme le cas pour les numéros de CIN?

Si oui que dois-je faire passer comme paramètre pour résoudre ce problème ( je veux savoir si par exemple je vais appliquer le KNN quelles sont les variables à faire passer comme ordonné et abscisse afin qu'il puisse ensuite me calculer les distances entre les points pour prédire si le numéro de CIN est correcte en le comparant à l'age ou non )?