Bonjour,
J'ai un dataset de n données, où chaque donnée est représenté par un ensemble d'attributs que d’extrait à partir de la donnée. Généralement, les algorihmes de clustering ont besoin que les données soient de même dimensions (le même nombre d'attributs), c'est à dire, les données en entrées sont représentés par une matrice X de n*d (de "n" donnée, et chaque donnée a "d" attributs). Dans mon cas, j'ai préalablement extrait des attributs à partir de mes données, mais le nombre d'attributs extraits à partir de chaque donnée est différent (j'ai donc un dataset X où les données n'ont pas le même nombre d'attributs). Y'a il une façon quelconque de les adapter afin de les classer en utilisant des algorithmes de clustering classiques qui requiers que données en entrée soient de même dimensions (pour pouvoir calculer une distance entre eux).
Pour mieux comprendre, je précise que chaque donnée de mon dataset est une image contenant un mot manuscrit. J'extrais toujours "m" attributs à partir de chaque composante connexe (une sorte de pseudo-mots) du mot, donc si le mot contiens "c" composantes connexes, le nombre d'attributs extraits à partir de ce mot est d = m*c. Le nombre d'attributs extraits pour chaque donnée (mot) de mon dataset dépend donc de "c" (le nombre de composantes connexes que ce mot contiens) et "c" peut être différent d'un mot à un autre (même pour 2 mots de la même classe, mais bon moins souvent que 2 mots de classes différentes).
Merci d'avance,
Partager