Salut ,

j'ai un fichier texte qui contient la description des films(titre, année,genre,acteur,auteurs)

j'ai transformé ce fichier texte en un fichier ARFF

@relation movie
@attribute title string
@attribute annee string
@attribute genre string
@attribute genre1 string
@attribute genre2 string
@attribute genre3 string
@attribute actor string
@attribute actor1 string
@attribute actor2 string
@attribute actor3 string
@attribute actor4 string
@attribute actor5 string
@attribute actor6 string
@attribute actor7 string
@attribute actor8 string
@attribute actor9 string
@attribute writer string
@attribute writer1 string
@attribute writer2 string
@attribute writer3 string
@attribute writer4 string
@attribute writer5 string
@attribute writer6 string
@attribute writer7 string
@attribute writer8 string
@attribute writer9 string

@data
'Jumanji','1995','Adventure','Children','Fantasy','?','Robin Williams','Kirsten Dunst','David Alan Grier','Bonnie Hunt','Bebe Neuwirth','Jonathan Hyde','?','?','?','?','Greg Taylor (author)','Jonathan Hensleigh','?','?','?','?','?','?','?','?','Greg Taylor (author)','Jonathan Hensleigh','?','?'

'Grumpier Old Men','1995','Comedy','Romance','?','?','Sophia Loren','Walter Matthau','Jack Lemmon','Ann-Margret','Burgess Meredith','Daryl Hannah','Ann Morgan Guilbert','Kevin Pollak','?','?','Mark Steven Johnson','?','?','?','?','?','?','?','?','?','Mark Steven Johnson','?','?','?'

'Waiting to Exhale','1995','Comedy','Drama','Romance','?','Whitney Houston','Lela Rochon','Loretta Devine','Angela Bassett','?','?','?','?','?','?','Ronald Bass','Terry McMillan','?','?','?','?','?','?','?','?','Ronald Bass','Terry McMillan','?','?'

'Father of the Bride Part II','1995','Comedy','?','?','?','Steve Martin','Martin Short','Diane Keaton','?','?','?','?','?','?','?','Charles Shyer','Albert Hackett','Frances Goodrich','Nancy Meyers','?','?','?','?','?','?','Charles Shyer','Albert Hackett','Frances Goodrich','Nancy Meyers'
le probleme est que si j'ai deux films

'film1','1995','g1','g2','A1','A2','A3','W1','W2'
'film2','1995','g2','g1','A3','A5','W5'
on remarque que c'est deux films sont similaires, mais l'algorithme ne vas pas detecter qu'ils sont similaires car parexemple g1 represente l'attribut genre pour le film1 et genre1 pour le film2


alors, comment je peux resoudre ce probleme ,et quel est l'algorithme que je doit utiliser pour le clustering des films

Aidez moi S'il vous plait