Bonjour

Je dispose d'un jeu de données (agence de voyage) de 1000 individus et 9 variables. Le but du jeu est de "catégoriser" les individus selon des segments prédéfinis.

Les variables :
NomID
Sexe (0=F,1=M)
Age
Nombre d'accompagnateurs
Nombre de Miles
Age du plus jeune enfant
Revenu
Longs trajets
Owner/Employee (0/1)

En l’occurrence, les segments qu'on m'impose sont :
1. Moins de 30 ans, 0 - 1 accompagnateurs, moins de 10,000 miles et Longs trajets <=1
2. Entre 30 - 50 ans, Longs trajets < 2, 2 + accompagnateurs, Revenu > 60,000
3. Plus de 40 ans, Longs trajets > 3, Revenu > 80,000, Employé, plus de 50,000 Miles
4. Plus de 60 ans, Pas d'enfants de moins de 16 ans, 0 -1 accompagnateurs, Revenu > 60,000

Alors je pense qu'on me demande de mettre chaque client dans l'un des 4, mais beaucoup ne rentrent dans aucun car ne respectent pas toutes les conditions (en fait 404 lignes sur les 1000 !).
Donc j'ai supposé qu'il fallait attribuer à chaque client le segment qui lui est le plus "proche", mais là je bloque... En supposant que chaque condition pour appartenir à l'un des segments est d'importance identique, il me faudrait définir une "norme" pour mesurer la "distance d'un individu à ce segment" - mais je n'ai aucune idée de comment faire ça.

Toute aide serait la bienvenue - et même suggestion sur comment traiter la question différemment... ?