Regrouper des clients au sein d'une "même famille"
Bonjour à tous,
Je suis confrontée à une problematique et je ne sais pas par quel bout commencer.
Le contexte, j'ai des clients qui sont sont au sein d'une même famille grâce à un compteur qui permet de récupérer les membres, jusqu'ici tout va bien. Il s'avère que parfois une même personne se retouve dans plusieurs familles et mon objectif est de regrouper ces dernières au sein de la même avec un compteur unique.
Exemple théroqrique :
La famille (A B C) est regroupée sous le compteur 1
La famille (D A B) est regroupée sous le compteur 2
Il me manque l'association C et D au sein d'une même famille donc mon but est de dire que (A B C D) forme une seule et même famille avec le compteur 1 ou 2.
Exemple qui se reflète dans les données de tests :
Citation:
Client compteur1 compteur2 compteur3
13135819 3724 4126 77070
14115819 3724 4126 76468
258111377 4126 76468 77070
260312693 3724 76468 77070
J'ai toujours un compteur qui represente 3 personnes, mais j'ai aucun compteur qui me permet de dire que les 4 personnes sont ensemble.
Voic le jeu de données pour test.
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57
|
DATA population;
INPUT
compteur
client
freq;
DATALINES;
1774 7325135 4
1774 332343475 4
1774 515384640 4
1774 57321319 4
3724 260312693 3
3724 14115819 3
3724 13135819 3
4126 258111377 3
4126 14115819 3
4126 13135819 3
16815 839316259 3
16815 57321319 3
16815 7325135 3
76468 258111377 3
76468 14115819 3
76468 260312693 3
77070 260312693 3
77070 258111377 3
77070 13135819 3
99404 332343475 2
99404 7325135 2
154377 515384640 2
154377 7325135 2
248196 839316259 2
248196 57321319 2
1 14814 4
1 124150319 4
1 178040920 4
1 753052522 4
2 27835 2
2 981328900 2
3 33215 2
3 108048911 2
4 59315 2
4 96092617 2
5 85031 2
5 799322987 2
6 215817 3
6 115730429 3
6 315326243 3
7 300054 2
7 901389050 2
8 300405 2
8 6341406 2
9 300851 2
9 189378210 2
;
RUN; |
Je suis preneuse d'idée et/ou de pistes de solutions.
La troisième variable représente la frequence de chaque compteur elle me permet par la suite de trier les clients avec le compteur le plus fréquents et de faire un FIRTS.CLIENT, cela marche pour 95% des cas sauf la situation décrite ci-dessus car je me retrouve avec un client TOUT SEUL.
Petite question : comment fait-on pour afficher en "QUOTE" ou "code" les variables correctement (ie correctement alignées)?
Merci de votre aide.