Optimiser la précision d'une classe - prédiction et arbre de décision

**pad76520** · 11/07/2017, 14h29

Bonjour à tous,

J'ai réalisé un différentes méthodes de prédiction afin de parvenir à identifier des personnes susceptibles de résilier leurs contrats (churns).

Je possède 26 variables dans mon analyse et en utilisant un arbre de décision avec la méthode "rpart" (plutôt reconnue), j'obtiens la matrice de confusion suivante :

Nom : confusionmatrix.JPG
Affichages : 377
Taille : 39,0 Ko

Nom : confusionmatrix.JPG
Affichages : 377
Taille : 39,0 Ko

La précision est correcte même si perfectible, cependant l'objectif le plus intéressant dans cette analyse est d'identifier les personnes qui résilient, ce que fait l'algorithme avec 3,3% de précision seulement...

Je cherche ainsi de nouvelles manières de faire grimper la précision pour la modalité "Oui". J'ai pensé à passer par une phase de pré-traitement (Dummy Variables puis centrer-réduire) mais j'ai peur que cela ne serve pas à grand chose...

Je suis preneur de toutes les suggestions que vous pourrez m'apporter

Merci à vous.

**marou1991** · 11/07/2017, 16h58

Bonjour,

Peut-être réduire les variables et ne garder que celles qui influence ta variable à expliquer, changer le modèle peut aussi résoudre ta problématique, essayer du Generalized boosted models ( fonction gbm() sur R ), ou peut être faire une glm qui prédira plutôt l'espérance d'appartenir à une classe. vérifier la corrélation entre les variables explicatives...

J'espère que j'ai pu t'aider !

Bonne journée.

**olivier.decourt** · 12/07/2017, 07h37

Bonjour.
Pour améliorer un arbre de décision, il n'y a pas beaucoup de recettes miracles. En termes de transformations en amont du modèle, la création d'indicatrices ou les centrages/réductions ne changeront rien. Si tu as des combinaisons de variables (ratios, transformations mathématiques) qui ont un sens métier, tu peux les ajouter car l'arbre ne créera jamais l'équivalent d'un ratio de sa propre initiative.
Passer par du boosting ou une forêt aléatoire, ça va te produire un modèle beaucoup moins lisible, et ce n'est peut-être pas ce que tu veux.

Une autre piste serait de "rééquilibrer" ton échantillon de données : il faudrait que les Oui y soient moins minoritaires. Je ne te propose pas de faire du 50/50 vu le volume de Oui mais si tu pouvais garder seulement un échantillon aléatoire des Non pour arriver à 10% de Oui, ça aiderait peut-être le modèle à mieux les distinguer.

**pad76520** · 12/07/2017, 10h06

Envoyé par olivier.decourt

Une autre piste serait de "rééquilibrer" ton échantillon de données : il faudrait que les Oui y soient moins minoritaires. Je ne te propose pas de faire du 50/50 vu le volume de Oui mais si tu pouvais garder seulement un échantillon aléatoire des Non pour arriver à 10% de Oui, ça aiderait peut-être le modèle à mieux les distinguer.

Bonjour et merci pour ta réponse aussi rapide. Pour recontextualiser brièvement, je me base sur mes données de 2014, 2015 et 2016 (données d'apprentissage) pour prédire les résiliations de personnes ayant obtenu un contrat en 2017. Il est normal que le modèle prédise beaucoup plus de résiliations que prévu pour 2017 car les données d'apprentissage contiennent beaucoup plus d'individus résiliant : et oui, il y a bcp + de chance de résilier son contrat à un jour J en 2017 si on a souscrit en 2014 que si on a souscrit en 2017.
Ainsi avec la fonction gbm() avec comme données d'apprentissage 2014 et 2015 pour prédire 2016, c'est beaucoup mieux :

Nom : capture_mconf2.JPG
Affichages : 377
Taille : 38,5 Ko

Nom : capture_mconf2.JPG
Affichages : 377
Taille : 38,5 Ko

A ce moment là, peut-on dire que le modèle est fiable ?

Merci !

**olivier.decourt** · 13/07/2017, 10h10

Envoyé par pad76520;9448263je me base sur mes données de 2014, 2015 et 2016 (données d'apprentissage) pour prédire les résiliations de personnes [B

ayant obtenu un contrat en 2017[/B]. Il est normal que le modèle prédise beaucoup plus de résiliations que prévu pour 2017 car les données d'apprentissage contiennent beaucoup plus d'individus résiliant : et oui, il y a bcp + de chance de résilier son contrat à un jour J en 2017 si on a souscrit en 2014 que si on a souscrit en 2017.

Je comprends pas bien cette partie, je crois.
Si tu fais un modèle pour prédire que quelqu'un qui a souscrit un contrat en 2017 va résilier dans l'année 2017, tes données d'apprentissage devraient comptabiliser comme OUI ceux qui ont résilié dans leur année de souscription.
Si tu fais un modèle pour prédire que quelqu'un qui a souscrit un contrat en 2017 va résilier un jour dans le futur, je n'en vois pas trop l'intérêt : on ne donne aucune échéance. Donc quelle action marketing entreprendre et quand pour éviter la résiliation ? Il est plus courant de faire des modèles de probabilité de résiliation dans l'année en cours, des clients en portefeuille, en fonction de nombreuses infos dont leur ancienneté.

Optimiser la précision d'une classe - prédiction et arbre de décision

R

Discussions similaires

Partager

Partager