De l'algorithme uplift tree

**Horom** · 10/08/2011, 15h39

Bonjour à tous !

Je me suis beaucoup intéressé aux algorithmes de data mining et j'ai notamment découvert récemment un champ très prometteur. Eh oui, il s'agit des algorithmes uplift !

Ces algorithmes ont pour but d'améliorer l'approche standard consistant généralement à s'intéresser à la probabilité P(événement|action). En prenant le parti de se pencher plutôt sur P(événement|action) - P(événement|pas d'action), ces algorithmes permettent, en principe, d'extraire des informations plus pertinentes.

Prenons le cas classique dans le domaine : l'étude de l'impact marketing d'une campagne publicitaire. Admettons que le résultat réel de la campagne est d'augmenter substantiellement les achats des hommes alors que sans la campagne, ces achats sont minoritaires devant ceux du beau sexe.
L'approche classique se bornera généralement à remarquer la prédominance des achats féminins et passera donc à côté de l'essentiel.
Alors que l'approche uplift permet non seulement de repérer l'effet sur les hommes, mais en outre, elle peut mettre en évidence la classe de population pour laquelle la campagne a un effet négatif sur les achats !

La question de ce type d'approche a été posée la première fois, je crois, par Surry et Radcliffe en 1999 (un autre article de Lo est paru en 2002) et est reprise par eux cette année 2011. C'est d'ailleurs par cet article que j'ai découvert le sujet. Dans le domaine, je m'intéresse plus particulièrement à l'approche par construction d'un arbre de décision afin de profiter notamment de mon étude sur le sujet. Cependant, j'ai été déçu par une remarque du dernier article indiquant qu'aucun algorithme sur le sujet n'existait actuellement (en open source). Je me pose donc la question devant la productivité de la communauté scientifique, est-ce bien le cas ?

J'aimerais beaucoup me rendre compte par moi-même des résultats que peuvent avoir ce type d'approche sur certaines bases de données. Avant de me lancer dans une éventuellement implémentation moi-même, je me pose la question : n'existe-t-il pas un paquet R permettant de résoudre tout ou une partie du problème des "uplift trees" ? Je suis également intéressé par tout ce qui se rapporte au sujet.

En espérant vous avoir convaincu de l'intérêt de l'étude !

**Horom** · 23/08/2011, 11h16

Voici des nouvelles !

Bon, j'ai choisi comme base le paquet qui à mon sens s'approche le plus de ce que je veux faire : rpart. J'ai ensuite modifié le code C pour autoriser une construction d'uplift tree selon les trois mesures décrites dans un papier. J'ai pris pour postulat que la première colonne de la base indique la nature de la donnée (contrôle ou test) ce qui me semblait nécessiter le moins de changements. C'est un peu bancale pour le moment.

Pour la suite, j'aimerais calculer l'indice de qini (ref : papier, version française). Pour cela, je me pose deux questions :
Comment choisir la valeur à associer à une feuille de l'arbre ? Afin d'y mettre la valeur d'uplift, notamment pour les plot d'arbre.
Et comment récupérer ces valeurs avec la proportion de la population concernée ? Afin de tracer la courbe lift et calculer le Qini. Pour le calcul du Qini, le plus simple à l'air d'être la fonction areapl (from package splancs) qui calcule les aires de polygones.

Est-ce qu'il y en a par ici qui s'y connaissent en arbres ?

De l'algorithme uplift tree

R

Discussions similaires

Partager

Partager