Bonjour à tous !
Je me suis beaucoup intéressé aux algorithmes de data mining et j'ai notamment découvert récemment un champ très prometteur. Eh oui, il s'agit des algorithmes uplift !
Ces algorithmes ont pour but d'améliorer l'approche standard consistant généralement à s'intéresser à la probabilité P(événement|action). En prenant le parti de se pencher plutôt sur P(événement|action) - P(événement|pas d'action), ces algorithmes permettent, en principe, d'extraire des informations plus pertinentes.
Prenons le cas classique dans le domaine : l'étude de l'impact marketing d'une campagne publicitaire. Admettons que le résultat réel de la campagne est d'augmenter substantiellement les achats des hommes alors que sans la campagne, ces achats sont minoritaires devant ceux du beau sexe.
L'approche classique se bornera généralement à remarquer la prédominance des achats féminins et passera donc à côté de l'essentiel.
Alors que l'approche uplift permet non seulement de repérer l'effet sur les hommes, mais en outre, elle peut mettre en évidence la classe de population pour laquelle la campagne a un effet négatif sur les achats !
La question de ce type d'approche a été posée la première fois, je crois, par Surry et Radcliffe en 1999 (un autre article de Lo est paru en 2002) et est reprise par eux cette année 2011. C'est d'ailleurs par cet article que j'ai découvert le sujet. Dans le domaine, je m'intéresse plus particulièrement à l'approche par construction d'un arbre de décision afin de profiter notamment de mon étude sur le sujet. Cependant, j'ai été déçu par une remarque du dernier article indiquant qu'aucun algorithme sur le sujet n'existait actuellement (en open source). Je me pose donc la question devant la productivité de la communauté scientifique, est-ce bien le cas ?
J'aimerais beaucoup me rendre compte par moi-même des résultats que peuvent avoir ce type d'approche sur certaines bases de données. Avant de me lancer dans une éventuellement implémentation moi-même, je me pose la question : n'existe-t-il pas un paquet R permettant de résoudre tout ou une partie du problème des "uplift trees" ? Je suis également intéressé par tout ce qui se rapporte au sujet.
En espérant vous avoir convaincu de l'intérêt de l'étude !
Partager