IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

De l'algorithme uplift tree


Sujet :

R

  1. #1
    Nouveau Candidat au Club
    Profil pro
    Inscrit en
    Août 2011
    Messages
    2
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2011
    Messages : 2
    Points : 1
    Points
    1
    Par défaut De l'algorithme uplift tree
    Bonjour à tous !

    Je me suis beaucoup intéressé aux algorithmes de data mining et j'ai notamment découvert récemment un champ très prometteur. Eh oui, il s'agit des algorithmes uplift !

    Ces algorithmes ont pour but d'améliorer l'approche standard consistant généralement à s'intéresser à la probabilité P(événement|action). En prenant le parti de se pencher plutôt sur P(événement|action) - P(événement|pas d'action), ces algorithmes permettent, en principe, d'extraire des informations plus pertinentes.

    Prenons le cas classique dans le domaine : l'étude de l'impact marketing d'une campagne publicitaire. Admettons que le résultat réel de la campagne est d'augmenter substantiellement les achats des hommes alors que sans la campagne, ces achats sont minoritaires devant ceux du beau sexe.
    L'approche classique se bornera généralement à remarquer la prédominance des achats féminins et passera donc à côté de l'essentiel.
    Alors que l'approche uplift permet non seulement de repérer l'effet sur les hommes, mais en outre, elle peut mettre en évidence la classe de population pour laquelle la campagne a un effet négatif sur les achats !

    La question de ce type d'approche a été posée la première fois, je crois, par Surry et Radcliffe en 1999 (un autre article de Lo est paru en 2002) et est reprise par eux cette année 2011. C'est d'ailleurs par cet article que j'ai découvert le sujet. Dans le domaine, je m'intéresse plus particulièrement à l'approche par construction d'un arbre de décision afin de profiter notamment de mon étude sur le sujet. Cependant, j'ai été déçu par une remarque du dernier article indiquant qu'aucun algorithme sur le sujet n'existait actuellement (en open source). Je me pose donc la question devant la productivité de la communauté scientifique, est-ce bien le cas ?

    J'aimerais beaucoup me rendre compte par moi-même des résultats que peuvent avoir ce type d'approche sur certaines bases de données. Avant de me lancer dans une éventuellement implémentation moi-même, je me pose la question : n'existe-t-il pas un paquet R permettant de résoudre tout ou une partie du problème des "uplift trees" ? Je suis également intéressé par tout ce qui se rapporte au sujet.

    En espérant vous avoir convaincu de l'intérêt de l'étude !

  2. #2
    Nouveau Candidat au Club
    Profil pro
    Inscrit en
    Août 2011
    Messages
    2
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2011
    Messages : 2
    Points : 1
    Points
    1
    Par défaut
    Voici des nouvelles !

    Bon, j'ai choisi comme base le paquet qui à mon sens s'approche le plus de ce que je veux faire : rpart. J'ai ensuite modifié le code C pour autoriser une construction d'uplift tree selon les trois mesures décrites dans un papier. J'ai pris pour postulat que la première colonne de la base indique la nature de la donnée (contrôle ou test) ce qui me semblait nécessiter le moins de changements. C'est un peu bancale pour le moment.

    Pour la suite, j'aimerais calculer l'indice de qini (ref : papier, version française). Pour cela, je me pose deux questions :
    Comment choisir la valeur à associer à une feuille de l'arbre ? Afin d'y mettre la valeur d'uplift, notamment pour les plot d'arbre.
    Et comment récupérer ces valeurs avec la proportion de la population concernée ? Afin de tracer la courbe lift et calculer le Qini. Pour le calcul du Qini, le plus simple à l'air d'être la fonction areapl (from package splancs) qui calcule les aires de polygones.

    Est-ce qu'il y en a par ici qui s'y connaissent en arbres ?

Discussions similaires

  1. Algorithme KD-Tree de recherche du plus proche voisin .
    Par mobi_bil dans le forum Algorithmes et structures de données
    Réponses: 1
    Dernier message: 11/05/2014, 11h54
  2. Algorithmes UCT (Upper Confidence bounds for Trees)
    Par Yachas dans le forum Intelligence artificielle
    Réponses: 6
    Dernier message: 07/11/2009, 17h08
  3. [SQL] Tree : algorithme récursif
    Par Fabouney dans le forum PHP & Base de données
    Réponses: 4
    Dernier message: 03/08/2007, 15h39
  4. Algorithme de randomisation ... ( Hasard ...? )
    Par Anonymous dans le forum Assembleur
    Réponses: 8
    Dernier message: 06/09/2002, 14h25
  5. Algorithme génétique
    Par Stephane.P_(dis Postef) dans le forum Algorithmes et structures de données
    Réponses: 2
    Dernier message: 15/03/2002, 17h14

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo