IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Méthodes prédictives Discussion :

[Discussion] Détection de fraude par forêts aléatoires


Sujet :

Méthodes prédictives

  1. #1
    Membre éclairé Avatar de bstevy
    Homme Profil pro
    Solutions Architect
    Inscrit en
    Mai 2009
    Messages
    552
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 38
    Localisation : Japon

    Informations professionnelles :
    Activité : Solutions Architect
    Secteur : Finance

    Informations forums :
    Inscription : Mai 2009
    Messages : 552
    Points : 870
    Points
    870
    Par défaut [Discussion] Détection de fraude par forêts aléatoires
    Bonjour,


    J'aurais voulu connaitre votre avis sur l'utilisation de RandomForest pour detecter des cas de Fraud (frause à l'assurance).

    Le principe que l'on met en place actuellement est le suivant,
    • On extrait une liste de déclaration d'accient (claim) avec un ensemble de variables censé décrire le context
    • On ajoute à cette liste une colonne 0/1 qui va dire si c'est de la fraude ou non
    • On entraine sur 70% de notre jeu de données, et on test le résultat sur les 30% restant


    Bon, c'est pas moi qui fait ca, donc c'est aussi pour ca que je viens vous voir, car à partir de là, j'ai un peu du mal à comprendre l'output de la random forest lorsque je lance une prédiction sur un mois par exemple... elle me sort pour chaque claim un score, a priori allant de 0 à 1.

    1. Que représente ce score ?
    2. Le presta par lequel on passe m'assure qu'il faut que je regarde le rang plutot que le score. le top 20 est selon lui suspect, mais ca me parait absurde comme raisonnement. Si je score qu'un claim, il sera toujours top 1 et ne sera pas suspect pour autant. De plus, je ne vois pas à quel moment on paramètrerait ce fameux top 20. Est ce que ce genre d'interprétation est normal pour le résultat d'une Random Forest ?
    3. Est ce que la randomForest est bien adapté à ce genre d'analyse, ou est ce qu'un autre modele serait plus efficace ?



    Merci d'avance pour votre retour et vos commentaires sur ce sujet.

  2. #2
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    1. C'est la probabilité de la classe que tu souhaites prédire. Dans ton cas, la probabilité que la déclaration soit une fraude. Attention, selon la librairie que tu utilises, cela peut être la probabilité de la première classe rencontrée. Dans ton cas, les deux classes possibles sont "fraude" et "non fraude". Généralement tu as plutôt une probabilité par classe, avec la somme de toutes les probabilités égale à 1.
    2. Si ton système fonctionne moyennement, c'est une possibilité pour rattraper un peu le coup. si ton système fonctionne parfaitement (ou presque), alors il faut lui faire confiance. Tu le sauras en regardant les résultats sur ton échantillon de test.
    3. Toutes les méthodes d'apprentissage étant différentes, il n'y a pas de "meilleure" méthode en général. Les plus connues/utilisées/efficaces sont les réseaux de neurones, les forêts aléatoires, les SVM et la régression logistique. Mais d'autre peuvent mieux s'appliquer à ton problème. Il faut en tester un maximum.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

Discussions similaires

  1. Réponses: 2
    Dernier message: 05/07/2007, 17h35
  2. valeur par défaut aléatoire - possible ?
    Par MikeAden dans le forum SQL Procédural
    Réponses: 2
    Dernier message: 11/05/2007, 14h17
  3. [Disque Dur]Problème de détection de DD par le bios
    Par bnadem35 dans le forum Composants
    Réponses: 6
    Dernier message: 24/09/2006, 21h05
  4. Détection de fraudes aux examens
    Par GoldenEye dans le forum Algorithmes et structures de données
    Réponses: 15
    Dernier message: 25/01/2006, 14h55

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo