[Discussion] Détection de fraude par forêts aléatoires

**bstevy** · 22/12/2015, 06h09

Bonjour,

J'aurais voulu connaitre votre avis sur l'utilisation de RandomForest pour detecter des cas de Fraud (frause à l'assurance).

Le principe que l'on met en place actuellement est le suivant,

On extrait une liste de déclaration d'accient (claim) avec un ensemble de variables censé décrire le context
On ajoute à cette liste une colonne 0/1 qui va dire si c'est de la fraude ou non
On entraine sur 70% de notre jeu de données, et on test le résultat sur les 30% restant

Bon, c'est pas moi qui fait ca, donc c'est aussi pour ca que je viens vous voir, car à partir de là, j'ai un peu du mal à comprendre l'output de la random forest lorsque je lance une prédiction sur un mois par exemple... elle me sort pour chaque claim un score, a priori allant de 0 à 1.

Que représente ce score ?
Le presta par lequel on passe m'assure qu'il faut que je regarde le rang plutot que le score. le top 20 est selon lui suspect, mais ca me parait absurde comme raisonnement. Si je score qu'un claim, il sera toujours top 1 et ne sera pas suspect pour autant. De plus, je ne vois pas à quel moment on paramètrerait ce fameux top 20. Est ce que ce genre d'interprétation est normal pour le résultat d'une Random Forest ?
Est ce que la randomForest est bien adapté à ce genre d'analyse, ou est ce qu'un autre modele serait plus efficace ?

Merci d'avance pour votre retour et vos commentaires sur ce sujet.

**ToTo13** · 23/12/2015, 20h48

C'est la probabilité de la classe que tu souhaites prédire. Dans ton cas, la probabilité que la déclaration soit une fraude. Attention, selon la librairie que tu utilises, cela peut être la probabilité de la première classe rencontrée. Dans ton cas, les deux classes possibles sont "fraude" et "non fraude". Généralement tu as plutôt une probabilité par classe, avec la somme de toutes les probabilités égale à 1.
Si ton système fonctionne moyennement, c'est une possibilité pour rattraper un peu le coup. si ton système fonctionne parfaitement (ou presque), alors il faut lui faire confiance. Tu le sauras en regardant les résultats sur ton échantillon de test.
Toutes les méthodes d'apprentissage étant différentes, il n'y a pas de "meilleure" méthode en général. Les plus connues/utilisées/efficaces sont les réseaux de neurones, les forêts aléatoires, les SVM et la régression logistique. Mais d'autre peuvent mieux s'appliquer à ton problème. Il faut en tester un maximum.

[Discussion] Détection de fraude par forêts aléatoires

Méthodes prédictives

Discussions similaires

Partager

Partager