Bonjour,
J'aurais voulu connaitre votre avis sur l'utilisation de RandomForest pour detecter des cas de Fraud (frause à l'assurance).
Le principe que l'on met en place actuellement est le suivant,
- On extrait une liste de déclaration d'accient (claim) avec un ensemble de variables censé décrire le context
- On ajoute à cette liste une colonne 0/1 qui va dire si c'est de la fraude ou non
- On entraine sur 70% de notre jeu de données, et on test le résultat sur les 30% restant
Bon, c'est pas moi qui fait ca, donc c'est aussi pour ca que je viens vous voir, car à partir de là, j'ai un peu du mal à comprendre l'output de la random forest lorsque je lance une prédiction sur un mois par exemple... elle me sort pour chaque claim un score, a priori allant de 0 à 1.
- Que représente ce score ?
- Le presta par lequel on passe m'assure qu'il faut que je regarde le rang plutot que le score. le top 20 est selon lui suspect, mais ca me parait absurde comme raisonnement. Si je score qu'un claim, il sera toujours top 1 et ne sera pas suspect pour autant. De plus, je ne vois pas à quel moment on paramètrerait ce fameux top 20. Est ce que ce genre d'interprétation est normal pour le résultat d'une Random Forest ?
- Est ce que la randomForest est bien adapté à ce genre d'analyse, ou est ce qu'un autre modele serait plus efficace ?
Merci d'avance pour votre retour et vos commentaires sur ce sujet.
Partager