Bonjour à tous,
je cherche à utiliser les courbes ROC pour déterminer une valeur seuil qui optimiserait la sensibilité et la spécificité de mon modèle.
Le problème, c'est que je veux appliquer cette méthode à un set de données pour lequel il me paraissait pas trop dur de pouvoir le faire, mais je suis face à un mur méthodologique...
Pour expliquer rapidement :
1) j'ai présenté des verres à distances variables d'un sujet (10 distances différentes, présentées chacun un certain nombre de fois), pour savoir si il pensait être capable d'attraper ces verres avec la main
2) le sujet devait me répondre si oui/non il pensait pouvoir les attraper, et si oui/non il était sûr de sa réponse
3) je détermine donc des pseudos "vrais positifs, vrais négatifs, faux positifs, faux négatifs", ce qui me permet de créer une matrice de confusion pour chacune des distances présentées
Il est facile de calculer la sensibilité (Se) et la spécificité (Sp) du test, mais impossible de savoir comment automatiser la recherche de la valeur seuil de distance qui me permettrait d'optimiser Se et Sp.
Dans MatLab, cette valeur est donnée par la fonction perfcurve, et se trouve être la variable OPTROCPT. Le problème, c'est que la syntaxe de cette fonction ne me paraît pas cohérente avec les données que j'ai actuellement (notament le paramètre d'entrée 'scores' qui semblerait être une suite de probabilités pour chaque cas, obtenue à partir d'une régression logistique ou autre qui sert de classifier, mais je n'ai pas besoin de classifier puisque mes matrices de confusion peuvent déjà être établies pour chaque distance).
Auriez-vous une idée de la démarche à suivre s'il vous plaît ? J'ai le sentiment que ce problème est simple, mais en parcourant google de fond en comble + bouquins de stat, je me retrouve toujours face à te la théorie que je comprends globalement sans problèmes, mais les exemples d'application diffèrent trop pour que je puisse les appliquer à mon set de données.
Merci à vous,
Yannick
Partager