Bonjour,


J'essaye d'étudier l'output quotidien d'un moteur de scoring, et je ne sais pas vraiment comment avoir un résultat pertinant.

Contexte:
Chaque jour, je score via une RandomForest un ensemble d'évenements "ouverts" depuis le 1er aout 2015. (donc chaque jour, la liste varie: j'ajoute les nouveaux évenments ouverts, et je perds les éléments fermés).
Un événement peut voir ses informations varier d'un jour sur l'autre. Je renseigne à ce moment là, une date de modification.
Je renseigne dans mon fichier de sortie:
  • le numéro de l'événement (unique par jour),
  • la date de modification de l'événement,
  • le score.


Ce qui m'interesse dans mon analyse dans ce cas, c'est le rang que va avoir un événement d'un jour sur l'autre, en utilisant une Corrélation de Spearman.
La question que je me pose donc, c'est comment calculer ce rang pour que ce soit pertinant ?
Est ce que ca a du sens si j'analyse uniquement les événements dont la date de modification est identique sur l'ensemble de mes fichiers (pas de de modificiation sur la période étudiée), et qui n'ont pas été fermés (présents sur l'ensemble de mes fichiers) ? Ou est ce qu'il faut que je calcule d'abord le rang au sein du fichier, et que je me restreigne ensuite à une liste commune d'événements ? (restriction des évènements puis calcule de rang, ou l'inverse ? - une autre idée / facon de faire ?)

Sachant que mon "score", et donc mon rang dépend de ma random forest, est ce que vous pourriez me donner un conseil sur ce à quoi je dois m'attendre en terme de correlation ? Est ce qu'un corrélation de 0.70 par exemple vous paraitrait être un bon résultat ? (en relation bien évidenment avec ma p-value)

Hésitez pas à me poser des questions s'il y a le moindre élément pas clair.
Et soyez indulgents, je suis pas statisticien, je n'ai que de vague notions ^^

Meric d'avance pour vos réponses.


Steven