Envoyé par
TristanL
Pour l'historique, j'ai près de 1000 matchs que je peux tester (j'ai 15000 matchs servant à l'apprentissage de l'algo).
Et j'ai oublié de signaler que l'algo prédit une valeur réelle.
Donc on pourrait regrouper toutes les prédictions (par tranche de 0,5 buts par exemple) et dire ceci :
- Pour toutes les prédictions comprises entre 0 et 0,5 buts, dans 10% des cas il y a eu au dessus de 2,5.
- Pour 0,5 - 1 buts, 15%.
- Pour 1 - 1,5 buts, 20%, etc.
Cela pourrait être un bon début, mais comment différencier une prédiction de 2,1 d'une prédiction de 2,4 ?
Ton historique de matchs permet de connaitre le nombre de but pour chaque match. Cela permet de construire un histogramme (Nombre de matchs ayant eu X buts, pour X variant entre 0 et max). Cette histogramme peut être assimilé à ta loi de proba.
nmb
matchs
^
|
| #
| # #
| # # # #
| # # # # # #
+---------------------> buts
0 1 2 3 4 5 6
Ensuite tu construit la fonction de répartition de cette loi (CdF = Cumulative distribution function). Pour une valeur X 'réelle' de but, cette fonction te permet de connaitre le % de matchs qui ont moins de X buts.
CdF
^
100% -| ..*.*..
| ..*
| .*
75% -| .
| .*
| .
50% -| *
| .
| .
25% -|
| *
|
0% |
+---------------------> buts
0 1 2 3 4 5 6
La CdF pour ton cas est une fonction discrète : il faudra interpoler les valeurs si X n'est pas un entier.
Partager