Méthode pour passer d'une valeur numérique à une probabilité

**TristanL** · 06/06/2011, 17h41

Bonjour,

J'ai un algorithme qui me prédit le nombre de buts qui sera marqué dans un match de football entre 2 équipes données.
Mon but maintenant est de transformer ce nombre en une probabilité que le nombre de buts soit supérieur à 2,5.
Exemple : mon algo me donne 2,5 buts. La probabilité qu'il y est plus de 2,5 marqués dans le match sera alors de 50%.
Si l'algo me prédit 3 buts, la proba sera surement aux alentours de 55-60%.
Avec 5 buts, aux alentours de 80%, etc.

N'étant pas vraiment qualifié en stats, j'aurais aimé que vous me donniez votre idée sur comment passer d'une valeur numérique à une probabilité "over/under 2.5"

**prgasp77** · 06/06/2011, 18h43

Avec uniquement cette information, cela n'est pas possible. En effet, pour une moyenne donnée (qu'est la prédiction de ton programme), il existe une infinité de lois de probabilité et donc une infinité (une autre) de probabilité qu'un événement soit supérieur à la moyenne.

Afin d'obtenir cette réponse, il te faudra t'appuyer sur l'algorithme de prédiction : il doit en effet être possible d'en extraire au moins quelques informations. Une autre possibiité serait de s'appuyer sur l'historique du programme (« dans 25% des cas, lorsqu'il prédit 2 buts il en survient au moins 2,5 »).

Cordialement,

**TristanL** · 06/06/2011, 18h59

Pour l'historique, j'ai près de 1000 matchs que je peux tester (j'ai 15000 matchs servant à l'apprentissage de l'algo).
Et j'ai oublié de signaler que l'algo prédit une valeur réelle.
Donc on pourrait regrouper toutes les prédictions (par tranche de 0,5 buts par exemple) et dire ceci :
- Pour toutes les prédictions comprises entre 0 et 0,5 buts, dans 10% des cas il y a eu au dessus de 2,5.
- Pour 0,5 - 1 buts, 15%.
- Pour 1 - 1,5 buts, 20%, etc.

Cela pourrait être un bon début, mais comment différencier une prédiction de 2,1 d'une prédiction de 2,4 ?

**fezvez** · 10/06/2011, 15h16

Malheureusement, il nous faut encore un petit quelque chose pour t'aider (car encore une fois, on ne dispose d'aucune information sur la distribution de probabilités) : quel est l'algorithme utilisé pour l'apprentissage? SVM? AdaBoost? Logistic regression? Autre?

Tout simplement parce qu'une valeur telle que 2.4 n'a de "sens" que si on sait de quel algo il s'agit.

**pseudocode** · 14/06/2011, 11h38

Envoyé par TristanL

Pour l'historique, j'ai près de 1000 matchs que je peux tester (j'ai 15000 matchs servant à l'apprentissage de l'algo).
Et j'ai oublié de signaler que l'algo prédit une valeur réelle.
Donc on pourrait regrouper toutes les prédictions (par tranche de 0,5 buts par exemple) et dire ceci :
- Pour toutes les prédictions comprises entre 0 et 0,5 buts, dans 10% des cas il y a eu au dessus de 2,5.
- Pour 0,5 - 1 buts, 15%.
- Pour 1 - 1,5 buts, 20%, etc.

Cela pourrait être un bon début, mais comment différencier une prédiction de 2,1 d'une prédiction de 2,4 ?

Ton historique de matchs permet de connaitre le nombre de but pour chaque match. Cela permet de construire un histogramme (Nombre de matchs ayant eu X buts, pour X variant entre 0 et max). Cette histogramme peut être assimilé à ta loi de proba.

nmb
matchs
^
|
|    # 
| #  #
| #  #  #  #
| #  #  #  #  #  #
+---------------------> buts
  0  1  2  3  4  5  6

Ensuite tu construit la fonction de répartition de cette loi (CdF = Cumulative distribution function). Pour une valeur X 'réelle' de but, cette fonction te permet de connaitre le % de matchs qui ont moins de X buts.

      CdF
      ^
100% -|              ..*.*..
      |           ..*
      |         .*
 75% -|        . 
      |      .*
      |     .  
 50% -|    *
      |   .
      |  .
 25% -|
      | *
      |
  0%  |
      +---------------------> buts
        0  1  2  3  4  5  6

La CdF pour ton cas est une fonction discrète : il faudra interpoler les valeurs si X n'est pas un entier.