Variable aléatoire discrète avec distribution de probabilité non uniforme
Bonjour,
J'analyse des données sur la confrontation entre équipes
Pour cela, j'ai défini une centaines de critères qualitatif/quantitatif pour prédire le résultat final
Chacun de ces critères possèdent plusieurs valeurs.
Une fois la confrontation passée, je capitalise le résultat final(nommé label ci dessous) 1, 0, -1 sur le couple (critère,valeur )
Exemple:
critères |
valeur |
label: 1 |
label: 0 |
label: -1 |
Nb d’événements total |
c1 |
4 |
20 |
0 |
0 |
20 |
c2 |
-20 |
60 |
40 |
40 |
140 |
A ce jour, je me permettais de fournir une fiabilité sur la confrontation à venir.
Car en effet cette confrontation possèdent bien ces 2 couples (critères/valeurs) tel que c1 & c2
Fiabilité fournie:
- Prevision label 1 = 50% (80/160)
- Prevision label 0 = 25%
- Prevision label -1 = 25%
MON PROBLEME:
360 jours plus tard, ces mêmes critères/valeurs ont capitalisé des résultats plus ou moins vite, exemple:
critères |
valeur |
label: 1 |
label: 0 |
label: -1 |
Nb d’événements total |
c1 |
4 |
49 |
0 |
1 |
50 |
c2 |
-20 |
200 |
200 |
200 |
600 |
Fiabilité fournie à ce jour serait la suivante:
- Prévision label 1 = 38% (249/650)
- Prévision label 0 = 31%
- Prévision label -1 = 31%
Hors je trouve ce résultat faux
Mon besoin:
Je souhaiterais fournir une fiabilité "pondéré" sur le nombre d'événements total du critère & sur sa probabilité
je m'explique par 3 exemples concrets
exemple:
critères |
valeur |
label: 1 |
label: 0 |
label: -1 |
Nb d’événements total |
c1 |
4 |
99 |
0 |
1 |
100 |
c2 |
-20 |
1000 |
1000 |
1000 |
3000 |
c3 |
10 |
80 |
10 |
1 |
91 |
Je cherche un calcul qui me remonte la fiabilité que le résultat (label:1) soit bien plus élevé que 36% (1099/3000).
Avec mon expérience j'aurais estimé une fiabilité à:
- Prévision label 1 = 70%
- Prévision label 0 = 15%
- Prévision label -1 = 15%
En effet, j'ai 2 critères(c1&c3) qui ont un nombre d'événements assez grand & une probabilité élevée sur une des 3 labels
Alors que le critères c2 n'a pas une probabilité élevée sur une des 3 labels malgré un nombre d’événements capitalisé très grand.
exemple:
critères |
valeur |
label: 1 |
label: 0 |
label: -1 |
Nb d’événements total |
c1 |
4 |
9 |
1 |
0 |
10 |
c2 |
-20 |
1000 |
1000 |
1000 |
3000 |
c3 |
10 |
5 |
0 |
0 |
5 |
Je cherche un calcul qui me remonte la fiabilité que le résultat (label:1) soit égal/légèrement plus élevé que 34% (1014/3015).
Avec mon expérience j'aurais estimé une fiabilité à:
- Prévision label 1 = 36%
- Prévision label 0 = 32%
- Prévision label -1 = 32%
En effet, j'ai 2 critères(c1&c3) qui ont un nombre d’événement beaucoup trop faible malgré une probabilité élevée sur une des 3 labels
Alors que le critères c2 n'a pas une probabilité élevée sur une des 3 labels malgré un nombre d’événements capitalisé très grand.
exemple:
critères |
valeur |
label: 1 |
label: 0 |
label: -1 |
Nb d’événements total |
c1 |
4 |
109 |
1.. |
0 |
110 |
c2 |
-20 |
1000 |
1000 |
1000 |
3000 |
c3 |
10 |
5 |
0 |
400 |
405 |
Je cherche un calcul qui me remonte la fiabilité que le résultat (label:1) soit bien plus élevé que 32% (1114/3515) et que le résultat (label:0) se rapproche de 0%
Avec mon expérience j'aurais estimé une fiabilité à:
- Prévision label 1 = 40%
- Prévision label 0 = 4%
- Prévision label -1 = 56%
En effet, j'ai 2 critères(c1&c3) qui ont un nombre d’événements assez grand & une probabilité élevée sur un des 3 labels.
Alors que le critères c2 n'a pas une probabilité élevée sur une des 3 labels malgré un nombre d’événements capitalisé très grand.
Je travaille sur python, je cherche cette fameuse formule qui me sorte l'équivalant des fiabilité annoncées
En effet je cherche sur les forums avec les mots clés suivants "Variable Aléatoire Discrète avec Distribution de probabilité non uniforme".
Mais je dois faire fausse route.
Quelqu'un aurait-il une idée pour les mots clés ou la formule utiliser?
Merci d'avance
Jerome