Bonjour,
J'analyse des données sur la confrontation entre équipes
Pour cela, j'ai défini une centaines de critères qualitatif/quantitatif pour prédire le résultat final
Chacun de ces critères possèdent plusieurs valeurs.
Une fois la confrontation passée, je capitalise le résultat final(nommé label ci dessous) 1, 0, -1 sur le couple (critère,valeur )
Exemple:
critères valeur label: 1 label: 0 label: -1 Nb d’événements total c1 4 20 0 0 20 c2 -20 60 40 40 140
A ce jour, je me permettais de fournir une fiabilité sur la confrontation à venir.
Car en effet cette confrontation possèdent bien ces 2 couples (critères/valeurs) tel que c1 & c2
Fiabilité fournie:
- Prevision label 1 = 50% (80/160)
- Prevision label 0 = 25%
- Prevision label -1 = 25%
MON PROBLEME:
360 jours plus tard, ces mêmes critères/valeurs ont capitalisé des résultats plus ou moins vite, exemple:
critères valeur label: 1 label: 0 label: -1 Nb d’événements total c1 4 49 0 1 50 c2 -20 200 200 200 600
Fiabilité fournie à ce jour serait la suivante:
- Prévision label 1 = 38% (249/650)
- Prévision label 0 = 31%
- Prévision label -1 = 31%
Hors je trouve ce résultat faux
Mon besoin:
Je souhaiterais fournir une fiabilité "pondéré" sur le nombre d'événements total du critère & sur sa probabilité
je m'explique par 3 exemples concrets
exemple:
critères valeur label: 1 label: 0 label: -1 Nb d’événements total c1 4 99 0 1 100 c2 -20 1000 1000 1000 3000 c3 10 80 10 1 91
Je cherche un calcul qui me remonte la fiabilité que le résultat (label:1) soit bien plus élevé que 36% (1099/3000).
Avec mon expérience j'aurais estimé une fiabilité à:
- Prévision label 1 = 70%
- Prévision label 0 = 15%
- Prévision label -1 = 15%
En effet, j'ai 2 critères(c1&c3) qui ont un nombre d'événements assez grand & une probabilité élevée sur une des 3 labels
Alors que le critères c2 n'a pas une probabilité élevée sur une des 3 labels malgré un nombre d’événements capitalisé très grand.
exemple:
critères valeur label: 1 label: 0 label: -1 Nb d’événements total c1 4 9 1 0 10 c2 -20 1000 1000 1000 3000 c3 10 5 0 0 5
Je cherche un calcul qui me remonte la fiabilité que le résultat (label:1) soit égal/légèrement plus élevé que 34% (1014/3015).
Avec mon expérience j'aurais estimé une fiabilité à:
- Prévision label 1 = 36%
- Prévision label 0 = 32%
- Prévision label -1 = 32%
En effet, j'ai 2 critères(c1&c3) qui ont un nombre d’événement beaucoup trop faible malgré une probabilité élevée sur une des 3 labels
Alors que le critères c2 n'a pas une probabilité élevée sur une des 3 labels malgré un nombre d’événements capitalisé très grand.
exemple:
critères valeur label: 1 label: 0 label: -1 Nb d’événements total c1 4 109 1.. 0 110 c2 -20 1000 1000 1000 3000 c3 10 5 0 400 405
Je cherche un calcul qui me remonte la fiabilité que le résultat (label:1) soit bien plus élevé que 32% (1114/3515) et que le résultat (label:0) se rapproche de 0%
Avec mon expérience j'aurais estimé une fiabilité à:
- Prévision label 1 = 40%
- Prévision label 0 = 4%
- Prévision label -1 = 56%
En effet, j'ai 2 critères(c1&c3) qui ont un nombre d’événements assez grand & une probabilité élevée sur un des 3 labels.
Alors que le critères c2 n'a pas une probabilité élevée sur une des 3 labels malgré un nombre d’événements capitalisé très grand.
Je travaille sur python, je cherche cette fameuse formule qui me sorte l'équivalant des fiabilité annoncées
En effet je cherche sur les forums avec les mots clés suivants "Variable Aléatoire Discrète avec Distribution de probabilité non uniforme".
Mais je dois faire fausse route.
Quelqu'un aurait-il une idée pour les mots clés ou la formule utiliser?
Merci d'avance
Jerome
Partager