Variable aléatoire discrète avec distribution de probabilité non uniforme

Version imprimable

05/07/2019, 15h42
jbonneval

Variable aléatoire discrète avec distribution de probabilité non uniforme

Bonjour,
J'analyse des données sur la confrontation entre équipes
Pour cela, j'ai défini une centaines de critères qualitatif/quantitatif pour prédire le résultat final
Chacun de ces critères possèdent plusieurs valeurs.

Une fois la confrontation passée, je capitalise le résultat final(nommé label ci dessous) 1, 0, -1 sur le couple (critère,valeur )
Exemple:

critères valeur label: 1 label: 0 label: -1 Nb d’événements total

c1 4 20 0 0 20

c2 -20 60 40 40 140

A ce jour, je me permettais de fournir une fiabilité sur la confrontation à venir.
Car en effet cette confrontation possèdent bien ces 2 couples (critères/valeurs) tel que c1 & c2
Fiabilité fournie:
- Prevision label 1 = 50% (80/160)
- Prevision label 0 = 25%
- Prevision label -1 = 25%

MON PROBLEME:
360 jours plus tard, ces mêmes critères/valeurs ont capitalisé des résultats plus ou moins vite, exemple:

critères valeur label: 1 label: 0 label: -1 Nb d’événements total

c1 4 49 0 1 50

c2 -20 200 200 200 600

Fiabilité fournie à ce jour serait la suivante:
- Prévision label 1 = 38% (249/650)
- Prévision label 0 = 31%
- Prévision label -1 = 31%

Hors je trouve ce résultat faux

Mon besoin:
Je souhaiterais fournir une fiabilité "pondéré" sur le nombre d'événements total du critère & sur sa probabilité

je m'explique par 3 exemples concrets

exemple:

critères valeur label: 1 label: 0 label: -1 Nb d’événements total

c1 4 99 0 1 100

c2 -20 1000 1000 1000 3000

c3 10 80 10 1 91

Je cherche un calcul qui me remonte la fiabilité que le résultat (label:1) soit bien plus élevé que 36% (1099/3000).
Avec mon expérience j'aurais estimé une fiabilité à:
- Prévision label 1 = 70%
- Prévision label 0 = 15%
- Prévision label -1 = 15%
En effet, j'ai 2 critères(c1&c3) qui ont un nombre d'événements assez grand & une probabilité élevée sur une des 3 labels
Alors que le critères c2 n'a pas une probabilité élevée sur une des 3 labels malgré un nombre d’événements capitalisé très grand.

exemple:

critères valeur label: 1 label: 0 label: -1 Nb d’événements total

c1 4 9 1 0 10

c2 -20 1000 1000 1000 3000

c3 10 5 0 0 5

Je cherche un calcul qui me remonte la fiabilité que le résultat (label:1) soit égal/légèrement plus élevé que 34% (1014/3015).
Avec mon expérience j'aurais estimé une fiabilité à:
- Prévision label 1 = 36%
- Prévision label 0 = 32%
- Prévision label -1 = 32%
En effet, j'ai 2 critères(c1&c3) qui ont un nombre d’événement beaucoup trop faible malgré une probabilité élevée sur une des 3 labels
Alors que le critères c2 n'a pas une probabilité élevée sur une des 3 labels malgré un nombre d’événements capitalisé très grand.

exemple:

critères valeur label: 1 label: 0 label: -1 Nb d’événements total

c1 4 109 1.. 0 110

c2 -20 1000 1000 1000 3000

c3 10 5 0 400 405

Je cherche un calcul qui me remonte la fiabilité que le résultat (label:1) soit bien plus élevé que 32% (1114/3515) et que le résultat (label:0) se rapproche de 0%
Avec mon expérience j'aurais estimé une fiabilité à:
- Prévision label 1 = 40%
- Prévision label 0 = 4%
- Prévision label -1 = 56%
En effet, j'ai 2 critères(c1&c3) qui ont un nombre d’événements assez grand & une probabilité élevée sur un des 3 labels.
Alors que le critères c2 n'a pas une probabilité élevée sur une des 3 labels malgré un nombre d’événements capitalisé très grand.

Je travaille sur python, je cherche cette fameuse formule qui me sorte l'équivalant des fiabilité annoncées
En effet je cherche sur les forums avec les mots clés suivants "Variable Aléatoire Discrète avec Distribution de probabilité non uniforme".
Mais je dois faire fausse route.

Quelqu'un aurait-il une idée pour les mots clés ou la formule utiliser?

Merci d'avance
Jerome

critères	valeur	label: 1	label: 0	label: -1	Nb d’événements total
c1	4	20	0	0	20
c2	-20	60	40	40	140

critères	valeur	label: 1	label: 0	label: -1	Nb d’événements total
c1	4	49	0	1	50
c2	-20	200	200	200	600

critères	valeur	label: 1	label: 0	label: -1	Nb d’événements total
c1	4	99	0	1	100
c2	-20	1000	1000	1000	3000
c3	10	80	10	1	91

critères	valeur	label: 1	label: 0	label: -1	Nb d’événements total
c1	4	9	1	0	10
c2	-20	1000	1000	1000	3000
c3	10	5	0	0	5

critères	valeur	label: 1	label: 0	label: -1	Nb d’événements total
c1	4	109	1..	0	110
c2	-20	1000	1000	1000	3000
c3	10	5	0	400	405

Je pense avoir compris ton besoin :)
En fait, dans les exemples que tu donnes, en utilisant la formule ""naturelle"", tu nous dis le résultat que tu obtiens dans tes exemples est trop influencé par les lignes où on a énormément d'événements (3000 dans tes exemples). On va donc mettre en place une espèce de plafond :

exemple:

critères valeur label: 1 label: 0 label: -1 Nb d’événements total

c1 4 109 1.. 0 110

c2 -20 1000 1000 1000 3000

c3 10 5 0 400 405

Je mets un plafond à 200, et je dis que toutes les lignes qui dépassent ce plafond, je vais diminuer l'impact de ces lignes, avec la formule y = 200 + (x-200)/5 ; on n'applique cette transformation que si x est plus grand que 200.
Code:

1 2 3 4 c1 : 110 < 200, inchangé c2 : 3000 > 200 , on va remplacer la valeur 3000 par y= 200+(3000-200)/5 =760 --> On applique un coefficient 760/3000 pour tous les nombres de cette ligne c3 : 405 > 200 , on va remplacer la valeur 405 par y= 200+(405-200)/5 =241 --> On applique un coefficient 241/405 pour tous les nombres de cette ligne
Du coup, on va travailler avec ce jeu de données au lieu du jeu initial :

exemple:

critères valeur label: 1 label: 0 label: -1 Nb d’événements total

c1 4 109 1.. 0 110

c2 -20 253 253 253 760

c3 10 3 0 238 241

Ici, ça va nous donner :
label 1 : 31% label2 : 22% label3 : 47%
Visiblement, le plafonnement que j'ai proposé n'est pas suffisamment fort, à toi de jouer avec les coefficients pour trouver des résultats qui te conviennent mieux.

Deuxième piste.
Le plafonnement en question, tu peux le mettre en place sur les données des labels, et pas sur le total ( la formule y=200+(x-200)/5, on l'applique au nombre 1000, et non au nombre 3000)

Troisième piste.
On va multiplier ligne1*igne2*lign3, au lieu de les additionner.
Mais comme on a des nombres 0 dans le tableau, et que le résultat d'une colonne va donner 0 dès qu'il y a ne serait-ce qu'une fois le nombre 0 dans une colonne, on va s'adapter.
Etape 1 : on additionne un nombre arbitraire à tous les nombres. Disons qu'on additionne 10 (en jouant sur ce paramètre, tu obtiendras des résultats qui te conviendront peut-être mieux)
L'exemple devient :

exemple:

critères valeur label: 1 label: 0 label: -1 Nb d’événements total

c1 4 119 11.. 10 xxx (inutile)

c2 -20 1010 1010 1010 xxx

c3 10 15 10 410 xxx

Puis on multiplie, et on ramène tout en pourcentage :
Code:

1 2 3 4 5 exemple: label1 : 119*1010*15=1802850 label2 : 11*1010*10=111100 label3 : 10*1010*410=4141000 Total = 1802850+111100+4141000=6054950
Les pourcentages obtenus sont 30%, 2% et 68%.

Tout ça, c'est mes bricolages. On doit pouvoir faire plus sérieux.

Pour ça la méthode serait de mettre en face de chaque exemple les pourcentages voulus (40, 4 et 56 dans le dernier exemple). Puis organiser les données de manière plus pratique ( en gros, un exemple doit occuper une seule ligne dans un fichier Excel).
Comme ça , Excel ( ou tout autre outil) pourra trouver une formule qui s'approche au mieux ces pourcentages voulus, à partir des autres données.
Parmi les techniques du 20ème siècle on va parler de régression . Mais en l'occurrence, il faudra utiliser des régressions non linéaires (expression utile pour des recherches)
Parmi les outils du 21ème siècle, on va parler de Machine Learning. Je ne suis pas spécialiste du tout, mais je pense que sur ce cas, c'est comme utiliser un lance-flammes pour tuer une mouche.

08/07/2019, 11h56
jbonneval

Merci bcp tbc92 pour tes solutions
Il faut que je teste te 3 solutions des un nombre de cas plus exhaustif!
La dernière solution parait intéressante

Pour l'étude par regression linéaire je commence à m'y mettre dedans mais c'est loin tous ca :)

Pour l'étude du machine learning, mon data set n'est pas encore assez exhaustif pour l'utiliser

Encore merci pour tes solutions
Jerome