-
Variance et covariance
Bonjour,
Je dois calculer la variance et la covariance de listes
1- la variance
Soit xi une variable, n le nombre de variables,
La moyenne est xM
Quelle est formule de la variance, pour i de 1 à n
proposition A Var(x)=Somme((xi-xM)²)
proposition B Var(x)=1/n . Somme((xi-xM)²)
proposition C Var(x)=1/(n-1) . Somme((xi-xM)²)
Pour moi, c'est la formule C, mais les documents que j'ai consultés sont contradictoires.
Argumentaire (personnel) pour la division par (n-1) : s'il n'y a qu'une valeur de x la variance est indéterminée (0/0), s'il y en a 2, c'est une bonne approche de l'explication du postulat de la moyenne.
Pour l'écart-type, je pense que c'est clair, c'est la racine carrée de la variance.
2- la covariance
Là il s'agit de 2 listes x et y, et c'est encore moins clair dans mon esprit.
Merci d'avance.
-
Bonjour,
je ne suis pas un expert, mais je pense que c'est plutôt un choix de programmation (et d'interprétation?).
Par exemple sous MATLAB, par défaut pour n>1 la variance est normalisée par (n-1) (formule C) et pour n=1, elle est normalisée par 1 (donc la variance d'un scalaire est nulle). On peut aussi choisir de normaliser par n.
-
Merci de votre réponse.
J'ai tout un cours sur le sujet, puisque c'est un point fondamental en topométrie, mais le terme "variance" n'y est jamais employé. Par ailleurs, j'ai déjà eu des discussions avec mon entourage à propos de la formule utilisée. Il est possible que cela n'ait pas vraiment d'importance, dans la mesure où on compare des choses comparables.
Dans le cas présent la formule que l'on m'a donnée est la A (on la trouve aussi dans W. ainsi que les autres, avec des explications pas très claires). Donc, je dois être sûr de moi pour appliquer la bonne formule.
-
La variance doit rester ~constante quand le nombre d'échantillons croit.
Cà ne peut pas être A
si n n'est pas ridiculement petit pour faire des stats, 1/n ~= 1/(n-1)
la formule logique pour la covariance serait (1/n)*somme((xi-xm)*(yi-ym))
-
Merci,
Je crois que c'est clair maintenant.
Mais en l'occurrence, je crains bien que n est toujours égal à 2, ce qui fait que la formule qui m'a été donnée est bonne, puis que (n-1) = 1. :)
Il est probable que les termes de Variance et Covariance sont utilisés plus dans un but linguistique que mathématique. (c'est ce que j'avais du mal à comprendre)
Ce qui fait que dans le cas présent avec x1 et x2
xm=(x1+x2)/2
Var=1/1 . (x1-xm)² + (x2-xm)² = (x1 - x2)²/2 (sauf erreur de calcul)
-
Bonsoir,
si la moyenne THEORIQUE de ton échantillon est connue, alors la formule B doit être utilisée car elle n'est pas biaisée et correspond à la définition mathématique de la variance.
Dans le cas contraire, tu biaises ton estimation de la variance en calculant la moyenne EMPIRIQUE de ton échantillon : il faut alors utiliser la formule C qui correspond à un estimateur non biaisé de la variance.
Il y a tout ce qu'il faut sur ce sujet dans Wilkipedia :
http://fr.wikipedia.org/wiki/Varianc...babilit%C3%A9s)
Par ailleurs, il ne faut surtout pas calculer la variance à partir des formules données!!!
Ton algorithme serait numériquement instable.
Voici le lien dans Wilkipedia :
http://en.wikipedia.org/wiki/Algorit...ating_variance
-
Bonjour Aleph,
Nous sommes complètement d'accord. J'ai déjà lu l'article de Wikipédia en long et en large.
Maintenant je n'ai plus de doute.
-
Bonjour,
Je vais essayer de conclure ce sujet.
Dans le domaine de l'étude de la théorie de erreurs, loi de Gauss, il y a un certain nombre de notions fondamentales :
- le postulat de la moyenne qui précise que, étant un certain nombre de mesures d'une même chose, la moyenne arithmétique est la plus probable.
- la distinction entre erreurs vraies et erreurs apparentes. Les erreurs vraies sont généralement inconnues, par contre les erreurs apparentes sont les différences entre la moyenne et les valeurs mesurées
- on appelle écart probable, l'écart tel que l'écart de la moitié des mesures est inférieur en valeur absolue à cet écart.
- on appelle écart moyen quadratique la racine carrée de la somme des erreurs apparentes, divisée par (n-1), "n" étant le nombre de valeurs observées.
- la distribution statistique normale. 50% des écarts sont inférieurs à 1 Ep, 32% compris entre 1 Ep et 2 Ep, 14% compris entre 2 Ep et 3 Ep, 4% sont supérieures à 3Ep.
- l'erreur moyenne quadratique = 3/2 erreur probable.
Ces notions sont bien connues des scientifiques.
On a vu que l'erreur moyenne quadratique était obtenue en divisant la somme des carrés des erreurs apparentes par (n-1). Si on connait, non plus les erreurs apparentes, mais les erreurs vraies, alors, ce diviseur sera (n).
Formules et terminologie :
On parle souvent de l'écart-type, et l'on trouve la formule suivante
racine carrée ( (n . somme(valeurs²) - somme(valeurs)²)/( n . (n-1))).
Outre le fait que cette formule donnera de très mauvais résultats avec un calcul par ordinateur, si le nombre de valeurs est grand, mais surtout, cette formule est équivalente à celle de l'erreur moyenne quadratique, c'est à dire donne un résultat identique. Donc l'écart-type est l'erreur moyenne quadratique.
La variance est le carré de l'erreur moyenne quadratique.
On trouve le terme de biais (ou biaisé) dans certains articles de vulgarisation. Je suppose que c'est une traduction de "prevaricate". En fait il s'agit de la distinction entre les erreurs vraies et les erreurs apparenter.