IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques, Data Mining et Data Science Discussion :

Variance et covariance


Sujet :

Statistiques, Data Mining et Data Science

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Invité
    Invité(e)
    Par défaut Variance et covariance
    Bonjour,
    Je dois calculer la variance et la covariance de listes
    1- la variance
    Soit xi une variable, n le nombre de variables,
    La moyenne est xM
    Quelle est formule de la variance, pour i de 1 à n
    proposition A Var(x)=Somme((xi-xM)²)
    proposition B Var(x)=1/n . Somme((xi-xM)²)
    proposition C Var(x)=1/(n-1) . Somme((xi-xM)²)
    Pour moi, c'est la formule C, mais les documents que j'ai consultés sont contradictoires.
    Argumentaire (personnel) pour la division par (n-1) : s'il n'y a qu'une valeur de x la variance est indéterminée (0/0), s'il y en a 2, c'est une bonne approche de l'explication du postulat de la moyenne.
    Pour l'écart-type, je pense que c'est clair, c'est la racine carrée de la variance.

    2- la covariance
    Là il s'agit de 2 listes x et y, et c'est encore moins clair dans mon esprit.

    Merci d'avance.

  2. #2
    Modérateur

    Homme Profil pro
    Ingénieur en calculs scientifiques
    Inscrit en
    Août 2007
    Messages
    4 639
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Ingénieur en calculs scientifiques

    Informations forums :
    Inscription : Août 2007
    Messages : 4 639
    Par défaut
    Bonjour,

    je ne suis pas un expert, mais je pense que c'est plutôt un choix de programmation (et d'interprétation?).

    Par exemple sous MATLAB, par défaut pour n>1 la variance est normalisée par (n-1) (formule C) et pour n=1, elle est normalisée par 1 (donc la variance d'un scalaire est nulle). On peut aussi choisir de normaliser par n.
    Pour une bonne utilisation des balises code c'est ici!
    Petit guide du voyageur MATLABien : Le forum La faq Les tutoriels Les sources


    La nature est un livre écrit en langage mathématique. Galilée.

  3. #3
    Invité
    Invité(e)
    Par défaut
    Merci de votre réponse.
    J'ai tout un cours sur le sujet, puisque c'est un point fondamental en topométrie, mais le terme "variance" n'y est jamais employé. Par ailleurs, j'ai déjà eu des discussions avec mon entourage à propos de la formule utilisée. Il est possible que cela n'ait pas vraiment d'importance, dans la mesure où on compare des choses comparables.
    Dans le cas présent la formule que l'on m'a donnée est la A (on la trouve aussi dans W. ainsi que les autres, avec des explications pas très claires). Donc, je dois être sûr de moi pour appliquer la bonne formule.

  4. #4
    Membre très actif
    Profil pro
    chercheur
    Inscrit en
    Avril 2004
    Messages
    830
    Détails du profil
    Informations personnelles :
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : chercheur

    Informations forums :
    Inscription : Avril 2004
    Messages : 830
    Par défaut
    La variance doit rester ~constante quand le nombre d'échantillons croit.
    Cà ne peut pas être A
    si n n'est pas ridiculement petit pour faire des stats, 1/n ~= 1/(n-1)
    la formule logique pour la covariance serait (1/n)*somme((xi-xm)*(yi-ym))

  5. #5
    Invité
    Invité(e)
    Par défaut
    Merci,
    Je crois que c'est clair maintenant.
    Mais en l'occurrence, je crains bien que n est toujours égal à 2, ce qui fait que la formule qui m'a été donnée est bonne, puis que (n-1) = 1.
    Il est probable que les termes de Variance et Covariance sont utilisés plus dans un but linguistique que mathématique. (c'est ce que j'avais du mal à comprendre)
    Ce qui fait que dans le cas présent avec x1 et x2
    xm=(x1+x2)/2
    Var=1/1 . (x1-xm)² + (x2-xm)² = (x1 - x2)²/2 (sauf erreur de calcul)

  6. #6
    Membre Expert
    Homme Profil pro
    Chercheur
    Inscrit en
    Mars 2010
    Messages
    1 218
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Chercheur

    Informations forums :
    Inscription : Mars 2010
    Messages : 1 218
    Par défaut
    Bonsoir,

    si la moyenne THEORIQUE de ton échantillon est connue, alors la formule B doit être utilisée car elle n'est pas biaisée et correspond à la définition mathématique de la variance.
    Dans le cas contraire, tu biaises ton estimation de la variance en calculant la moyenne EMPIRIQUE de ton échantillon : il faut alors utiliser la formule C qui correspond à un estimateur non biaisé de la variance.
    Il y a tout ce qu'il faut sur ce sujet dans Wilkipedia :
    http://fr.wikipedia.org/wiki/Varianc...babilit%C3%A9s)

    Par ailleurs, il ne faut surtout pas calculer la variance à partir des formules données!!!
    Ton algorithme serait numériquement instable.
    Voici le lien dans Wilkipedia :
    http://en.wikipedia.org/wiki/Algorit...ating_variance

  7. #7
    Invité
    Invité(e)
    Par défaut
    Bonjour Aleph,
    Nous sommes complètement d'accord. J'ai déjà lu l'article de Wikipédia en long et en large.
    Maintenant je n'ai plus de doute.

  8. #8
    Invité
    Invité(e)
    Par défaut
    Bonjour,
    Je vais essayer de conclure ce sujet.
    Dans le domaine de l'étude de la théorie de erreurs, loi de Gauss, il y a un certain nombre de notions fondamentales :
    - le postulat de la moyenne qui précise que, étant un certain nombre de mesures d'une même chose, la moyenne arithmétique est la plus probable.
    - la distinction entre erreurs vraies et erreurs apparentes. Les erreurs vraies sont généralement inconnues, par contre les erreurs apparentes sont les différences entre la moyenne et les valeurs mesurées
    - on appelle écart probable, l'écart tel que l'écart de la moitié des mesures est inférieur en valeur absolue à cet écart.
    - on appelle écart moyen quadratique la racine carrée de la somme des erreurs apparentes, divisée par (n-1), "n" étant le nombre de valeurs observées.
    - la distribution statistique normale. 50% des écarts sont inférieurs à 1 Ep, 32% compris entre 1 Ep et 2 Ep, 14% compris entre 2 Ep et 3 Ep, 4% sont supérieures à 3Ep.
    - l'erreur moyenne quadratique = 3/2 erreur probable.

    Ces notions sont bien connues des scientifiques.

    On a vu que l'erreur moyenne quadratique était obtenue en divisant la somme des carrés des erreurs apparentes par (n-1). Si on connait, non plus les erreurs apparentes, mais les erreurs vraies, alors, ce diviseur sera (n).

    Formules et terminologie :
    On parle souvent de l'écart-type, et l'on trouve la formule suivante
    racine carrée ( (n . somme(valeurs²) - somme(valeurs)²)/( n . (n-1))).
    Outre le fait que cette formule donnera de très mauvais résultats avec un calcul par ordinateur, si le nombre de valeurs est grand, mais surtout, cette formule est équivalente à celle de l'erreur moyenne quadratique, c'est à dire donne un résultat identique. Donc l'écart-type est l'erreur moyenne quadratique.
    La variance est le carré de l'erreur moyenne quadratique.
    On trouve le terme de biais (ou biaisé) dans certains articles de vulgarisation. Je suppose que c'est une traduction de "prevaricate". En fait il s'agit de la distinction entre les erreurs vraies et les erreurs apparenter.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Calcul d'une matrice de Variance Covariance
    Par ANOVA dans le forum Macros et VBA Excel
    Réponses: 3
    Dernier message: 19/05/2010, 17h22
  2. Matrice de variance-covariance
    Par KaguraSohma dans le forum R
    Réponses: 3
    Dernier message: 04/06/2009, 10h54
  3. Newmat matrice de variance covariance, Cholesky.
    Par tikam75007 dans le forum C++/CLI
    Réponses: 0
    Dernier message: 28/04/2009, 16h01
  4. Calcul matrice variance-covariance
    Par Alucard9800XT dans le forum MATLAB
    Réponses: 2
    Dernier message: 10/05/2007, 12h18
  5. Remplir une matrice de variance/covariance
    Par ToTo13 dans le forum Algorithmes et structures de données
    Réponses: 10
    Dernier message: 31/07/2006, 17h55

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo