IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

STAT : normalisation de données


Sujet :

Algorithmes et structures de données

  1. #1
    Membre du Club
    Inscrit en
    Juin 2002
    Messages
    104
    Détails du profil
    Informations forums :
    Inscription : Juin 2002
    Messages : 104
    Points : 49
    Points
    49
    Par défaut STAT : normalisation de données
    Salut,

    je ne savais pas trop où poster !

    Je travaille sur un projet qui manipule des données biologiques :
    j'ai des individus avec des valeurs pour différents paramètres.

    On m'a demandé de normaliser ces données car mon interface web n'affiche qu'un seul individu à la fois avec ses données spécifiques (dans un tableau) donc pour le moment, on ne peut pas comparer ces valeurs par rapport aux autres individus pour se faire une meilleure idée de la position de cet individu par rapport aux autres de l'étude.

    Le problème c'est que je ne maîtrise pas les stats !

    J'ai regardé, pour le moment du côté de la loi normale (mu, sigma2) où il faudrait déterminer la moyenne de l'échantillon, puis sa variance mais après je ne sais pas ce que je dois faire.

    En quoi les données vont-elles être normalisées ?

    Si vous aviez un tuto simple parlant de ça car les recherches sur google ne m'ont pas renvoyé grand chose de positif (si ce n'est des normalisation de BD) !

    Merci d'avance.

  2. #2
    Expert éminent Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Points : 7 903
    Points
    7 903
    Par défaut
    Bonjour,

    Pour chaque type de donnée, on connait la valeur de chacune des personne échantillonées le nombre de personne pour cette donnée.

    A partir de là, on peur effectivement calculer minimum, maximum, valeur moyenne, écart moyen, écart type et bien d'autres choses comme le pourcentage des personnes au-dessus ou au-dessous de certains seuils, ....

    Le plus informatif est de représenter un diagramme sous forme de N barres (typiquement, N autour de 20) avec :
    - en abscisse les valeurs de la donnée, chaque barre correspondant à un intervalle de dimension = (Valeur max - valeur min)/N
    - en ordonnée le pourcentage de personnes se trouvant dans l'intervalle,
    - une couleur spéciale pour la barre correspondant à la valeur de l'individu concerné.

    Plus joli, mais plus compliqué : on peut augmenter le nombre N, mais il faudra alors effectuer un lissage.
    Pour faire simple : Y_lissé(N)=Y(N)+Y(N-1)/4+Y(N+1)/4+Y(N-2)/8+Y(N+2)/8.

    J'ai pris une échelle linéaire en X, mais on peut imaginer que pour certains types de données il vaille mieux utiliser une echelle en x puissance p ou en log(x).
    " Le croquemitaine ! Aaaaaah ! Où ça ? " ©Homer Simpson

  3. #3
    Membre du Club
    Inscrit en
    Juin 2002
    Messages
    104
    Détails du profil
    Informations forums :
    Inscription : Juin 2002
    Messages : 104
    Points : 49
    Points
    49
    Par défaut
    Merci pour ta réponse Graffito : c'est le genre de chose que je voulais savoir.

    Je pensais bien représenter la chose sous la forme d'un diagramme.

    Etant en Allemagne et ne possédant pas de dico qui pourrait peut-être me l'expliquer, je ne comprends toujours pas le terme statistique de 'normalisé' : en quoi les données sont normalisées lorsqu'on calcule moyenne, écart-type, ... et que l'on représente les données sous forme d'un diagramme ?

    Si par exemple, la barre de la valeur d'intérêt est colorée d'une manière différente de celle des autres, comment faire pour indiquer la valeur de la moyenne qui est assez informatif ? Peut-être qu'écrire (textuellement) la valeur de la moyenne et de l'écart-type à côté de ce diagramme est suffisant pour bien comprendre ?

    Sinon, pour ta formule de lissage, je n'ai pas tout saisi !

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    Y_lissé(N)=Y(N)+Y(N-1)/4+Y(N+1)/4+Y(N-2)/8+Y(N+2)/8
    Y(N) est la valeur en ordonnée avant lissage apparemment ? Ce calcul est assez étrange pour moi et comment s'appelle ce lissage ?

    Désolé pour ces questions mais je ne connais vraiment pas grand chose aux stats !

  4. #4
    Rédacteur

    Avatar de Matthieu Brucher
    Profil pro
    Développeur HPC
    Inscrit en
    Juillet 2005
    Messages
    9 810
    Détails du profil
    Informations personnelles :
    Âge : 42
    Localisation : France, Pyrénées Atlantiques (Aquitaine)

    Informations professionnelles :
    Activité : Développeur HPC
    Secteur : Industrie

    Informations forums :
    Inscription : Juillet 2005
    Messages : 9 810
    Points : 20 970
    Points
    20 970
    Par défaut
    Quand on normalise une variable aléatoire par rapport à une autre, on les fait se "ressembler" le plus possible. Pour ce faire, on étudie les moments des densités de proba, donc moyenne, écart-type, kurtosis, ... donc on fait de telle sorte que les moyennes sont égales, que les écart-types aussi, et on s'arrête là si on considère les variabmes gaussiennes. Dans la cas contraire, on ajoute d'autres moments.

  5. #5
    Expert éminent Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Points : 7 903
    Points
    7 903
    Par défaut
    Bonjour,

    Y_lissé(N)=Y(N)+Y(N-1)/4+Y(N+1)/4+Y(N-2)/8+Y(N+2)/8
    pour ta formule de lissage, je n'ai pas tout saisi !
    Il y a une petite erreur : j'ai oublié de diviser l'ensemble par la somme des coefficient (c'est à dire : 1+2*(1/4)+2(1/8), soit 1,75).

    Cette formule était juste là à titre d'illustration, on peut modifier la plage de valeur de part et d'autre et affecter des coefficients à Y(N-x) nction de N (dans l'exemple, j'ai pris une plage de 2 de part et d'autre et j'ai utilisé la formule arbitraire Y(N)=1, Y(N+-1)=1/4, Y(N+-2)=1/8. On peut choisir d'autres fonctions à base de polynomes, log, racine, etc ...

    Pour indiquer la moyenne graphiquement sur le diagramme, il suffit de personaliser la barre correspondante par un attibut graphique différent de celui réservé à la valeur pour la personne concernée (exemple : un trait plus épais sur les bords de la barre, un icone en dessous, des hachures, un M dans la barre, ...).
    " Le croquemitaine ! Aaaaaah ! Où ça ? " ©Homer Simpson

  6. #6
    Expert éminent Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Points : 7 903
    Points
    7 903
    Par défaut
    Rebonjour,
    je corrige :
    j'ai utilisé la formule arbitraire Y(N)=1, Y(N+-1)=1/4, Y(N+-2)=1/8
    par :
    j'ai utilisé des coefficents arbitraires Coeff(0)=1, Coeff(1)=1/4 et Coeff(2)=1/8
    " Le croquemitaine ! Aaaaaah ! Où ça ? " ©Homer Simpson

  7. #7
    Membre du Club
    Inscrit en
    Juin 2002
    Messages
    104
    Détails du profil
    Informations forums :
    Inscription : Juin 2002
    Messages : 104
    Points : 49
    Points
    49
    Par défaut
    Merci

    Je vais essayer de mettre en application ce que vous m'avez dits !

Discussions similaires

  1. Normaliser des données pour calcul mode et médiane
    Par khaled87 dans le forum Statistiques, Data Mining et Data Science
    Réponses: 2
    Dernier message: 21/10/2014, 21h39
  2. Réponses: 0
    Dernier message: 03/07/2013, 19h52
  3. image segmentée->stats&tableau de données
    Par Pegasus42 dans le forum Images
    Réponses: 7
    Dernier message: 12/10/2010, 19h43
  4. [Stat] Centrer les données dans une proc print
    Par aureliegro dans le forum Macro
    Réponses: 5
    Dernier message: 17/01/2008, 13h47

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo