IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Méthodes prédictives Discussion :

Normalisation des données


Sujet :

Méthodes prédictives

  1. #1
    Futur Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    décembre 2017
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : décembre 2017
    Messages : 6
    Points : 6
    Points
    6
    Par défaut Normalisation des données
    Bonsoir,

    Je viens de commencer une formation dans laquelle j'étudie les différentes méthodes de machine learning et j'ai quelques petites questions.

    Pourrait-on m'expliquer pourquoi il est important de normaliser les données d'apprentissage avant de faire une classification bayésienne ?
    Et comment cela se fait-il que le taux de bonne reconnaissance en est amélioré à la fin ?

    Merci d'avance.

  2. #2
    Rédacteur/Modérateur

    Homme Profil pro
    Ingénieur qualité méthodes
    Inscrit en
    décembre 2013
    Messages
    3 539
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur qualité méthodes
    Secteur : Conseil

    Informations forums :
    Inscription : décembre 2013
    Messages : 3 539
    Points : 8 150
    Points
    8 150
    Par défaut
    Prenons un exemple d'application classique.
    On a des individus 'humains', et on cherche a faire des classifications en groupes homogènes. Et pour chaque individu, on connaît son âge, sa taille et son poids. A priori, on est classique, l'âge est compté en années, la taille en mètres, et le poids en kilos. Du coup, sur la taille on aura des écarts très faibles, grosso modo 0.5 entre les plus petits et les plus grands. Alors que pour l'âge, les écarts seront de l'ordre de 50 entre les plus jeunes est les plus vieux. Et idem pour le poids.
    La taille aura donc un impact très faible dans notre classification.

    On peut aussi dire que la taille, on va la compter en millimètres, et pas en mètres. Et du coup, effet inverse, c'est la taille qui sera le critère le plus discriminant.

    Tout ça, c'est arbitraire. Suivant qu'on mesure la taille en mètres, ou en millimètres, ça ne devrait pas avoir d'impact sur les résultats. C'est pour ça qu'on normalise les données.
    N'oubliez pas le bouton Résolu si vous avez obtenu une réponse à votre question.

  3. #3
    Futur Membre du Club
    Femme Profil pro
    Étudiant
    Inscrit en
    décembre 2017
    Messages
    6
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : décembre 2017
    Messages : 6
    Points : 6
    Points
    6
    Par défaut
    Merci pour ta réponse.

    Du coup lorsqu'on a seulement une variable pour classifier nos individus, il ne sert à rien de normaliser si toutes les données sont dans la même unité ?

    Normaliser, permet donc de s'affranchir des données n'ayant pas le même ordre de grandeur ?

  4. #4
    Rédacteur/Modérateur

    Homme Profil pro
    Ingénieur qualité méthodes
    Inscrit en
    décembre 2013
    Messages
    3 539
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur qualité méthodes
    Secteur : Conseil

    Informations forums :
    Inscription : décembre 2013
    Messages : 3 539
    Points : 8 150
    Points
    8 150
    Par défaut
    Si on a une seule variable... effectivement, je pense que dans ce cas la normalisation n'est pas indispensable.
    Mais à vérifier. Peut être que les outils existants partent du principe que les variables sont normalisées/réduites, parce qu'elles le sont toujours.
    N'oubliez pas le bouton Résolu si vous avez obtenu une réponse à votre question.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 2
    Dernier message: 11/04/2017, 13h52
  2. [MySQL-5.6] Normalisation des bases de données relationnelles
    Par Kasko dans le forum MySQL
    Réponses: 0
    Dernier message: 18/06/2015, 15h34
  3. Normaliser des données pour calcul mode et médiane
    Par khaled87 dans le forum Statistiques, Data Mining et Data Science
    Réponses: 2
    Dernier message: 21/10/2014, 21h39
  4. Structure des données en retour d'un DBExtract ?
    Par mikouts dans le forum XMLRAD
    Réponses: 4
    Dernier message: 24/01/2003, 15h15
  5. Réponses: 2
    Dernier message: 18/12/2002, 10h30

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo