IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques, Data Mining et Data Science Discussion :

Exploitation d'une base de données de consommations électriques


Sujet :

Statistiques, Data Mining et Data Science

  1. #1
    Nouveau Candidat au Club
    Homme Profil pro
    Chargé d'affaire
    Inscrit en
    Octobre 2019
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Chargé d'affaire
    Secteur : Distribution

    Informations forums :
    Inscription : Octobre 2019
    Messages : 3
    Points : 1
    Points
    1
    Par défaut Exploitation d'une base de données de consommations électriques
    Bonjour,

    Je suis nouveau sur ce forum et je viens vous demander conseil car je suis novice en statistiques et dans mon travail j'ai collecté des informations constituant une base de données qu’aujourd'hui j'aimerai exploiter.
    Du coup voilà la situation : j’ai une base de 400 entrées, avec 100 critères à chaque fois, c’est un fichier excel.

    Dans cette base je récolte des informations comme la consommation électrique du logement, le nombre de personnes, le type de chauffage, la superficie,…
    Mon but c’est de savoir quels sont les critères pertinents à retenir pour déterminer le critère consommation électrique, que je voudrais donc pouvoir simuler à partir des autres informations. Ceci afin de définir une équation comprenant plusieurs critères (superficie ?, nombre de personne ?,…) qui donnerait donc la consommation électrique.
    Le souci c’est que je ne sais pas comment m’y prendre, j’ai commencé par installer XLSTAT (un add-on excel) qui me sort des données comme la matrice de corrélation, les bornes d’intervalles de confiance, coefficient de détermination, etc… mais je ne sais pas trop quoi en faire.

    Si quelqu’un pouvait m’aiguiller ce serait super sympa !

    Merci par avance !

  2. #2
    Rédacteur/Modérateur

    Homme Profil pro
    Ingénieur qualité méthodes
    Inscrit en
    Décembre 2013
    Messages
    4 053
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur qualité méthodes
    Secteur : Conseil

    Informations forums :
    Inscription : Décembre 2013
    Messages : 4 053
    Points : 9 392
    Points
    9 392
    Par défaut
    Précisons les données.
    Tu as 400 entrées : Donc 400 familles, ou plutôt, pour utiliser un terme fréquent en statistiques, 400 individus (un individu = une famille ou un foyer).
    100 critères : pour chaque individu, tu as 100 informations.
    Et parmi les 100 informations en question, il y a une information qui est 'à part', c'est la consommation électrique.

    Et ce que tu veux, c'est bâtir un 'modèle' qui permet de deviner la consommation électrique d'un foyer à partir des 99 autres valeurs. Avec dans l'idée, si j'ai un 401ème individu qui arrive, si je connais les 99 critères autres, je vais pourvoir estimer sa consommation électrique.

    Quand tu as un problème du même genre avec seulement 2 variables (une variable à estimer, et une variable explicative), tu connais certainement la méthode des moindres carrés. Ca permet de trouver la droite qui correspond le mieux au nuage de points.
    Ici tu as 99 variables explicatives au lieu d'une seule. Mais la méthode des moindres carrés continue de marcher. Dans Excel (pas besoin de XLStat), la fonction en question s'appelle DROITEREG (ou LINEST dans la version anglaise). Essaie déjà sur un tableau avec 3 ou 4 variables explicatives et une dizaine d'individus ... parce que ce n'est pas tout simple.
    Et de plus, je n'ai pas vérifié si Excel va accepter 99 variables explicatives, c'est beaucoup. Je n'ai jamais utilisé cette fonction avec plus de 10 ou 20 variables explicatives.

    DroiteReg(), c'est une piste. Il y a des outils beaucoup plus complexes... mais essaie déjà cette option.
    N'oubliez pas le bouton Résolu si vous avez obtenu une réponse à votre question.

  3. #3
    Nouveau Candidat au Club
    Homme Profil pro
    Chargé d'affaire
    Inscrit en
    Octobre 2019
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Chargé d'affaire
    Secteur : Distribution

    Informations forums :
    Inscription : Octobre 2019
    Messages : 3
    Points : 1
    Points
    1
    Par défaut
    Bonjour tbc92 et merci d'avoir pris le temps de me répondre !

    tu as bien fait de reprendre les bons termes ! au moins on sait de quoi on parle et tu as effectivement bien saisi la problématique.

    A une chose prêt peut être, je souhaite savoir si la méthode des moindres carrés va pondérer la pertinence de chaque "information".
    En gros, est-ce que la fonction DroiteReg() va se dire que l'année de construction est aussi importante que la superficie pour déterminer la consommation ? je préférerai pas, car la solution que je cherche idéalement prendrai en compte la corrélation entre les 99 variables explicatives et celle à estimer pour "pondérer" leur impact dans la définition de la droite (en réalité je cherche meme à établir une courbe car ca serait plus pertinent semble t-il pour ce modèle)
    J'espère avoir été assez clair, car ce sont des notions floues pour moi et je n'ai pas le bon jargon.

    Merci en tous cas, j'attend ton retour

  4. #4
    Responsable Qt & Livres


    Avatar de dourouc05
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Août 2008
    Messages
    26 618
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2008
    Messages : 26 618
    Points : 188 591
    Points
    188 591
    Par défaut


    Pour une régression linéaire, a priori, toutes les variables sont aussi importantes les unes que les autres : la détermination d'une droite choisit cependant des coefficients appropriés ; si l'année de construction n'a aucun impact, son coefficient sera de zéro.

    À ce niveau, fais attention aux plages de valeur des variables : pour une régression linéaire, mieux vaut avoir des valeurs centrées réduites (moyenne nulle, écart-type unitaire). Sinon, une variable qui a une grande plage risque d'avoir un impact énorme sur le modèle entraîné, même si elle ne prédit pas grand-chose.
    Vous souhaitez participer aux rubriques Qt (tutoriels, FAQ, traductions) ou HPC ? Contactez-moi par MP.

    Créer des applications graphiques en Python avec PyQt5
    Créer des applications avec Qt 5.

    Pas de question d'ordre technique par MP !

  5. #5
    Rédacteur/Modérateur

    Homme Profil pro
    Ingénieur qualité méthodes
    Inscrit en
    Décembre 2013
    Messages
    4 053
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur qualité méthodes
    Secteur : Conseil

    Informations forums :
    Inscription : Décembre 2013
    Messages : 4 053
    Points : 9 392
    Points
    9 392
    Par défaut
    Exceptionnellement, je ne suis pas d'accord avec Dourouc05.
    Si certaines valeurs varient entre 30 et 180 (des mètres carrés par exemple), et d'autres entre 1 et 5 (des nombres de personne par foyer par exemple), ce n'est pas un problème. La méthode des moindres carré gère cela parfaitement.

    Il peut y avoir des corrélations entre les variables. Par exemple si tu as la surface et le nombre de pièces, ces 2 variables sont fortement corrélées. Pas de problème.

    La fonction DROITEREG va en fait te donner :
    - 99 coefficients : Consommation = coeff1 * surface + coeff2 * nbre_de_pieces + coeff3 * nbre_personnes_dans_le_foyer + coeff4*annee_construction_immeuble ... ... + constante + epsilon
    C'est bien une combinaison des 99 paramètres. Ce n'est pas 99 analyses indépendantes les unes des autres, et il faudrait ensuite faire une espèce de moyenne.

    Et la fonction DROITEREG va aussi te donner une 2ème série de 99 indicateurs : ce sont en fait des indicateurs de fiabilité. Je ne me souviens plus des définitions précises, mais à une époque, l'aide de la fonction Droitereg expliquait cela très bien. Ca doit toujours être vrai.

    Je te redis : essaie déjà de jouer avec 2 ou 3 variables, et une dizaine d'individus. Pour comprendre comment ça marche. Tu auras aussi besoin de la fonction index() pour récupérer le tableau de 99x2 valeurs, et pas seulement la 1ère valeur de ce tableau.

    Ici, tu as 100 variables pour chaque individu. C'est beaucoup. Il y a très certainement des variables très corrélées entre elles. Et tu as seulement 400 individus. Tu as des risques d'avoir des petits accidents.

    Essaie d'utiliser cette fonction DroiteReg(), ... on verra dans un second temps comment faire des petites expériences, pour voir si le modèle raconte n'importe quoi, ou s'il tient la route.
    N'oubliez pas le bouton Résolu si vous avez obtenu une réponse à votre question.

  6. #6
    Nouveau Candidat au Club
    Homme Profil pro
    Chargé d'affaire
    Inscrit en
    Octobre 2019
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Chargé d'affaire
    Secteur : Distribution

    Informations forums :
    Inscription : Octobre 2019
    Messages : 3
    Points : 1
    Points
    1
    Par défaut
    Ok ! merci à tous les deux pour vos réponses ! je test droitereg et je reviens vers vous
    c'est sympa d'avoir pris le temps de bien expliquer comme ca merci !

Discussions similaires

  1. exploiter facilement une base de données CVS
    Par mikesquake dans le forum Autres SGBD
    Réponses: 0
    Dernier message: 23/06/2010, 10h38
  2. Réponses: 2
    Dernier message: 29/07/2008, 13h50
  3. exploitation d'une base de données oracle
    Par ALLAM dans le forum Administration
    Réponses: 1
    Dernier message: 03/09/2007, 14h06
  4. question sur l'exploitation d'une base de données..
    Par rainbow38 dans le forum Access
    Réponses: 3
    Dernier message: 22/01/2007, 16h12

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo