Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Nouveau Candidat au Club
    Aide novice - exploitation d'une base de données de consommations électriques
    Bonjour,

    Je suis nouveau sur ce forum et je viens vous demander conseil car je suis novice en statistiques et dans mon travail j'ai collecté des informations constituant une base de données qu’aujourd'hui j'aimerai exploiter.
    Du coup voilà la situation : j’ai une base de 400 entrées, avec 100 critères à chaque fois, c’est un fichier excel.

    Dans cette base je récolte des informations comme la consommation électrique du logement, le nombre de personnes, le type de chauffage, la superficie,…
    Mon but c’est de savoir quels sont les critères pertinents à retenir pour déterminer le critère consommation électrique, que je voudrais donc pouvoir simuler à partir des autres informations. Ceci afin de définir une équation comprenant plusieurs critères (superficie ?, nombre de personne ?,…) qui donnerait donc la consommation électrique.
    Le souci c’est que je ne sais pas comment m’y prendre, j’ai commencé par installer XLSTAT (un add-on excel) qui me sort des données comme la matrice de corrélation, les bornes d’intervalles de confiance, coefficient de détermination, etc… mais je ne sais pas trop quoi en faire.

    Si quelqu’un pouvait m’aiguiller ce serait super sympa !

    Merci par avance !

  2. #2
    Rédacteur/Modérateur

    Précisons les données.
    Tu as 400 entrées : Donc 400 familles, ou plutôt, pour utiliser un terme fréquent en statistiques, 400 individus (un individu = une famille ou un foyer).
    100 critères : pour chaque individu, tu as 100 informations.
    Et parmi les 100 informations en question, il y a une information qui est 'à part', c'est la consommation électrique.

    Et ce que tu veux, c'est bâtir un 'modèle' qui permet de deviner la consommation électrique d'un foyer à partir des 99 autres valeurs. Avec dans l'idée, si j'ai un 401ème individu qui arrive, si je connais les 99 critères autres, je vais pourvoir estimer sa consommation électrique.

    Quand tu as un problème du même genre avec seulement 2 variables (une variable à estimer, et une variable explicative), tu connais certainement la méthode des moindres carrés. Ca permet de trouver la droite qui correspond le mieux au nuage de points.
    Ici tu as 99 variables explicatives au lieu d'une seule. Mais la méthode des moindres carrés continue de marcher. Dans Excel (pas besoin de XLStat), la fonction en question s'appelle DROITEREG (ou LINEST dans la version anglaise). Essaie déjà sur un tableau avec 3 ou 4 variables explicatives et une dizaine d'individus ... parce que ce n'est pas tout simple.
    Et de plus, je n'ai pas vérifié si Excel va accepter 99 variables explicatives, c'est beaucoup. Je n'ai jamais utilisé cette fonction avec plus de 10 ou 20 variables explicatives.

    DroiteReg(), c'est une piste. Il y a des outils beaucoup plus complexes... mais essaie déjà cette option.
    N'oubliez pas le bouton Résolu si vous avez obtenu une réponse à votre question.

  3. #3
    Nouveau Candidat au Club
    Bonjour tbc92 et merci d'avoir pris le temps de me répondre !

    tu as bien fait de reprendre les bons termes ! au moins on sait de quoi on parle et tu as effectivement bien saisi la problématique.

    A une chose prêt peut être, je souhaite savoir si la méthode des moindres carrés va pondérer la pertinence de chaque "information".
    En gros, est-ce que la fonction DroiteReg() va se dire que l'année de construction est aussi importante que la superficie pour déterminer la consommation ? je préférerai pas, car la solution que je cherche idéalement prendrai en compte la corrélation entre les 99 variables explicatives et celle à estimer pour "pondérer" leur impact dans la définition de la droite (en réalité je cherche meme à établir une courbe car ca serait plus pertinent semble t-il pour ce modèle)
    J'espère avoir été assez clair, car ce sont des notions floues pour moi et je n'ai pas le bon jargon.

    Merci en tous cas, j'attend ton retour

  4. #4
    Responsable Qt & Livres



    Pour une régression linéaire, a priori, toutes les variables sont aussi importantes les unes que les autres : la détermination d'une droite choisit cependant des coefficients appropriés ; si l'année de construction n'a aucun impact, son coefficient sera de zéro.

    À ce niveau, fais attention aux plages de valeur des variables : pour une régression linéaire, mieux vaut avoir des valeurs centrées réduites (moyenne nulle, écart-type unitaire). Sinon, une variable qui a une grande plage risque d'avoir un impact énorme sur le modèle entraîné, même si elle ne prédit pas grand-chose.
    Vous souhaitez participer aux rubriques Qt ou PyQt (tutoriels, FAQ, traductions), HPC ? Contactez-moi par MP.

    Créer des applications graphiques en Python avec PyQt5
    Créer des applications avec Qt 5.

    Pas de question d'ordre technique par MP !

  5. #5
    Rédacteur/Modérateur

    Exceptionnellement, je ne suis pas d'accord avec Dourouc05.
    Si certaines valeurs varient entre 30 et 180 (des mètres carrés par exemple), et d'autres entre 1 et 5 (des nombres de personne par foyer par exemple), ce n'est pas un problème. La méthode des moindres carré gère cela parfaitement.

    Il peut y avoir des corrélations entre les variables. Par exemple si tu as la surface et le nombre de pièces, ces 2 variables sont fortement corrélées. Pas de problème.

    La fonction DROITEREG va en fait te donner :
    - 99 coefficients : Consommation = coeff1 * surface + coeff2 * nbre_de_pieces + coeff3 * nbre_personnes_dans_le_foyer + coeff4*annee_construction_immeuble ... ... + constante + epsilon
    C'est bien une combinaison des 99 paramètres. Ce n'est pas 99 analyses indépendantes les unes des autres, et il faudrait ensuite faire une espèce de moyenne.

    Et la fonction DROITEREG va aussi te donner une 2ème série de 99 indicateurs : ce sont en fait des indicateurs de fiabilité. Je ne me souviens plus des définitions précises, mais à une époque, l'aide de la fonction Droitereg expliquait cela très bien. Ca doit toujours être vrai.

    Je te redis : essaie déjà de jouer avec 2 ou 3 variables, et une dizaine d'individus. Pour comprendre comment ça marche. Tu auras aussi besoin de la fonction index() pour récupérer le tableau de 99x2 valeurs, et pas seulement la 1ère valeur de ce tableau.

    Ici, tu as 100 variables pour chaque individu. C'est beaucoup. Il y a très certainement des variables très corrélées entre elles. Et tu as seulement 400 individus. Tu as des risques d'avoir des petits accidents.

    Essaie d'utiliser cette fonction DroiteReg(), ... on verra dans un second temps comment faire des petites expériences, pour voir si le modèle raconte n'importe quoi, ou s'il tient la route.
    N'oubliez pas le bouton Résolu si vous avez obtenu une réponse à votre question.

  6. #6
    Nouveau Candidat au Club
    Ok ! merci à tous les deux pour vos réponses ! je test droitereg et je reviens vers vous
    c'est sympa d'avoir pris le temps de bien expliquer comme ca merci !