IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Desequilibre dataset modele peu efficace


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Candidat au Club
    Homme Profil pro
    Economiste
    Inscrit en
    Mai 2024
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 24
    Localisation : France, Morbihan (Bretagne)

    Informations professionnelles :
    Activité : Economiste

    Informations forums :
    Inscription : Mai 2024
    Messages : 3
    Par défaut Desequilibre dataset modele peu efficace
    Bonjour a toute et a tous,

    Tres heureux de pouvoir parler aujourd'hui. Je travaille actuellement sur un projet personnel qui peut revolutioner le monde de l'aviation/restauration et ai besoin de votre aide. J'ai un dataset de 63k rangees, avec 7 colonnes (plutot simple) jusque la.

    Avec ce dataset, je souhaite creer un modele de prediction de "no-shows', c'est a dire que le client reserve, mais ne vient pas. J'ai verifie que mes 6 characteristiques ( Heure, jour,mois, Type de Client, Visites completes, Taille de la table) sont significants (c'est le cas) et je veux desormais creer un modele de prediction de mes valeurs. Pour cela, j'ai code deux modeles ( regression et foret aleatoire) me donnant des resultats catastrophiques.....

    Mon hypothese est le desequilibre de mes donnes. Mes deux valeurs cibles ( 'No-show ou show) autrement dit reservations effectuees ou non sont de tailles differentes. 53k données pour la premiere, contre 6000 pour mes no shows. Sur le papier, plutot simple. 63k rangees, 6 characteristiques significantes... mais des modeles qui patinent... Je suis activement a la recherche d'aide non seulement pour mon code, mais aussi si un esprit mathematique peut deceler des erreurs dans ma methode..


    Au plaisir!

    AlainP

  2. #2
    Membre Expert
    Avatar de MPython Alaplancha
    Homme Profil pro
    Paysan à 3 francs six sous
    Inscrit en
    Juin 2018
    Messages
    920
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Pyrénées Orientales (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Paysan à 3 francs six sous
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Juin 2018
    Messages : 920
    Billets dans le blog
    8
    Par défaut
    Bonjour.
    Citation Envoyé par AlainProvist64 Voir le message
    Je suis activement a la recherche d'aide non seulement pour mon code[...]
    Quel est il?
    Quelles aides sollicites-tu?

  3. #3
    Membre Expert
    Profil pro
    Inscrit en
    Septembre 2010
    Messages
    1 539
    Détails du profil
    Informations personnelles :
    Âge : 46
    Localisation : France

    Informations forums :
    Inscription : Septembre 2010
    Messages : 1 539
    Par défaut
    qu'est-ce que tu appelles résultats catastrophiques?

  4. #4
    Candidat au Club
    Homme Profil pro
    Economiste
    Inscrit en
    Mai 2024
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 24
    Localisation : France, Morbihan (Bretagne)

    Informations professionnelles :
    Activité : Economiste

    Informations forums :
    Inscription : Mai 2024
    Messages : 3
    Par défaut
    Citation Envoyé par umfred Voir le message
    qu'est-ce que tu appelles résultats catastrophiques?
    Mon modele a une precision d'environ 20%.....


    2. Mon objectif ici est de créer un modèle de prédiction qui anticipe/prévoit ces « no-shows », en fonction de mes caractéristiques, afin de fixer un niveau optimal de surréservation.
    Après une analyse descriptive, j'ai pu rassembler quelques caractéristiques pour analyser mes données.
    1. Type de client : Régulier, VIP, Membre
    2. Heures d'ouverture : 5 à 6, 6 à 7, 7 à 8, 8 à 9, 9 à 10, 10 à 11, 11+.
    3. Visites effectuées : 1, 2, 3....
    4. taille de la table : 1,2,3,4... c'est-à-dire combien de personnes ont réservé.
    5. Mois : janvier....
    6. Jour : Lundi...

    Ensuite, deux valeurs cibles : Show ou no show.

    Ensuite, beaucoup de questions se posent parce que mon modèle est mauvais pour prédire les absences. Cela vient-il de mes caractéristiques ? Des paramètres de mon modèle ? D'un déséquilibre de l'ensemble des données ?

    En conclusion, je souhaiterai avoir de l'aide pour creer ce modele in-fine. Je peux vous partager avec vous mon code, mon data-set etc etc..!

    Je serais plus qu'heureux de répondre à vos questions.

  5. #5
    Membre Expert
    Profil pro
    Inscrit en
    Septembre 2010
    Messages
    1 539
    Détails du profil
    Informations personnelles :
    Âge : 46
    Localisation : France

    Informations forums :
    Inscription : Septembre 2010
    Messages : 1 539
    Par défaut
    peut-être que les critères que tu utilises ne sont pas suffisamment discriminant ou que ton jeu d'entrainement n'est pas suffisamment étoffé.

  6. #6
    Candidat au Club
    Homme Profil pro
    Economiste
    Inscrit en
    Mai 2024
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 24
    Localisation : France, Morbihan (Bretagne)

    Informations professionnelles :
    Activité : Economiste

    Informations forums :
    Inscription : Mai 2024
    Messages : 3
    Par défaut
    Citation Envoyé par MPython Alaplancha Voir le message
    Bonjour.

    Quel est il?
    Quelles aides sollicites-tu?


    Désolé si j'ai semé la confusion. merci de m'avoir fait confiance et de m'avoir répondu. J'espère que je serai plus clair.

    1. j'ai confondu l'industrie aérienne et l'industrie de la restauration. Je travaille sur l'industrie de la restauration, qui est similaire à l'industrie du transport aérien. Pourquoi ? Ces deux secteurs essaient de faire entrer les gens dans un espace défini (avion ou restaurant) et doivent faire face à des « no-shows », autrement dit les clients réservent, mais ne viennent pas. En réaction, les deux secteurs pratiquent la « surréservation » pour minimiser les risques de perdre une place et maximiser les recettes.

    2. Mon objectif ici est de créer un modèle de prédiction qui anticipe/prévoit ces « no-shows », en fonction de mes caractéristiques, afin de fixer un niveau optimal de surréservation.
    Après une analyse descriptive, j'ai pu rassembler quelques caractéristiques pour analyser mes données.
    1. Type de client : Régulier, VIP, Membre
    2. Heures d'ouverture : 5 à 6, 6 à 7, 7 à 8, 8 à 9, 9 à 10, 10 à 11, 11+.
    3. Visites effectuées : 1, 2, 3....
    4. taille de la table : 1,2,3,4... c'est-à-dire combien de personnes ont réservé.
    5. Mois : janvier....
    6. Jour : Lundi...

    Ensuite, deux valeurs cibles : Show ou no show.

    Ensuite, beaucoup de questions se posent parce que mon modèle est mauvais pour prédire les absences. Cela vient-il de mes caractéristiques ? Des paramètres de mon modèle ? D'un déséquilibre de l'ensemble des données ?

    En conclusion, je souhaiterai avoir de l'aide pour creer ce modele in-fine. Je peux vous partager avec vous mon code, mon data-set etc etc..!

    Je serais plus qu'heureux de répondre à vos questions.

Discussions similaires

  1. Réponses: 1
    Dernier message: 05/04/2017, 17h01
  2. Modèle famille Père/Mère/Enfants un peu complexe
    Par chessperso dans le forum Modélisation
    Réponses: 5
    Dernier message: 22/05/2013, 19h39
  3. Réponses: 1
    Dernier message: 02/02/2010, 17h01
  4. Le modèle MVC *un peu paumée*
    Par Lyuna dans le forum Débuter
    Réponses: 7
    Dernier message: 01/02/2010, 18h13
  5. Un peu de philo sur le controle du model de données
    Par Alec6 dans le forum Architecture
    Réponses: 4
    Dernier message: 25/03/2008, 17h27

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo