Bonjour a toute et a tous,
Tres heureux de pouvoir parler aujourd'hui. Je travaille actuellement sur un projet personnel qui peut revolutioner le monde de l'aviation/restauration et ai besoin de votre aide. J'ai un dataset de 63k rangees, avec 7 colonnes (plutot simple) jusque la.
Avec ce dataset, je souhaite creer un modele de prediction de "no-shows', c'est a dire que le client reserve, mais ne vient pas. J'ai verifie que mes 6 characteristiques ( Heure, jour,mois, Type de Client, Visites completes, Taille de la table) sont significants (c'est le cas) et je veux desormais creer un modele de prediction de mes valeurs. Pour cela, j'ai code deux modeles ( regression et foret aleatoire) me donnant des resultats catastrophiques.....
Mon hypothese est le desequilibre de mes donnes. Mes deux valeurs cibles ( 'No-show ou show) autrement dit reservations effectuees ou non sont de tailles differentes. 53k données pour la premiere, contre 6000 pour mes no shows. Sur le papier, plutot simple. 63k rangees, 6 characteristiques significantes... mais des modeles qui patinent... Je suis activement a la recherche d'aide non seulement pour mon code, mais aussi si un esprit mathematique peut deceler des erreurs dans ma methode..
Au plaisir!
AlainP
Partager