Bonjour à tous,
Je dois faire une régression logistique sur un jeu de données avec : 6 707 362 lignes et 10 colonnes.
Sur chaque ligne, j’ai un numéro de prêt avec les caractéristiques du prêt en colonne.
J’observe ce prêt sur plusieurs périodes séparées de 3 mois.
Pour un id de prêt, il y aura donc plusieurs lignes avec une date différente.
Parmi ces lignes, certains ont fait un remboursement anticipé (0 pour non RA, 1 pour RA).
Sachant que pour les 6 707 362 lignes j’ai :
- 85 618 à 1 (RA) soit 1.27% à 1 (RA)
- et le reste à 0 (non RA)
Je pense qu'il semble logique de faire un tirage pour avoir moins de lignes?
J'aimerai quelques avis à ce sujet et notamment comment traiter le fait d'avoir plusieurs lignes correspondant au même prêt et les 1.27% des lignes qui ont fait RA (cf stratification).
Parti du fichier en PJ.
Merci d’avance.
Partager