Tirage régression logistique

**Stepsbysteps** · 31/05/2013, 14h05

Bonjour à tous,

Je dois faire une régression logistique sur un jeu de données avec : 6 707 362 lignes et 10 colonnes.
Sur chaque ligne, j’ai un numéro de prêt avec les caractéristiques du prêt en colonne.
J’observe ce prêt sur plusieurs périodes séparées de 3 mois.

Pour un id de prêt, il y aura donc plusieurs lignes avec une date différente.
Parmi ces lignes, certains ont fait un remboursement anticipé (0 pour non RA, 1 pour RA).

Sachant que pour les 6 707 362 lignes j’ai :
- 85 618 à 1 (RA) soit 1.27% à 1 (RA)
- et le reste à 0 (non RA)

Je pense qu'il semble logique de faire un tirage pour avoir moins de lignes?
J'aimerai quelques avis à ce sujet et notamment comment traiter le fait d'avoir plusieurs lignes correspondant au même prêt et les 1.27% des lignes qui ont fait RA (cf stratification).

Parti du fichier en PJ.

Merci d’avance.

**Guinue** · 01/06/2013, 18h27

Bonjour Step,

Effectivement, avoir le même individu sur plusieurs lignes c'est peu commun, mais ça peut être approprié, tout dépend de ce que tu cherches, de la question à laquelle tu veux répondre...et du sens que cela donne à tes données.

Puis-je donc poser la question ? Que veux-tu prédire ? Le fait d'effectuer un remboursement anticipé ?

Pour ce qui est du tirage au sort des individus, c'est pour l'échantillon d'apprentissage ? Tu peux même décider de sélectionner autant d'individus de chaque. En bio-statistique c'est fréquent, les malades étant (heureusement) souvent moins nombreux que les individu sains. Je te conseillerai par contre de ne pas piocher parmi tes individus extrêmes (au moins pour ceux qui ont RA = "0").

À bientôt, et désolé d'avance si mes réponses sont espacées

**Stepsbysteps** · 02/06/2013, 08h47

Bonjour,

Merci de ta réponse, en faite on prédit un score, et à partir de ce score, on considère ce score fois le montant du prêt comme parti du remboursement anticipé.

Oui pour la modélisation je fait du 80%, 20%

Mais je voudrai faire un tirage déjà sur les 6 millions de ligne pour avoir moins de lignes

Merci

**Guinue** · 05/06/2013, 00h10

Salut,

Bon j'imagine que tu as du avancer... Mais dans ce cas, tu peux considérer chaque ligne comme un individu à part entière. A deux instants différents, un même individu peux avoir deux scores eux aussi différents. Sa propension à rembourser peut varier pour des tas de raisons.

Partant de là, si tu prends un échantillon assez large, on peut se considérer comme protéger par la loi des grands nombres

. Le mieux serait alors de faire tourner une régression logistique sur plusieurs échantillons, de comparer les résultats et de sélectionner le meilleur modèle.

**Stepsbysteps** · 11/06/2013, 17h11

Merci, je vais prendre vos avis en considération pour la suite

Tirage régression logistique

R

Discussions similaires

Partager

Partager