IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Tirage régression logistique


Sujet :

R

  1. #1
    Membre du Club
    Homme Profil pro
    Inscrit en
    Mai 2012
    Messages
    173
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Mai 2012
    Messages : 173
    Points : 67
    Points
    67
    Par défaut Tirage régression logistique
    Bonjour à tous,

    Je dois faire une régression logistique sur un jeu de données avec : 6 707 362 lignes et 10 colonnes.
    Sur chaque ligne, j’ai un numéro de prêt avec les caractéristiques du prêt en colonne.
    J’observe ce prêt sur plusieurs périodes séparées de 3 mois.

    Pour un id de prêt, il y aura donc plusieurs lignes avec une date différente.
    Parmi ces lignes, certains ont fait un remboursement anticipé (0 pour non RA, 1 pour RA).

    Sachant que pour les 6 707 362 lignes j’ai :
    - 85 618 à 1 (RA) soit 1.27% à 1 (RA)
    - et le reste à 0 (non RA)

    Je pense qu'il semble logique de faire un tirage pour avoir moins de lignes?
    J'aimerai quelques avis à ce sujet et notamment comment traiter le fait d'avoir plusieurs lignes correspondant au même prêt et les 1.27% des lignes qui ont fait RA (cf stratification).

    Parti du fichier en PJ.

    Merci d’avance.
    Images attachées Images attachées  

  2. #2
    Membre habitué
    Homme Profil pro
    Analyste
    Inscrit en
    Février 2012
    Messages
    62
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Analyste

    Informations forums :
    Inscription : Février 2012
    Messages : 62
    Points : 143
    Points
    143
    Par défaut
    Bonjour Step,

    Effectivement, avoir le même individu sur plusieurs lignes c'est peu commun, mais ça peut être approprié, tout dépend de ce que tu cherches, de la question à laquelle tu veux répondre...et du sens que cela donne à tes données.

    Puis-je donc poser la question ? Que veux-tu prédire ? Le fait d'effectuer un remboursement anticipé ?

    Pour ce qui est du tirage au sort des individus, c'est pour l'échantillon d'apprentissage ? Tu peux même décider de sélectionner autant d'individus de chaque. En bio-statistique c'est fréquent, les malades étant (heureusement) souvent moins nombreux que les individu sains. Je te conseillerai par contre de ne pas piocher parmi tes individus extrêmes (au moins pour ceux qui ont RA = "0").

    À bientôt, et désolé d'avance si mes réponses sont espacées

  3. #3
    Membre du Club
    Homme Profil pro
    Inscrit en
    Mai 2012
    Messages
    173
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Mai 2012
    Messages : 173
    Points : 67
    Points
    67
    Par défaut
    Bonjour,

    Merci de ta réponse, en faite on prédit un score, et à partir de ce score, on considère ce score fois le montant du prêt comme parti du remboursement anticipé.

    Oui pour la modélisation je fait du 80%, 20%

    Mais je voudrai faire un tirage déjà sur les 6 millions de ligne pour avoir moins de lignes

    Merci

  4. #4
    Membre habitué
    Homme Profil pro
    Analyste
    Inscrit en
    Février 2012
    Messages
    62
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Analyste

    Informations forums :
    Inscription : Février 2012
    Messages : 62
    Points : 143
    Points
    143
    Par défaut
    Salut,

    Bon j'imagine que tu as du avancer... Mais dans ce cas, tu peux considérer chaque ligne comme un individu à part entière. A deux instants différents, un même individu peux avoir deux scores eux aussi différents. Sa propension à rembourser peut varier pour des tas de raisons.

    Partant de là, si tu prends un échantillon assez large, on peut se considérer comme protéger par la loi des grands nombres . Le mieux serait alors de faire tourner une régression logistique sur plusieurs échantillons, de comparer les résultats et de sélectionner le meilleur modèle.

  5. #5
    Membre du Club
    Homme Profil pro
    Inscrit en
    Mai 2012
    Messages
    173
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Mai 2012
    Messages : 173
    Points : 67
    Points
    67
    Par défaut
    Merci, je vais prendre vos avis en considération pour la suite

Discussions similaires

  1. Réponses: 1
    Dernier message: 26/07/2012, 18h07
  2. Régression logistique avec intéractions
    Par joyeux_lapin13 dans le forum SAS STAT
    Réponses: 1
    Dernier message: 27/04/2010, 11h43
  3. régression logistique et graphiques
    Par ebongue dans le forum SAS STAT
    Réponses: 4
    Dernier message: 16/06/2009, 13h54
  4. régression logistique SAS
    Par sandrine_87 dans le forum SAS STAT
    Réponses: 1
    Dernier message: 09/02/2009, 21h01
  5. Réponses: 1
    Dernier message: 17/04/2007, 16h47

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo