IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Calcul scientifique Python Discussion :

Contrôle d'un biais sévèrement influent


Sujet :

Calcul scientifique Python

  1. #1
    Membre à l'essai
    Homme Profil pro
    Étudiant
    Inscrit en
    Avril 2025
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 30
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Avril 2025
    Messages : 5
    Par défaut Contrôle d'un biais sévèrement influent
    Bonjour,

    Je rencontre un problème avec mon modèle de prédiction.

    Après avec validé mes composantes principes corrélées avec la variable cible (SurvivalTime), je me suis aperçu qu'une variable corrélée (CenterID) est fortement multicolinéraire avec d'autres variables ce qui ajoute un biais sévère dans mon modèle de prédiction.

    J'ai testé :

    • Cox (C-index CV 0.6174 ± 0.0461) : Stable mais limité par la linéarité.
    • LASSO (C-index CV 0.6320 ± 0.0725, penalizer=0.1) : Meilleure performance CV, mais biaisé par CenterID_1 (coefficient -0.3336).
    • RSF (C-index CV 0.6058 ± 0.0438) : Surajustement sévère, même avec interactions (PCA_1_CenterID, Tstage_CenterID).
    • GBS initial (C-index CV 0.5724 ± 0.0486) : Surajustement marqué.
    • GBS simplifié (C-index CV 0.6211 ± 0.0704, Tstage, Nstage, PCA_1, CenterID_1) : Réduction du surajustement, mais stagnante.
    • Modèles par centre (C-index ~0.59) : Hétérogénéité confirmée comme obstacle.
    • Autres : Stratification par CenterID (C-index 0.5814), regroupement de HistologyID_2.



    Le meilleur C-index que j'ai obtenu sur Cox est : C-index Cox avec PCA : 0.68. Hors je dois atteindre 0,77 environ avant d'utiliser le modèle de prédiction sur les imageres radiologique + SCNN3D.

    Je précise qu'il y a une forte différence de survie entre le centre 1 et 2 (écart de 600 jours environ, censure 45.07% vs 24.11%). Honnêtement je bloque car je n'arrive pas à contrôler le biais de CenterID. Ma question :

    Comment mieux contrôler le biais de CenterID pour améliorer le C-index tabulaire ?

    Avez-vous des suggestions pour :

    • Gérer le biais multi-site (e.g., normalisation par centre, modèles mixtes) ?
    • Optimiser les modèles non linéaires (RSF, GBS) sans surajustement ?
    • Préparer les NPZ pour SCNN3D (prétraitement, intégration des données tabulaires) ?


    Je vous remercie pour votre aide !

  2. #2
    Membre émérite

    Homme Profil pro
    Ingénieur
    Inscrit en
    Août 2010
    Messages
    665
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Août 2010
    Messages : 665
    Par défaut
    Bonjour,

    Questions très pointues mais aussi pas directement liées à Python (même si je suppose que vous utilisez scikit-learn ou un autre lib python pour faire du machine learning). Si vous avez un problème lié à l'implémentation (du code) vous trouverez certainement de l'aide dans cette section du forum, si le soucis est plus algorithmique à mon avis vous aurez plus de chance du côté d'un sous-forum dédié au sujet du ML.

    J

  3. #3
    Membre à l'essai
    Homme Profil pro
    Étudiant
    Inscrit en
    Avril 2025
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 30
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Avril 2025
    Messages : 5
    Par défaut
    Citation Envoyé par Julien N Voir le message
    Bonjour,

    Questions très pointues mais aussi pas directement liées à Python (même si je suppose que vous utilisez scikit-learn ou un autre lib python pour faire du machine learning). Si vous avez un problème lié à l'implémentation (du code) vous trouverez certainement de l'aide dans cette section du forum, si le soucis est plus algorithmique à mon avis vous aurez plus de chance du côté d'un sous-forum dédié au sujet du ML.

    J
    Super, je vous remercie pour l'information

  4. #4
    Membre éprouvé
    Homme Profil pro
    Vagabong étudiant en annalyse du signal.
    Inscrit en
    Avril 2019
    Messages
    131
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 26
    Localisation : France, Isère (Rhône Alpes)

    Informations professionnelles :
    Activité : Vagabong étudiant en annalyse du signal.
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Avril 2019
    Messages : 131
    Par défaut decorelation
    Salut,

    Je n'ai pas bien saisi le contexte mais de ce que j'ai compris, tu as acces a une serie d'observations O, composee de plusieurs scalaires [o1, ..., on]. Tu cherches a prédire o1 en fonction de [o2, ..., on] ?
    C'est bien cela?

    Le fait que les observations [o2, ..., on] soient correlees n'est pas un probleme en soit et je ne vois pas en quoi ca biaise ton estimation. Apres si tu veux les decoreler lineairement, tu peux utiliser une PCA (ce que tu as fait il me semble) pour justement te projeter dans un espace ou chaque axe est le plus independant possible des autres.

    Il faut que tu definisses mieu ton probleme: Combien d'observations, quelle nature, combien de variables? Et la seulement on pourra t'aiguiller.

Discussions similaires

  1. Réponses: 5
    Dernier message: 24/05/2006, 16h41
  2. [Excel] Injecter du code VBA par le biais d'un fichier *.cvs
    Par llsn dans le forum Macros et VBA Excel
    Réponses: 1
    Dernier message: 18/05/2006, 21h42
  3. Réponses: 4
    Dernier message: 10/04/2006, 17h50
  4. Réponses: 2
    Dernier message: 19/02/2006, 16h08
  5. Réponses: 2
    Dernier message: 07/12/2005, 12h13

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo