IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Calcul scientifique Python Discussion :

Contrôle d'un biais sévèrement influent


Sujet :

Calcul scientifique Python

  1. #1
    Membre à l'essai
    Homme Profil pro
    Étudiant
    Inscrit en
    Avril 2025
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Avril 2025
    Messages : 5
    Par défaut Contrôle d'un biais sévèrement influent
    Bonjour,

    Je rencontre un problème avec mon modèle de prédiction.

    Après avec validé mes composantes principes corrélées avec la variable cible (SurvivalTime), je me suis aperçu qu'une variable corrélée (CenterID) est fortement multicolinéraire avec d'autres variables ce qui ajoute un biais sévère dans mon modèle de prédiction.

    J'ai testé :

    • Cox (C-index CV 0.6174 ± 0.0461) : Stable mais limité par la linéarité.
    • LASSO (C-index CV 0.6320 ± 0.0725, penalizer=0.1) : Meilleure performance CV, mais biaisé par CenterID_1 (coefficient -0.3336).
    • RSF (C-index CV 0.6058 ± 0.0438) : Surajustement sévère, même avec interactions (PCA_1_CenterID, Tstage_CenterID).
    • GBS initial (C-index CV 0.5724 ± 0.0486) : Surajustement marqué.
    • GBS simplifié (C-index CV 0.6211 ± 0.0704, Tstage, Nstage, PCA_1, CenterID_1) : Réduction du surajustement, mais stagnante.
    • Modèles par centre (C-index ~0.59) : Hétérogénéité confirmée comme obstacle.
    • Autres : Stratification par CenterID (C-index 0.5814), regroupement de HistologyID_2.



    Le meilleur C-index que j'ai obtenu sur Cox est : C-index Cox avec PCA : 0.68. Hors je dois atteindre 0,77 environ avant d'utiliser le modèle de prédiction sur les imageres radiologique + SCNN3D.

    Je précise qu'il y a une forte différence de survie entre le centre 1 et 2 (écart de 600 jours environ, censure 45.07% vs 24.11%). Honnêtement je bloque car je n'arrive pas à contrôler le biais de CenterID. Ma question :

    Comment mieux contrôler le biais de CenterID pour améliorer le C-index tabulaire ?

    Avez-vous des suggestions pour :

    • Gérer le biais multi-site (e.g., normalisation par centre, modèles mixtes) ?
    • Optimiser les modèles non linéaires (RSF, GBS) sans surajustement ?
    • Préparer les NPZ pour SCNN3D (prétraitement, intégration des données tabulaires) ?


    Je vous remercie pour votre aide !

  2. #2
    Membre émérite

    Homme Profil pro
    Ingénieur
    Inscrit en
    Août 2010
    Messages
    662
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Août 2010
    Messages : 662
    Par défaut
    Bonjour,

    Questions très pointues mais aussi pas directement liées à Python (même si je suppose que vous utilisez scikit-learn ou un autre lib python pour faire du machine learning). Si vous avez un problème lié à l'implémentation (du code) vous trouverez certainement de l'aide dans cette section du forum, si le soucis est plus algorithmique à mon avis vous aurez plus de chance du côté d'un sous-forum dédié au sujet du ML.

    J

  3. #3
    Membre à l'essai
    Homme Profil pro
    Étudiant
    Inscrit en
    Avril 2025
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Avril 2025
    Messages : 5
    Par défaut
    Citation Envoyé par Julien N Voir le message
    Bonjour,

    Questions très pointues mais aussi pas directement liées à Python (même si je suppose que vous utilisez scikit-learn ou un autre lib python pour faire du machine learning). Si vous avez un problème lié à l'implémentation (du code) vous trouverez certainement de l'aide dans cette section du forum, si le soucis est plus algorithmique à mon avis vous aurez plus de chance du côté d'un sous-forum dédié au sujet du ML.

    J
    Super, je vous remercie pour l'information

Discussions similaires

  1. Réponses: 5
    Dernier message: 24/05/2006, 15h41
  2. [Excel] Injecter du code VBA par le biais d'un fichier *.cvs
    Par llsn dans le forum Macros et VBA Excel
    Réponses: 1
    Dernier message: 18/05/2006, 20h42
  3. Réponses: 4
    Dernier message: 10/04/2006, 16h50
  4. Réponses: 2
    Dernier message: 19/02/2006, 15h08
  5. Réponses: 2
    Dernier message: 07/12/2005, 11h13

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo