Bonjour,
Je rencontre un problème avec mon modèle de prédiction.
Après avec validé mes composantes principes corrélées avec la variable cible (SurvivalTime), je me suis aperçu qu'une variable corrélée (CenterID) est fortement multicolinéraire avec d'autres variables ce qui ajoute un biais sévère dans mon modèle de prédiction.
J'ai testé :
- Cox (C-index CV 0.6174 ± 0.0461) : Stable mais limité par la linéarité.
- LASSO (C-index CV 0.6320 ± 0.0725, penalizer=0.1) : Meilleure performance CV, mais biaisé par CenterID_1 (coefficient -0.3336).
- RSF (C-index CV 0.6058 ± 0.0438) : Surajustement sévère, même avec interactions (PCA_1_CenterID, Tstage_CenterID).
- GBS initial (C-index CV 0.5724 ± 0.0486) : Surajustement marqué.
- GBS simplifié (C-index CV 0.6211 ± 0.0704, Tstage, Nstage, PCA_1, CenterID_1) : Réduction du surajustement, mais stagnante.
- Modèles par centre (C-index ~0.59) : Hétérogénéité confirmée comme obstacle.
- Autres : Stratification par CenterID (C-index 0.5814), regroupement de HistologyID_2.
Le meilleur C-index que j'ai obtenu sur Cox est : C-index Cox avec PCA : 0.68. Hors je dois atteindre 0,77 environ avant d'utiliser le modèle de prédiction sur les imageres radiologique + SCNN3D.
Je précise qu'il y a une forte différence de survie entre le centre 1 et 2 (écart de 600 jours environ, censure 45.07% vs 24.11%). Honnêtement je bloque car je n'arrive pas à contrôler le biais de CenterID. Ma question :
Comment mieux contrôler le biais de CenterID pour améliorer le C-index tabulaire ?
Avez-vous des suggestions pour :
- Gérer le biais multi-site (e.g., normalisation par centre, modèles mixtes) ?
- Optimiser les modèles non linéaires (RSF, GBS) sans surajustement ?
- Préparer les NPZ pour SCNN3D (prétraitement, intégration des données tabulaires) ?
Je vous remercie pour votre aide !![]()
Partager