Bonjour.

J'ai une étude à faire et je ne sais pas quelle méthodologie conviendrait le mieux. Si quelqu'un pouvait prendre le temps de me conseiller, ce serait vraiment super sympa !



Le sujet et les données

Il s'agit de regarder comment les politiques de prévention de la Covid ont perturbé la prise en charge habituelle d'une autre maladie. Ceci en étudiant une cohorte de plus d'un millions d'individus.

Soit M le mois où l'on repère la maladie que j'étudie. Ce mois change d'un individu i à l'autre, donc c'est une fonction M(i). Ma cohorte est constituée de personnes pour qui cette maladie a été repérée entre Janvier 2011 et Décembre 2022. Pour chaque malade, la cohorte contient un témoin de même âge et sexe. On a des données mensuelles, allant du mois de janvier de l'année avant que la maladie soit repérée, jusqu'en décembre 2022. Par exemple, pour ceux dont la maladie est repérée en avril 2014, on aura les données de janvier 2013 à décembre 2022. Beaucoup de gens décèdent au cours du suivi, davantage les malades que leurs témoins.

Pour chaque individu i, malade ou témoin, je dispose mensuellement de 9 variables binaires X1 à X9. Je note x1(t,i) à x9(t,i) les valeurs binaires observées pour les variables binaires X1 à X9 pour l'individu i au mois t, si cet individu i est encore vivant au mois t. Des études précédentes ont montré que les valeurs prises par X1 à X9 pour l'individu i au mois t dépendent de l'avancement de la maladie, dont mon seul proxy est une fonction non-linéaire du nombre de mois écoulé entre le mois M(i) de répérage de la maladie et le mois t actuel.



Ce que je cherche à tester

Pour la question de recherche que je me pose, en gros mon hypothèse nulle H0 serait que l'odd-ratio OR(X1|t-M,X2,...,X9) de X1 pour les malades relativement à leur témoin, sachant leur mois de repérage M et les valeurs observées pour X1 à X9, soit indépendant du mois t.

L'hypothèse alternative H1 serait que l'odd-ratio OR(X1|t-M,X2,...,X9) de X1 pour les malades relativement à leur témoin, sachant leur mois de repérage M et les valeurs observées pour X1 à X9, soit significativement plus grand à 95% de confiance lorsque le mois t est postérieur ou égal à mars 2020 que lorsque le mois t est strictement antérieur à mars 2020.



Bref, mon besoin

En gros, j'aurais besoin d'aide svp pour savoir quelle statistique de test faudrait-il ici ? Et quelle est la loi sous H0 que suivrait cette statistique de test ?

Je pensais à un modèle de Cox incluant le mois de repérage M(i) comme une variable qualitative et une variable dépendante du temps (stsplit sous STATA) indicatrice du fait que le mois actuel soit postérieur ou égal à mars 2020. Feriez-vous pareil ?

On m'a aussi conseillé une régression multiniveau. Mais dans ce cas, comment s'assurer que cela n'introduise pas de biais du fait que la mortalité soit plus élevée chez les malades que leurs témoins et que cette mortalité est connue pour être liée aux variables t-M,X2,...,X9 ?

Retiendriez vous l'une ou l'autre méthode, ou voyez-vous une meilleure solution ?



Je vous remercie d'avance pour l'aide que vous pourriez m'apporter.

Axel Renoux