Faire un chi 2 ou une regression logistique ?
Bonjour à tous,
Je suis emplis d'un doute...
Mon travail consiste à déterminer et évaluer la qualité d'une base de donnée, issu d'établissement. L'un de mes axes de travail est par exemple l'axe d'exhaustivité, comme par exemple le nombre de manquant qui existe dans cette base.
J'ai calculé sous sas le nombre de donnée manquante par région, par type d'établissement et par forme d'activité. Or, voilà mon problème, comment savoir quelle région/forme d'activité/type d'établissement transmet un nombre anormalement haut de donnée manquante ?
Mon premier réflexe a été de penser "Chi2". C'est à dire que je suis parti du principe que si les régions transmettaient les mêmes données de la même manière, la proportion de manquant devrait être la même dans chaque région et donc :
nombre de donnée(région)/nbr de donnée (total)= nbrdemanquant(région)=nbrdemanquant(total).
A partir de là, je calcule un nombre de manquant théorique pour chaque région en faisant une bête règle de trois, et je fais mon Chi2 = (|Manquant-Observé - Manquant-Théorique|-0.5)² / Manquant-Théorique
Qu'en pensez vous de ma méthode ? J'arrive pas de me défaire de l'idée que je peux faire "mieux" qu'un chi2. Et je me demande s'il n'y a pas une possibilité de faire une régression logistique.
Merci d'avance.