Estimateur sondage deux degrés et bootstrap

**Gael_f** · 02/07/2015, 16h11

Bonjour,

Après de nombreuses recherches dans la littérature et les forums, je me décide à poster car je bloque toujours sur mon problème.
Avant toutes choses, je ne suis pas statisticien de formation (mais loin d'être statophobe), merci de votre indulgence malgré les bêtises que je risque de raconter cool smiley.

Problème général: l'estimateur bootstrap du total et de la moyenne que je calcul ne converge pas vers les estimateurs calculés sur l'echantillon. Il existe une surestimation/sousestimation selon les strates.

Contexte et manipulation effectuées:

J'ai réalisé un sondage à deux degrés sur une variable quantitative. Les unités primaires sont des marées, les unités secondaires des "coups de chalut" ou plus communément "opérations de pêche" et les variables mesurées sont les quantités (kg) de poisson rejetées et conservées par les navires pour chaque marée et chaque coup de chalut.
Le sondage est également stratifié. Bref pour chaque strate, je cherche à calculer principalement deux estimateurs:
- l'estimateur de la moyenne de la quantité rejetée par opération de pêche (odp)
- l'estimateur du total de la quantité rejetée

Le total: je procède par élevation à deux niveaux selon la méthodologie décrite ici page 5 du pdf: [archimer.ifremer.fr]
Il s'agit de l'estimateur du ratio: on éleve à l'échelle de la première unité primaire (UP) en pondérant par l'inverse du taux d'echantillonnage de chaque UP et ensuite, on éleve au reste de la population avec une variable auxiliaire suposée corrélée (dont je dispose).

La moyenne: je calcul une moyenne des quantités rejetées par ODP que je pondère par le taux d'echantillonnage de chaque marée pour prendre en compte les déséquilibre d'echantillonnage entre les marées (présents) et "éviter" les "cluster effects"

Le problème se corse lorsque j'attaque le bootstrap afin de calculer des intervalles de confiance. Le calcul analytique a été écarté car par expérience, il s'avère que les quantités rejetées possèdent des distribution de nature très différentes en fonction des strates, voir des UP considérées.

Or, je n'arrive pas à faire converger l'estimateur bootstrap du total et de la moyenne (pour certaines strates) vers l'estimateur de l'echantillon.

Jusqu'ici, ma procédure bootstrap est la suivante:
1) tirage aléatoire avec remise d'un échantillon de taille m parmi les UP échantillonnées (m= nb d'UP echantillonénes)
2) parmi les UP tirées, tirage aléatoire avec remise de taille ni parmi les US echantillonénes (ni = nb d'US dans l'UP i)
3) calcul des poids bootstrap associés à chaque US et calcul des estimateurs du total (cf éléevation) et de la moyenne pondérée sur la base des US tirées
4) répétition de l'opération B=1000 fois
5) calcul des estimateurs bootstrap Ebs = moyenne des 1000 itérations

Mes recherches sur le bootstrap appliqué au sondage à deux degrés m'ont mené vers les travaux de Rao & Wu (entre autres) proposant une technique que j'ai testé (rescaling bootstrap) mais dont je peine à comprendre les fondements, les implications et surtout qui ne résout pas mon problème.

J'ai longuement et patiemment vérifié (+ fait vérifier) mes calculs et les erreurs ont été supprimées, je pense donc qu'il s'agit d'une erreur méthodologique. En effet, l'estimateur bootstrap issu d'un sondage à deux degré doit être biaisé ? Ou alors ma procédure de tirage est erronée ? Car d'après ce que j'ai compris, les estimateurs calculés ne sont pas biaisés en théorie.

Bref, je m'excuse par avance de m'être étalé, si quelqu'un peut m'aider, je serais vraiment reconnaissant, je suis dans une sacré impasse.

Merci,

Gaël

Estimateur sondage deux degrés et bootstrap

Probabilités

Discussions similaires

Partager

Partager