Bonjour,

Je travaille avec une base de donnée rassemblant des situations atmosphériques caractérisées par des profils verticaux de température (différentes valeurs de température à différentes altitudes) pour différentes longitudes, latitudes, et instants (je simplifie le problème en ne parlant que de la température). Ces situations sont classées par types de masse d'air homogène en température.

J'échantillonne cette base de donnée (i.e. la population ici) pour obtenir une base de données comportant un nombre limité de situations atmosphériques (i.e., l'échantillon ici). En gros, la taille de la population est de 100 000 situations au minimum, et la taille de l'échantillon de 2000/3000.

La méthode d'échantillon utilisée n'est ni aléatoire ni ne cherche à conserver la représentativité statistique de la population en priorité. Elle est dédiée à optimiser une reconnaissance de proximité/de forme entre les profils verticaux de températures de deux situations atmosphériques données. On préfère donc avoir des situations "espacées" régulièrement dans l'échantillon, au lieu de chercher à conserver la représentativité statistique de la population.

Toutefois, je désire caractériser la représentativité statistique de l'échantillon vis-à-vis de sa population à travers un score qui résume grosso modo cette propriété (bien qu'elle ne soit loin d'être efficace qu'un graphique). Mon but serait d'obtenir un score entre 0 et 1 pour pouvoir mettre ce score dans un diagramme en radar avec d'autres propriétés, afin de pouvoir comparer rapidement différentes échantillons obtenus selon différentes méthodes/configurations, avant de regarder plus en détails à l'aide d'un graphique si besoin est.

Pour réduire la complexité du problème à plusieurs dimensions, "j'enlève" la dimension altitude en cherchant à caractériser indépendamment la représentativité statistique de l'échantillon via la température de surface ou la température moyenne dans différentes couches de pression.
Pour simplifier le problème dans ce forum, disons que mon problème ici se réduira à caractériser la représentativité statistique de l'échantillon vis-à-vis de sa population pour la variable température de surface uniquement.

Je dispose donc d'une série de températures de la surface terrestre à différentes longitude/latitudes et à différents instants, classées par type de masse d'air homogène en température. A partir de cette série de valeurs, je calcule des statistiques habituelles (moyennes, déviations standards, ...) dans chacune des 8 masses d'air dont je dispose.
Pour la population et l'échantillon, je dipose pour chacun des deux cas, une série de 8 valeurs moyennes et mon idée était de charcher à comparer population et échantillon à partir de ces deux séries de 8 valeurs moyennes.

Vu que les situations atmosphériques ne sont pas indépendantes les unes des autres, la variable continue de température de surface n'est pas indépendante, du coup je ne sais pas quel test statistique utiliser. Même si cette variable (et les autres variables que je ne cite pas ici) n'ont pas une variation purement gaussienne, on peut considérer significativement que l'hypothèse qu'elle suit une loi gaussienne ne pose pas de problème ici (du moins, dans chaque type de masse d'air).

Je me suis aidé, par exemple de ce site là :
http://libguides.library.kent.edu/SPSS/OneSampletTest
ou
http://www.biochemia-medica.com/cont...atistical-test
pour savoir quels tests je pourrais utiliser.

Le test de Student (One Sample t Test) serait a priori à mettre de côté du fait de la non indépendance. J'ai vu qu'il y avait le test binomial par exemple qui serait a priori mieux adapté à mon problème que le test de Student, mais j'avoue que je ne suis pas sûr de la manière de traiter le problème.
Si vous savez quel test statistique ou quelle méthode serait le mieux adapté à mon problème (s'il y a en a une qui a suffisamment de sens), je suis preneur ^^

Merci d'avance.