|
Publicité ' | |||||||||||||||||||||||
|
|
#1 |
|
Invité régulier
![]() Étudiant Inscription : octobre 2012 Messages : 52 ![]() |
bonjour,
Je dois faire de la modélisation sur une base de 110 000 000 de données. Je pensais utiliser toutes les données puisque disponibles et que j'ai réussi à importer la base sous sas , mais j'ai peur que ce soit trop lent. Donc je cherche maintenant à échantillonner , mais selon "la théorie", on echantillonne quand on cherche à estimer un parametre dans une population et on cherche à faire un echantillon le plus petit possible pour des problèmes de couts de "fabrication " Or moi il s'agit déjà d'un echantillon (observations de trains sur un an) qui sont complètes et je ne cherche pas à estimer un paramètre . Du coup, je ne sais pas trop comment m'y prendre (pour la taille surtout). Est ce que je choisis la taille comme je veux? Je pensais prendre 100 000 données par echantillonage aléatoire en utilisant comme strate le jour ( et peut etre la region en plus) Merci si quelqu'un a une idée. |
|
|
00
|
|
|
#2 |
![]() ![]() Stéphane ColasConsultant et formateur SAS et Cognos Inscription : avril 2009 Messages : 2 315 ![]() |
tu veux faire de l'ARIMA ?
une sélection aléatoire avec les strates jour/région peut être intéressant. mais tu veux faire des analyses de panels ?
__________________
N'oubliez pas de cliquer sur lorsque votre problème est réglé !Moteur de recherche dans les papiers SAS |
|
00
|
|
|
#3 |
|
Invité régulier
![]() Étudiant Inscription : octobre 2012 Messages : 52 ![]() |
Bonjour,
Je souhaite modeliser une variable( la ponctualité) par rapport à d'autres . Je pensais faire de l'anova ( ou modèle linéaire généralisé) + peut etre acp/acm pour decrire Je pourrais utiliser toute la base ( et diviser en deux echantillons : apprentissage + test), c'est une base d'observations de 111 000 000 de donnes sur un an. Mais les calculs sont lents. Donc je reflechis à échantillonner ( en utilisant comme strate : le jour et la region) |
|
|
00
|
|
|
#4 | ||
![]() ![]() Stéphane ColasConsultant et formateur SAS et Cognos Inscription : avril 2009 Messages : 2 315 ![]() |
Citation:
Citation:
__________________
N'oubliez pas de cliquer sur lorsque votre problème est réglé !Moteur de recherche dans les papiers SAS |
||
|
00
|
|
|
#5 |
|
Invité régulier
![]() Étudiant Inscription : octobre 2012 Messages : 52 ![]() |
oui la ponctualité des trains. ( ex 5 =5min de retard!=)
Il s'agit de 111 000 000 observations(retard ou avance par rapport à l'heure théorique) de trains ,relevés à 3200 points de passage sur le réseau. Comme j'ai préparé toute la base en mettant face aux observations les variables qui les interessent : meteo , type de train , infra.... je voulais faire mes analyses sur toute la base. Cependant , meme si c'est possible , c'est pas pratique. Donc je souhaite réduire... après recherche on m'a proposé trois solutions: -soit utiliser la moyenne de ponctualité(retard) par point de passage : donc 3200 moyennes. mais la moyenne déforme l'information . ( et puis il faudrait au moins séparer par type de train ( tgv..) car ca influence beaucoup. -au lieu d'utiliser la moyenne par point de passage : modeliser la ponctualité par point de passage ( trouver la loi approchée) et utiliser l'espérance. Mais là aussi il faudrait modeliser par point de passage et type de train. Et puis il y a pas de test d'ajustement à une loi du khi deux sur sas , comment trouver les lois en série? - faire un echantillonnage aléatoire en utilisant comme strates : la région , le type de train, et le jour de l'année. Ca me parait le plus simple et le plus correct. Après il faut definir la taille. Merci |
|
|
00
|
Copyright © 2000-2013 - www.developpez.com