Précédent   Forum du club des développeurs et IT Pro > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse
 
Outils de la discussion
Publicité
'
Vieux 25/02/2013, 12h19   #1
xavier_dcf
Invité régulier
 
Homme
Étudiant
Inscription : octobre 2012
Messages : 52
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : France

Informations professionnelles :
Activité : Étudiant

Informations forums :
Inscription : octobre 2012
Messages : 52
Points : 5
Points : 5
Par défaut Echantillonnage sur données incomplètes

bonjour,

Je dois faire de la modélisation sur une base de 110 000 000 de données.
Je pensais utiliser toutes les données puisque disponibles et que j'ai réussi à importer la base sous sas , mais j'ai peur que ce soit trop lent.
Donc je cherche maintenant à échantillonner , mais selon "la théorie", on echantillonne quand on cherche à estimer un parametre dans une population et on cherche à faire un echantillon le plus petit possible pour des problèmes de couts de "fabrication "
Or moi il s'agit déjà d'un echantillon (observations de trains sur un an) qui sont complètes et je ne cherche pas à estimer un paramètre . Du coup, je ne sais pas trop comment m'y prendre (pour la taille surtout). Est ce que je choisis la taille comme je veux? Je pensais prendre 100 000 données par echantillonage aléatoire en utilisant comme strate le jour ( et peut etre la region en plus)

Merci si quelqu'un a une idée.
xavier_dcf est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 26/02/2013, 12h14   #2
datametric
Rédacteur
 
Homme Stéphane Colas
Consultant et formateur SAS et Cognos
Inscription : avril 2009
Messages : 2 315
Détails du profil
Informations personnelles :
Nom : Homme Stéphane Colas
Âge : 40
Localisation : France, Yvelines (Île de France)

Informations professionnelles :
Activité : Consultant et formateur SAS et Cognos
Secteur : Conseil

Informations forums :
Inscription : avril 2009
Messages : 2 315
Points : 5 578
Points : 5 578
tu veux faire de l'ARIMA ?
une sélection aléatoire avec les strates jour/région peut être intéressant. mais tu veux faire des analyses de panels ?
__________________
N'oubliez pas de cliquer sur lorsque votre problème est réglé !

Moteur de recherche dans les papiers SAS
datametric est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 26/02/2013, 17h33   #3
xavier_dcf
Invité régulier
 
Homme
Étudiant
Inscription : octobre 2012
Messages : 52
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : France

Informations professionnelles :
Activité : Étudiant

Informations forums :
Inscription : octobre 2012
Messages : 52
Points : 5
Points : 5
Par défaut suite

Bonjour,

Je souhaite modeliser une variable( la ponctualité) par rapport à d'autres . Je pensais faire de l'anova ( ou modèle linéaire généralisé) + peut etre acp/acm pour decrire
Je pourrais utiliser toute la base ( et diviser en deux echantillons : apprentissage + test), c'est une base d'observations de 111 000 000 de donnes sur un an. Mais les calculs sont lents.
Donc je reflechis à échantillonner ( en utilisant comme strate : le jour et la region)
xavier_dcf est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 26/02/2013, 22h36   #4
datametric
Rédacteur
 
Homme Stéphane Colas
Consultant et formateur SAS et Cognos
Inscription : avril 2009
Messages : 2 315
Détails du profil
Informations personnelles :
Nom : Homme Stéphane Colas
Âge : 40
Localisation : France, Yvelines (Île de France)

Informations professionnelles :
Activité : Consultant et formateur SAS et Cognos
Secteur : Conseil

Informations forums :
Inscription : avril 2009
Messages : 2 315
Points : 5 578
Points : 5 578
Citation:
Je souhaite modeliser une variable( la ponctualité) par rapport à d'autres
la ponctualité des trains ?

Citation:
Mais les calculs sont lents.
Y a pas que les calculs alors
__________________
N'oubliez pas de cliquer sur lorsque votre problème est réglé !

Moteur de recherche dans les papiers SAS
datametric est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/02/2013, 10h47   #5
xavier_dcf
Invité régulier
 
Homme
Étudiant
Inscription : octobre 2012
Messages : 52
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : France

Informations professionnelles :
Activité : Étudiant

Informations forums :
Inscription : octobre 2012
Messages : 52
Points : 5
Points : 5
Par défaut suite

oui la ponctualité des trains. ( ex 5 =5min de retard!=)
Il s'agit de 111 000 000 observations(retard ou avance par rapport à l'heure théorique) de trains ,relevés à 3200 points de passage sur le réseau.
Comme j'ai préparé toute la base en mettant face aux observations les variables qui les interessent : meteo , type de train , infra....
je voulais faire mes analyses sur toute la base. Cependant , meme si c'est possible , c'est pas pratique. Donc je souhaite réduire...
après recherche on m'a proposé trois solutions:
-soit utiliser la moyenne de ponctualité(retard) par point de passage : donc 3200 moyennes. mais la moyenne déforme l'information . ( et puis il faudrait au moins séparer par type de train ( tgv..) car ca influence beaucoup.
-au lieu d'utiliser la moyenne par point de passage : modeliser la ponctualité par point de passage ( trouver la loi approchée) et utiliser l'espérance. Mais là aussi il faudrait modeliser par point de passage et type de train. Et puis il y a pas de test d'ajustement à une loi du khi deux sur sas , comment trouver les lois en série?
- faire un echantillonnage aléatoire en utilisant comme strates : la région , le type de train, et le jour de l'année. Ca me parait le plus simple et le plus correct. Après il faut definir la taille.
Merci
xavier_dcf est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse
Outils de la discussion

Navigation rapide


Fuseau horaire GMT +2. Il est actuellement 01h29.


 
 
 
 
Partenaires

Hébergement Web