Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 09/05/2011, 14h56   #1
Invité de passage
 
Inscription : janvier 2011
Messages : 10
Détails du profil
Informations forums :
Inscription : janvier 2011
Messages : 10
Points : 3
Points : 3
Par défaut Calcul de distances (géographiques)

Bonjour,

J'ai besoin d'aide pour écrire un programme sur SAS car je ne parviens pas en m'en sortir toute seule.
En fait, je dispose de 800 bassins de vie (répondant à des critères précis). Pour chaque bassin de vie (i), je dispose de coordonnées géographiques : un bassin de vie (i) est associé à un point (i) ayant les coordonnées {latitude xi ; longitude yi}.
Je souhaite calculer la distance entre chaque point et son plus proche voisin. NB/ Distance euclidienne donnée par la formule : Dij = RACINE [ (xi – xj)² + (yi – yj)² ].

Je pense que je dois calculer les distances entre chaque point. Puis, pour chaque point i, identifier le point j avec qui la distance est la plus faible. Mais, je ne sais pas comment m'y prendre sans rentrer dans une usine à gaz!
Peut-être une personne parmi vous a-t-elle écrit un programme répondant à une telle question?
En vous remerciant par avance,
Claudine

NB/ Je ne suis pas sûre que mon message soit bien placé (sas stat)... mais j'avais un message d'erreur quand j'arrivais sur la page (sas macro).
Felizzy est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/05/2011, 15h08   #2
Membre Expert
 
Avatar de MEGAMIND2
 
Homme Brice Beare
Paris
Inscription : janvier 2011
Messages : 956
Détails du profil
Informations personnelles :
Nom : Homme Brice Beare
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Paris

Informations forums :
Inscription : janvier 2011
Messages : 956
Points : 1 366
Points : 1 366
Salut,
On peut voir un échantillon de ta donnée?
ps: C'est de la recherche opérationnelle ça!
MEGAMIND2 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/05/2011, 15h22   #3
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Il faudrait regarder du côté de la proc DISTANCE.
Avant son invention, j'avais dû coder des choses de ce genre pour faire du lissage géographique (donc pas de recherche op, Brice) : a priori c'est plus simple à coder en utilisant les produits cartésiens de la proc SQL.
Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
DATA work.points ;
  INPUT id x y ;
DATALINES ;
1 3 4
2 3 5
3 4 3
4 -2 -1
5 -3 -3
6 -2 -2
;
RUN ;
DATA work.bassins ;
  INPUT id $ x y ;
DATALINES ;
A 1.5 1.5
B 0 0
C -4 -1
;
RUN ;
PROC SQL ;
 CREATE TABLE work.rattachements AS
  SELECT a.id AS id_point, b.id AS id_bassin,
             SQRT((a.x-b.x)**2+(a.y-b.y)**2) AS distance
  FROM work.points AS a,
          work.bassins AS b
  GROUP BY a.id
  HAVING distance=MIN(distance)
  ;
QUIT ;
Par contre la solution SQL sera forcément assez lente d'emploi, donc si tu peux optimiser avec une proc DISTANCE (si elle répond à ton besoin) c'est toujours ça de pris.
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/05/2011, 15h41   #4
Invité de passage
 
Inscription : janvier 2011
Messages : 10
Détails du profil
Informations forums :
Inscription : janvier 2011
Messages : 10
Points : 3
Points : 3
Je vais essayer via la proc SQL car j'ai regardé la proc DISTANCE et à ma première lecture (trop rapide cependant), cela me paraissait un peu compliqué...

Sinon, concernant un extrait :

_N_ ; BV ; Long ; Lat
1 ; 10033 ; 0.08168 ; 0.84215
2 ; 1004 ; 0.094664 ; 0.802987

Etc.

Je m'y mets de ce pas...
Felizzy est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/05/2011, 16h25   #5
Invité de passage
 
Inscription : janvier 2011
Messages : 10
Détails du profil
Informations forums :
Inscription : janvier 2011
Messages : 10
Points : 3
Points : 3
Me-revoici,

Alors, j'ai tapé la PROC SQL. Par contre, la distance minimale est chaque fois égale à 0. Ce qui est logique car le fichier "points" et le fichier "bassins" contiennent les mêmes informations. Du coup, la distance est minimale entre le bassin de vie et lui-même... (je ne sais pas si je suis très claire).

Mais bon, j'ai bidouillé. Comme je ne connais pas du tout l'écriture SQL, j'ai juste enlevé la dernière phrase "HAVING distance=MIN(distance)". Et j'ai eu bien sûr un message d'erreur. Cependant, le fichier en sortie contient toutes les distances par bassin. Et je n'ai plus qu'à faire un PROC MEANS pour identifier les distances minimales (non nulles) par bassin.

En tout cas, merci beaucoup pour votre aide,
Claudine
Felizzy est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/05/2011, 16h28   #6
Nouveau Membre du Club
 
Homme Gaëtan
Inscription : avril 2011
Messages : 29
Détails du profil
Informations personnelles :
Nom : Homme Gaëtan
Localisation : France

Informations forums :
Inscription : avril 2011
Messages : 29
Points : 26
Points : 26
si les identifiants des "points" et des "bassins" sont les mêmes tu peux simplement rajouter

avant le GROUP BY de ta proc sql.
boutchiwah est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/05/2011, 16h38   #7
Invité de passage
 
Inscription : janvier 2011
Messages : 10
Détails du profil
Informations forums :
Inscription : janvier 2011
Messages : 10
Points : 3
Points : 3
... du coup, l'écriture est bien plus propre! Merci!
Felizzy est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/05/2011, 17h18   #8
Membre Expert
 
Avatar de MEGAMIND2
 
Homme Brice Beare
Paris
Inscription : janvier 2011
Messages : 956
Détails du profil
Informations personnelles :
Nom : Homme Brice Beare
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Paris

Informations forums :
Inscription : janvier 2011
Messages : 956
Points : 1 366
Points : 1 366
Une autre approche avec la proc distance:

Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
DATA stock; 
      title 'Stock Dividends'; 
      input compname &$26.  Long Lat 
                            ; 
      datalines; 
   Cincinnati                   8.4    8.2 
   Texas                        7.9    8.9 
   Detroit                      9.7   10.7 
   Orange                       6.5    7.2 
   Kentucky                     6.5    6.9 
   Kansas                       5.9    6.4 
   Union                        7.1    7.5 
   Dominion                     6.7    6.9 
   Allegheny               	    6.7    7.3 
   Minnesota       				5.6    6.1 
   Iowa_Ill       				7.1    7.5 
   Pennsylvania     			7.2    7.6 
   Oklahoma        				6.1    6.7 
   Wisconsin               		5.1    5.7 
   Green           				7.1    7.4 
   ; 
 
run;
 
 
   proc distance DATA=stock method=EUCLID out=dist_euclidienne; 
      var interval(Long Lat); 
      id compname; 
   run; 
 
   proc sql;
   SELECT compname INTO:l separated BY " " FROM dist_euclidienne;
   quit;
 
   DATA dist_euclidienne;
   SET dist_euclidienne;
   array vect(*) &l.;  
   do i=1 TO dim(vect);
   IF vect(i)=0 then vect(i)=.;
   end;
   distance_minimale=min(of &l.);
   IF  missing(distance_minimale) then  distance_minimale=0;
   DROP i;
 
   run;
MEGAMIND2 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 08/06/2011, 18h00   #9
Invité de passage
 
Inscription : janvier 2011
Messages : 12
Détails du profil
Informations forums :
Inscription : janvier 2011
Messages : 12
Points : 3
Points : 3
Bonjour, je ne pense pas que tu puisses appliquer une distance euclidienne à des coordonnées longitudes et Latitudes.

essaye ce code : cela créé la distance 2 a 2 et retient tous les individus (id!!)ayant une distance < à 50km.

Attention c'est tres long...

Tu peux verifier apres tes reponses avec google map (il y a une option distance)
Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
 
%let R = 6378;
%let Pi = 3.14159265358979;
 
 
DATA coord; SET coord 
IF Latitude ne . ;
bool=1;
rang = _N_;
nX=(2/360)*&pi.*Latitude;
nY=(2/360)*&pi.*Longitude;
run;
 
 
DATA coord_b; SET coord; 
IF Latitude ne . ;
bool=1;
nbx = (2/360)*&pi.*Latitude;
nby = (2/360)*&pi.*Longitude;
run;
 
 
 
options compress=yes;
 
%macro distance;
 
%do i=1 %TO xxxxx;   /* indiquer ici le nombre d'observation totale */
 
		proc sql; CREATE TABLE coord&i. AS SELECT a.id, b.id AS idb,
		(&R. * (&Pi./2 - arsin( sin(nbx) * sin(nX) + cos(nby - nY) * cos(nbx) * cos(nX)))) AS distance
		FROM coord AS a, coord_b AS b
		WHERE a.bool = b.bool
		AND rang = &i.
		ORDER BY 1,3;
		quit;
		run;
 
proc append base=coord DATA=coord&i.(WHERE=((distance lt 50) AND (id ne idb)));
run;
 
proc DELETE DATA=coord&i.; run;
%end;
%mend;
 
%distance;
emart est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité Cette discussion est résolue.
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 10h59.


 
 
 
 
Partenaires

Hébergement Web