Apariement termes selon % caractères communs : data quality / text Mining

**debdev** · 06/05/2009, 14h09

Bonjour,

J'ai de nouveau besoin de votre aide. Il se peut que ce problème est déjà plus ou moins été traité: je viens de commencer mes recherches sur internet et je vais continuer en parallèle de ce topic.

Je vous explique la situation:
- j'ai une table sas qui regroupe environ 4 millions de lignes et une seule colonne
- chaque cellule est composée d'un mot ou d'une expression
- le but est de regrouper ces termes pour obtenir les fréquences d'apparition sauf qu'il y a des erreurs de saisie ou bien des détails qui ne servent à rien

exemple - erreur de saisie:
bronchite à la ligne 1, bronchit à la ligne 2, bronchitte à la ligne 3
=> regrouper ces termes en un terme final bronchite

exemple - détails qui ne servent à rien:
algie de la main, algie du pied
=> regrouper ces termes en un terme final algie

existe t il un moyen d'analyser le pourcentage de caractères communs entre les termes en tenant compte de l'ordre de ces caractères ?
(sous sas ou excel ou access, ce que vous voulez tant que c'est pas trop compliqué à implémenter

)

comme j'ai dit plus haut, il y a 4 millions de lignes donc plus le programme sera automatique, mieux ce sera

(surtout que j'ai au total 10 tables du meme genre donc 40 millions de lignes).

je parle ici de termes médicaux mais j'ai aussi le problème pour d'autres types.

est il possible de réaliser cela
- en comparant les 4 millions de termes entre eux ?
- en comparant les 4 millions de termes à une liste prédéfinie de termes finaux (je ne sais pas encore sous quelle forme serait cette liste car je ne sais meme pas s'il est possible d'en obtenir une...) ?

merci d'avance pour vos conseils.

PS: j'ai lu le SUGI 26 page 196 où il parle de codage avec une liste prédéfinie. ça utilise le module SAS/AF. Comment savoir si j'ai ce module dans mon SAS ?

PS: j'ai vu sur certains topics se rapprochant du mien qu'il y a la proc pour faire des clusters. est ce que ça répondrait à mon problème ?

**datametric** · 06/05/2009, 14h33

Salut

C'est du data quality tout ça ou même du text Mining

il existe les fonctions suivantes
http://support.sas.com/onlinedoc/913...a000245948.htm : SOUNDEX Function

http://support.sas.com/onlinedoc/913...a000245949.htm : SPEDIS Function

http://support.sas.com/onlinedoc/913...a002206133.htm : COMPGED Function

http://support.sas.com/onlinedoc/913...a002206137.htm : COMPLEV Function

Oui tu peux avoir une liste valable de terme, ca peut aider pour les comparaisons avec ces fonctions justement.

Stéphane.

**xav2229** · 06/05/2009, 14h52

Salut,

Il ne te reste qu'a refaire l'algo "Jaro-Winkler"

http://fr.wikipedia.org/wiki/Distance_de_Jaro-Winkler
http://fr.wikipedia.org/wiki/Distance_de_Levenshtein

Attention au soundex qui est biaisé car uniquement pour la langue anglaise.

Il y a de nombreuses implémentations avec Java que tu peux utiliser directement depuis l'étape DATA (JavaObj)

Tcho,

Xav

**debdev** · 06/05/2009, 15h00

WAOOW !

Un grand merci à toi. Je vais regarder tout ça.

Pour les listes, je vais essayer d'en trouver pour certains des types de termes que j'ai à traiter mais c'est sur que je n'en aurai pas pour tous.

Encore merci.

Bonne après midi.

PS: Ouais, ça n'a rien à voir avec les stats tout ça, alors que chuis en stage de stat ... vivement que je trouve ailleurs !

PS2: je viens de voir la 2ème réponse. je vais regarder aussi tout ça. c'est très gentil à vous de me proposer des liens, ça me fait gagner bcp de temps

**debdev** · 07/05/2009, 10h31

bonjour à tous!

me revoilà ...

j'ai donc lu les différents docs indiqués ci dessus.

je vais utiliser la fonction complev qui se base sur la distance de levenshtein (la fonction compged qui calcule la distance généralisée semble plus performante mais je suis pas sure que mon ordi suive ...).

je suis donc en train de faire des tests.

quand je fais:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
data TestGroupe;
	set Global;
	id=_N_;
run;
 
data Template;
	set Template;
	id=_N_;
run;
 
data mixSourceTemplate;
	merge TestGroupe Template;
	by id;
run;
 
data DistDiag;
	set mixSourceTemplate;
	array CompareData {2} var1 var2;
	compdist=complev(CompareData[1],CompareData[2]);
run;

ça me calcule
- la distance entre var1 de la ligne 1 et var2 de la ligne 1
- la distance entre var1 de la ligne 2 et var2 de la ligne 2
- la distance entre var1 de la ligne 3 et var2 de la ligne 3
- la distance entre var1 de la ligne n et var2 de la ligne n

Mais le truc, c'est que je voudrais que ça me calcule
- la distance entre var1 de la ligne 1 et var2 de la ligne 1
- la distance entre var1 de la ligne 1 et var2 de la ligne 2
- la distance entre var1 de la ligne 1 et var2 de la ligne 3
- la distance entre var1 de la ligne 1 et var2 de la ligne n
- la distance entre var1 de la ligne 2 et var2 de la ligne 1
- la distance entre var1 de la ligne 2 et var2 de la ligne 2
- la distance entre var1 de la ligne 2 et var2 de la ligne 3
- la distance entre var1 de la ligne 2 et var2 de la ligne n
...
donc toutes les lignes avec toutes les colonnes

est ce qu'un tableau à 2 dimensions serait un élément de réponse ?
ou bien faut il utiliser 2 boucles avec i et j ?
ou bien les 2 ?
ou bien aucun des 2 ?
ou bien retain ?
ou bien lag ?

Merci de votre aide.

**debdev** · 07/05/2009, 10h54

je viens d'imaginer autre chose.

Je transpose ma table Template pour n'avoir qu'une seule ligne et pleins de colonnes (-> quelle est la limite du nombre de colonnes dans sas ?)

Je fusionne ma table transposée avec la 1ère observation de ma table Source.
Je fais une boucle en comparant:
- colonne 1 (=1ère observation de ma table Source) à colonne 2 (colonne 1 du template)
- colonne 1 (=1ère observation de ma table Source) à colonne 3 (colonne 2 du template)
...

puis idem avec toutes les autres observations de ma table Source.

Qu'en pensez vous ? (au niveau performance)

Apariement termes selon % caractères communs : data quality / text Mining

SAS STAT

Discussions similaires

Partager

Partager