-
SOUNDEX
Bonjour ...
Je dois comparer les champs 'Rue' dans deux tables et j'utilise pour cela la fonction SOUNDEX sous SQL SERVER 7.0 installé en Anglais ...
Les rues reconnues comme identiques sont au nombre de 7500 sur 50 000 records ...
Oui mais voilà ... Dans ces 7500 records il y en a un certain nombre où la ressemblance est impossible à détecter ... Je n'ai pas d'exemple sous la main mais c'est flagrant que ce n'est pas la même rue ...
Quand j'utilise la fonction SOUNDEX dans le programme ACL 8 installé en Français et qui permet sans connaître le SQL d'effectuer des statistiques sur des tables au travers de vues, à ce moment là tout est ok et je n'ai plus que 5000 records identiques ...
Un paquet d'erreur avec le soundex de SQL Server English donc ...
Est-ce que ça tient uniquement à la langue et au fonctionnement du mécanisme (recherche de sonorités, ... ) ?
En fait la question que je me posais également se situait au niveau méthodo pour faire une comparaison entre deux noms de rue :
Je comptais comme préparation avant soundex :
1. supprimer les blancs avec Trim
2. supprimer les numeros de rue qui sont dans le champ que je dois comparer
Reste deux questions :
Est-ce que je dois aussi supprimer les mots de débuts de champs qui sont fortement redondants comme 'Rue', Boulevard', 'Avenue', etc ... ?
La fonction soundex (Utilisée par ACL 8 FR et SQL Server 7 EN que j'utilisent) n'évalue t'elle que les 5 premiers caractères (hors voyelles et consonnes redondantes) d'une châine ?
Merci de votre aide ...
-
Je vous propose de lire ce fabuleux article sur les soundex :L'art des « Soundex »