Bonjour,
Je travaille sur la reprise d'un gros fichier de contact d'entreprise. Ce fichier intégre des données tel que le nom de la societe , son adresse, le numero SIRET (pas toujours renseigné -> entreprise etrangere).
Le fichier comporte de nombreux doublons sur les nom exemple type: SNCF, S.N.C.F , societe des chemin de fer francais ...... ou les adresses (societe X à l'adresse 3 boulevard / societe X à l'adresse 3bd)
j'avoue ne pas trop savoir par quel bout commencer pour dedoublonner ce fichier. quelqu'un a t'il déjà été confronté à ce type de tache ?
quelles régles puis je mettre en place pour dédoublonner ? des fonctions type soundex peuvent elles être utile ?
Je vous remercie de votre aide
Partager