Bonjour a tous,
Alors voila je me retrouve a devoir filer un coup de main a un membre de ma famille et a mettre de l'ordre dans ses fichiers clients qui sont une aberation. Il y a plusieurs feuilles CSV qui contiennent toutes des donnees et j'essaye de faire un tri dans tout ca. Bien entendu elles ont ete remplie n'importe comment .Il n'y a pas de format unique,certains clients sont dans plusieurs feuilles a la fois et toutes les informations ont ete saisie a la main avec un taux d'erreur important.
Voila pour la situation de depart.
Maintenant voila ma question. Je cherche a eviter les doublons. Malheureusement, je ne peux pas me permettre de faire uniquement un test sur le prenom/Nom de famille. En effet, vu comment les donnes ont ete rentre je peux tres bien avoir 3 entrees client differents de la maniere suivante:
Barry Hiland 6 Morgan Street
Barry+Helen Hiland 6 Morgan St
Barry Hilano 6 Mojan St
On peut voir que la deuxieme entree contient le prenom de la femme
la troisieme contient une faute d'orthographe dans le nom de famille ainsi que dans le nom de la rue
La premiere ligne contient 'Street' en entier alors que les deux autres ont l'abrege 'St'.
Or il s'agit du meme client. Je souhaite donc pouvoir mettre au point un test de correlation entre ces differentes chaines qui se ressemble pas mal quand meme, et donc le PC serait capable de voir qu'il s'agit de la meme personne.
J'avoue que ca ne me parait pas evident donc si qlq avait la moindre idee...
Julien
PS: Dsl pour les accents et fautes de frappe mais les qwerty...
Partager