Salut à tous,
Je voudrais faire de la recherche des doublons dans une base de données expérimentale de 1980 lignes. après avoir identifié les doublons stricts dont la requêtes est la suivante:
Code mysql : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
SELECT COUNT(*) AS Nbre_doublons_Stricts, `Nom`, `Prenom`, `DateNaissance` 
FROM membres 
GROUP BY `Nom`, `Prenom`, `DateNaissance` 
HAVING COUNT(*) > 1

Je voudrais maintenant détecter des doublons potentiels (pour une éventuelle mise à jour manuelle) en procédant au rapprochement des chaînes de caractères en comparant l'efficacité de plusieurs algorithmes (Levenshtein, Jaro_Winkler, Soundex et double-métaphone).
Pour Jaro_Winkler : en fait je voudrais considérer comme doublons potentiels les critères suivants :
- Si les scores pour les nom & prénom avec Jaro_Winkler sont >0,8
- pour les dates de naissance, je souhaiterais vérifier qu'il n'y ait pas d'inversion de jour/mois au moment de la saisie genre 04/10/1986 au lieu de 10/041986 en séparant jour Mois et Année et en donnant la valeur
- 1/3 pour JJ comparaison binaire
- 1/3 pour MM comparaison binaire
- 1/3 pour AAAA comparaison binaire
Donc si 2/3 au moins est atteint je dois en tenir compte
- et vérifier aussi la commune de naissance (test binaire normal)
Et je ne sais sincèrement pas si c'est possible avec MySql. donc à partir de la requête plus haut ajouter les conditions ci-dessus présentées. Serait ce possible ? Votre aide me sera précieuse car je ne sais par où commencer.
Merci d'avance.

Voici la base de données : essai.rar