Bonjour,

Dans un fichier de large données je souhaites repérer les doublons en me basant sur plusieurs critères. J'utilise pour cela un petit programme mais il semble imparfait et ne détecterais pas par exemple les erreurs de saisies. Je souhaiterais en effet trouver un moyen d'utiliser quelque chose comme la distance de levensthein pour détecter des erreurs du genre JEANINE/JANNINE. Seulement je ne trouve pas comment utiliser cela sur une même colonne de tableaux de sorte a ce que toutes les lignes soient comparées entre elles (prénom par exemple) . J'ai pensé à passer par l'utilisation de python ou sql dans R mais je ne vois pas trop comment mettre cela en place. Si vous voyez comment faire ou une autre méthode, je suis preneuse! Merci d'avance