bonjour à tous,
(ou aux motivés qui arrivent à bosser au mois d'Aout )
Je travaille sur de la détection de doublon sur des fichiers textes extraits d'une base de données.
Ma procédure pour détecter les doublons est de lire le fichier référence dans un premier temps et d'en extraire les noms dans un tableau (@nomsRef) puis de lire le fichier à comparer d'en extraire les valeurs du champ noms dans un autre tableau (@nomsX).
Ensuite il faut comparer les noms du @nomsX un par un avec les noms contenus dans @nomsRef et en cas de détection, c'est gagné.
Cet algo vous semble-t-il satisfaisant (mon fichier reférence contient environ 2000 reférence tandis que mes fichiers à comparer en contiennent de 50 à 500) ?
En ce moment je bloque sur la recherche de doublon dans le tableau reférence... en effet, le résultat de ma recherche me donne pour le nom ANCEL par exemple :
-ANCEL
-ANCELIN
-BARANCEL
aie aie aie... ça vient sans doute de ma condition du if,
qui n'est pas assez stricte... mais je ne sais pas comment faire.
Code : Sélectionner tout - Visualiser dans une fenêtre à part if($nomsX[$i]=~/$nomsRef[$j]/i) {}
(---> $i et $j sont des compteurs)
merci à vous!
Partager