IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Requêtes MySQL Discussion :

recherche de quasi doublons dans 1 table


Sujet :

Requêtes MySQL

  1. #1
    Membre à l'essai
    Inscrit en
    Octobre 2004
    Messages
    19
    Détails du profil
    Informations forums :
    Inscription : Octobre 2004
    Messages : 19
    Points : 15
    Points
    15
    Par défaut recherche de quasi doublons dans 1 table
    Bonjour à tous,

    Je cherche à trouver et lister les doublons provoqués par la similarité des noms (ou faute, inversions de caractères ect...) d'un champ de table MySql mais me heurte à un problème.

    J'ai essayé SOUNDEX mais cela ne me donne pas satisfaction (résultats incomplets) exemples "Au petit marché" et "Aux petit marché" qui ne ressort pas.

    J'ai tenté également un MATCH() ... AGAINST(), qui est attractif mais ne me donne apparemment pas la possibilité de retrouver "Tartampion" et "Tatranpion" par exemple

    Je suis actuellement en recherche sur les REGEXP mais je tourne en rond.

    Désolé pour l'explication mais en gros je souhaiterais pouvoir lister ma table en prenant chaque nom d'entreprise qu'elle contient et vérifier si ce nom à une correspondance quelconque avec un autre situé dans la même table (tant pis s'il y a redondance) afin de trouver par exemple pour "Entreprise Dupont" -> "Entreprise Dupond", "Enteprise Duont", "SARL Dupont", "Dupon EURL", "Mon entrprise Dupont" etc...

    PHP Version 4.3.10-22
    MySQL 4.1.11-Debian_4sarge7

    Merci beaucoup de votre aide et amitiés

  2. #2
    ced
    ced est déconnecté
    Rédacteur/Modérateur

    Avatar de ced
    Homme Profil pro
    Gestion de bases de données techniques
    Inscrit en
    Avril 2002
    Messages
    6 016
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Gestion de bases de données techniques
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Avril 2002
    Messages : 6 016
    Points : 23 705
    Points
    23 705
    Par défaut
    Bonjour,

    Une solution est présentée dans le tutoriel ici.
    En MySQL 4.1, ça devrait fonctionner (j'ai un petit doute sur la version d'apparition du EXISTS dans MySQL).

    Sinon, il faut s'en inspirer pour créer éventuellement une table temporaire et la croiser aux données.

    Bon courage,

    ced
    Rédacteur / Modérateur SGBD et R
    Mes tutoriels et la FAQ MySQL

    ----------------------------------------------------
    Pensez aux balises code et au tag
    Une réponse vous a plu ? N'hésitez pas à y mettre un
    Je ne réponds pas aux questions techniques par message privé, les forums sont là pour ça

  3. #3
    Membre à l'essai
    Inscrit en
    Octobre 2004
    Messages
    19
    Détails du profil
    Informations forums :
    Inscription : Octobre 2004
    Messages : 19
    Points : 15
    Points
    15
    Par défaut
    Bonsoir Ced et merci de la réponse,

    Oui j'ai bien vu bon tutoriel d'SQLPro, mais voilà, le dernier exemple surtout mais après retouche de celui-ci pour Mysql, il ne me renvoi pas de résultat, ce qui est étonnant dans la mesure ou la base contient bien des doublons, j'en ai même ajouté afin de simuler un doublon relatif. Je me suis peut-être trompé quelque part voici la chose :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    SELECT DISTINCT * FROM employeur AS A WHERE EXISTS (
        SELECT * 
        FROM employeur AS B
        WHERE  'A.id_employeur' <> 'B.id_employeur'
        AND  'A.rs_employeur' LIKE '%B.rs_employeur%' OR 'B.rs_employeur' LIKE '%A.rs_employeur%'
    )
    De plus, je ne pense pas que cela puisse résoudre mon problème entièrement ? Je crois effectivement que votre 'bon courage' va m'aller comme un gant...

    Merci de nouveau et amitiés.

  4. #4
    Membre expert
    Avatar de Maljuna Kris
    Homme Profil pro
    Retraité
    Inscrit en
    Novembre 2005
    Messages
    2 613
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 72
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Retraité
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Novembre 2005
    Messages : 2 613
    Points : 3 950
    Points
    3 950
    Par défaut
    Saluton,
    Objectivement, les possibilités sont si nombreuses qu'il me semble vain de s'y essayer.
    Même avec un REGEXP, ça me semble peine perdu d'avance.
    Kie lumo eksistas ankaŭ ombro troviĝas. L.L. Zamenhof
    articles : Comment émuler un tableau croisé [quasi] dynamique
    et : Une énigme mathématique résolue avec MySQL
    recommande l'utilisation de PDO (PHP5 Data Objects)

  5. #5
    Modérateur

    Avatar de CinePhil
    Homme Profil pro
    Ingénieur d'études en informatique
    Inscrit en
    Août 2006
    Messages
    16 799
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 60
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur d'études en informatique
    Secteur : Enseignement

    Informations forums :
    Inscription : Août 2006
    Messages : 16 799
    Points : 34 031
    Points
    34 031
    Billets dans le blog
    14
    Par défaut
    Ce qui fait que deux lignes de la même table peuvent en fait représenter la même entreprise, ce n'est pas seulement le nom de l'entreprise mais peut-être aussi que les deux lignes aient :
    - la même adresse ;
    - le même téléphone ;
    - le même SIRET ;
    - le même code de TVA intra-communautaire...

    Une série de requêtes sur d'autres critères que le nom peut permettre de débusquer les principaux doublons. Il faut ensuite les corriger à la main, en faisant attention aux conséquences sur les tables liées. Si vous supprimez le client 'Entreprise Dupond' parce qu'en réalité il s'agit de 'Entreprise Dupont' et qu'en cascade cela supprime 85 factures, le comptable va vous parler du pays !

    Après ce premier tri, il est possible de chercher les lignes pour lesquelles des renseignements importants sont manquants et de voir ensuite pour chacune si une autre entreprise pourrait correspondre parce qu'elle a un nom voisin.

    Enfin, il est possible de faire une recherche sur une partie du nom pour obtenir les ressemblances :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    SELECT * 
    FROM Entreprises
    WHERE NomEntreprise LIKE '%Dupon%'
    Mais il y a effectivement tellement de cas que ce sera de toute façon un travail de fourmi.
    Bon courage ! Et gare au comptable, il pourrait 'oublier' votre paye en représailles '
    Philippe Leménager. Ingénieur d'étude à l'École Nationale Supérieure de Formation de l'Enseignement Agricole. Autoentrepreneur.
    Mon ancien blog sur la conception des BDD, le langage SQL, le PHP... et mon nouveau blog sur les mêmes sujets.
    « Ce que l'on conçoit bien s'énonce clairement, et les mots pour le dire arrivent aisément ». (Nicolas Boileau)
    À la maison comme au bureau, j'utilise la suite Linux Mageïa !

  6. #6
    Membre à l'essai
    Inscrit en
    Octobre 2004
    Messages
    19
    Détails du profil
    Informations forums :
    Inscription : Octobre 2004
    Messages : 19
    Points : 15
    Points
    15
    Par défaut
    Merci des réponses.

    Étonnant cette faculté de tout vouloir trop bien faire... J'aurais au moins essayé d'approcher le Nirvana, mais je me rangerai du même côté que vous. Remarquez qu'il s'agit là d'un vrai casse tête.

    Pour CinePhil, si seulement j'avais de bons élèves, le SIRET m'aurait suffit (encore faut-il qu'il soit entré correctement, mais cela peu se faire) seulement voilà,un SIRET ca sert à quoi ? donc on ne le rentre pas. Va falloir que je sois plus strict.

    Pour le comptable, en effet va pas être content, mais là c'est plus simple à gérer, on fait ou on ne faitt pas...

    Bref on fera comme d'habitude, le maximum raisonnablement possible...

    Merci beaucoup en tout cas pour vos réponses.

    CinPhil je vous contacte en privé, je viens de voir dans votre profil une chose qui me turlupine...

    Amitiés

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [Oracle] recherche de doublons dans une table
    Par Zombiman dans le forum PHP & Base de données
    Réponses: 9
    Dernier message: 05/06/2009, 09h56
  2. Recherche de doublons dans une table
    Par david71 dans le forum Access
    Réponses: 2
    Dernier message: 20/01/2008, 13h41
  3. recherche de doublon dans une table
    Par c+cool dans le forum Langage SQL
    Réponses: 1
    Dernier message: 02/01/2008, 13h29
  4. rechercher et éliminer doublons dans table
    Par patbeautifulday1 dans le forum Requêtes et SQL.
    Réponses: 1
    Dernier message: 16/05/2007, 10h27
  5. [pl-sql] Recherche de doublons dans une table
    Par tommey dans le forum Oracle
    Réponses: 1
    Dernier message: 08/11/2006, 22h53

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo