IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage SQL Discussion :

Question sur une recherche de doublons


Sujet :

Langage SQL

  1. #1
    Membre averti

    Profil pro
    Inscrit en
    Janvier 2004
    Messages
    464
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2004
    Messages : 464
    Points : 332
    Points
    332
    Par défaut Question sur une recherche de doublons
    Bonjur,
    J'ai une table avec trois attributs ID,LO,LA. ID est la clé. Je cherche les pseudo doublons (LO,LA).
    J'ai utilisé cette requête (qui fonctionne).
    J'ai besoin d'un conseil en SQL (encore). J'ai réussi à obtenir ce que je voulais mais je me demande s'il n'y a pas plus efficace.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
     
    select *
    from points t1
    join(SELECT concat(Longitude, ';',latitude) as lola
           from Points
           group by longitude, latitude
           having count(lola) > 1) t2
    on concat(t1.LONGITUDE,';',LATITUDE) = t2.lola
    order by longitude, latitude, id ;
    Le résultat reste rapide car avec une table de 50000 tuples, j'ai le résultat en 10 s.

    Ma question est : est-il possible de faire la même chose sans passer par concat ?

    Merci.
    C'est en respectant les autres que l'on se fait respecter.

  2. #2
    Modérateur
    Avatar de escartefigue
    Homme Profil pro
    bourreau
    Inscrit en
    Mars 2010
    Messages
    10 133
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loir et Cher (Centre)

    Informations professionnelles :
    Activité : bourreau
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2010
    Messages : 10 133
    Points : 38 555
    Points
    38 555
    Billets dans le blog
    9
    Par défaut
    Bonjour

    vous pouviez faire plus simple : une auto jointure avec égalité sur LO et LA et inégalité sur ID
    Si vous avez un index sur LO+LA (sans ID) ce sera beaucoup plus rapide qu'un concat qui lui ne sera jamais sargable

  3. #3
    Modérateur

    Profil pro
    dba
    Inscrit en
    Janvier 2010
    Messages
    5 643
    Détails du profil
    Informations personnelles :
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : dba

    Informations forums :
    Inscription : Janvier 2010
    Messages : 5 643
    Points : 13 092
    Points
    13 092
    Par défaut
    Bonjour,

    Vous pouvez plus simplement faire un teste d'existance :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
     
    select *
    from points t1
    where exists (
        select 1
        from points t2
        where T2.longitude = T1.longitude
        and T2.latitude = T1.latitude
        and T2.id <> T1.id
    )
    Avec les bons index sur les coordonnées, la réponse devrait être très rapide pour 50000 lignes.

  4. #4
    Modérateur
    Avatar de kolodz
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2008
    Messages
    2 211
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 211
    Points : 8 316
    Points
    8 316
    Billets dans le blog
    52
    Par défaut
    Je vais peut-être paraitre idiot, mais j'ai tendance à faire ce genre de requête :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    select longitude, latitude, count(*)
        from points
        group by longitude , latitude
        having count(*)>1
        order by count(*) desc;
    Cordialement,
    Patrick Kolodziejczyk.
    Si une réponse vous a été utile pensez à
    Si vous avez eu la réponse à votre question, marquez votre discussion
    Pensez aux FAQs et aux tutoriels et cours.

  5. #5
    Modérateur
    Avatar de escartefigue
    Homme Profil pro
    bourreau
    Inscrit en
    Mars 2010
    Messages
    10 133
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loir et Cher (Centre)

    Informations professionnelles :
    Activité : bourreau
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2010
    Messages : 10 133
    Points : 38 555
    Points
    38 555
    Billets dans le blog
    9
    Par défaut
    Ca fonctionne aussi mais c'est plus gourmand en ressources à cause du groupage (et de l'order by mais qui n'est pas requis)

  6. #6
    Modérateur
    Avatar de kolodz
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2008
    Messages
    2 211
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 211
    Points : 8 316
    Points
    8 316
    Billets dans le blog
    52
    Par défaut
    J'ai fait la comparaison entre la requête de aieeeuuuuu et ma requête encapsulé dans un count(*) :
    aieeeuuuuu =>0.993 secondes
    kolodz => 0.191 secondes

    Sur 205119 enregistrements dont 138044 doublons sur 51553 association différentes.
    Avec un table indexé correctement.
    Si une réponse vous a été utile pensez à
    Si vous avez eu la réponse à votre question, marquez votre discussion
    Pensez aux FAQs et aux tutoriels et cours.

  7. #7
    Modérateur
    Avatar de Waldar
    Homme Profil pro
    Customer Success Manager @Vertica
    Inscrit en
    Septembre 2008
    Messages
    8 452
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Customer Success Manager @Vertica
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2008
    Messages : 8 452
    Points : 17 820
    Points
    17 820
    Par défaut
    @kolodz, les deux requêtes ne renvoient pas la même chose, difficile de faire une comparaison, il faut refaire la jointure avec la table initiale pour récupérer la liste des pseudos-doublons.

  8. #8
    Modérateur
    Avatar de escartefigue
    Homme Profil pro
    bourreau
    Inscrit en
    Mars 2010
    Messages
    10 133
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loir et Cher (Centre)

    Informations professionnelles :
    Activité : bourreau
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2010
    Messages : 10 133
    Points : 38 555
    Points
    38 555
    Billets dans le blog
    9
    Par défaut
    La dégradation des perfs peut être exponentielle lorsque les volumes augmentent, avec 200 000 lignes le test n'est pas significatif.

  9. #9
    Modérateur
    Avatar de kolodz
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2008
    Messages
    2 211
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 211
    Points : 8 316
    Points
    8 316
    Billets dans le blog
    52
    Par défaut
    Citation Envoyé par escartefigue Voir le message
    La dégradation des perfs peut être exponentielle lorsque les volumes augmentent, avec 200 000 lignes le test n'est pas significatif.
    C'est juste 4 fois plus que le test initial réalisé par Patrice Henrio.

    @Waldar En effet, mais on reste très en dessous des 10 secondes de la requête de base présenté.
    Si une réponse vous a été utile pensez à
    Si vous avez eu la réponse à votre question, marquez votre discussion
    Pensez aux FAQs et aux tutoriels et cours.

  10. #10
    Modérateur
    Avatar de escartefigue
    Homme Profil pro
    bourreau
    Inscrit en
    Mars 2010
    Messages
    10 133
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loir et Cher (Centre)

    Informations professionnelles :
    Activité : bourreau
    Secteur : Finance

    Informations forums :
    Inscription : Mars 2010
    Messages : 10 133
    Points : 38 555
    Points
    38 555
    Billets dans le blog
    9
    Par défaut
    La requete initiale est à peu près ce qu'on peut faire de pire à cause des fonctions de colonne qui la rendent non sargable
    Ma réponse concernait la phrase "...j'ai tendance à faire ce genre de requête " qui accompagnait la requête avec groupage

    Cette tendance est fâcheuse SI on considère des tables volumineuses, avec quelques dizaines de millions de lignes par exemple
    Là la différence de mesure sera certainement très significative

  11. #11
    Modérateur

    Profil pro
    dba
    Inscrit en
    Janvier 2010
    Messages
    5 643
    Détails du profil
    Informations personnelles :
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : dba

    Informations forums :
    Inscription : Janvier 2010
    Messages : 5 643
    Points : 13 092
    Points
    13 092
    Par défaut
    Je ne serait pas aussi péremptoire. Car la requête de kolodz a tout de même l'avantage d'éviter l'auto jointure ou la sous requete, certainement plus consommatrices que le groupage (surtout si un index existe : le groupage aura alors un coup très bas)

    Mais s'il faut récupérer d'autre colonnes, alors il faut malgré tout ajouter la jointure...

    bref, la meilleure requete dépendra donc du besoin (qui n'a pas été clairement défini), mais aussi de la volumétrie, de la répartition des données, ...

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 1
    Dernier message: 08/08/2012, 14h52
  2. Réponses: 4
    Dernier message: 20/01/2006, 16h03
  3. [Newbies] Question sur une technologie XML a utiliser
    Par superraider dans le forum Windows
    Réponses: 3
    Dernier message: 21/10/2005, 10h01
  4. [jdbc] question sur une connection
    Par berg dans le forum JDBC
    Réponses: 2
    Dernier message: 10/09/2005, 08h29
  5. [index] performance sur une recherche descendante
    Par jean-jacques varvenne dans le forum Oracle
    Réponses: 16
    Dernier message: 15/01/2005, 10h22

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo