Choix entre group by ou over partition

**nicolas581** · 30/11/2018, 21h58

Bonjour,

Le but est de connaître les n-uplons selon un champ et récupérer un id, le login de l'utilisateur et le nombre :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
 
SELECT sub.id, sub.login, sub.nb
FROM (SELECT id, login, COUNT(*) OVER(PARTITION BY id) AS nb
      FROM utilisateur u) AS sub
WHERE nb > 1;

ou avec cette méthode :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
 
WITH n as (
    SELECT id, COUNT(id) AS nb
        FROM utilisateur u
        GROUP BY id
        HAVING COUNT(id) > 1
)
SELECT u.id, u.login, n.nb from UTILISATEUR u
    JOIN n ON u.id_ref = n.id_ref

Il y a quelques environ 40.000 lignes et 2000 lignes en doublons avec le même id.
Quelle méthode faudrait-il choisir ? J'ai regardé le plan d'exécution qui est différent mais les performances sont proches. La deuxième solution étant un peu plus rapide (5%).

Il existe peut-être une autre solution plus adaptée pour résoudre ce problème.

Merci de vos lumières

**Puppet_Master** · 15/02/2019, 21h43

Bonjour.

Avec cette requête ça donne quoi ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
SELECT id
     , login
     , COUNT(1) AS nb
  FROM utilisateur
GROUP BY id
       , login
HAVING COUNT(1) > 1

**nicolas581** · 14/04/2019, 21h19

Désolé du délai de réponse.
Ta solution proposée pose problème car deux logins peuvent avoir le même id or là on groupe sur le couple.
Le but est de sortir les logins (quand ils sont sur un nombre > 1) qui partagent le même id.

**Waldar** · 15/04/2019, 14h28

La première méthode ne fait qu'un seul accès à la table utilisateur, la seconde a le bon goût de bien filtrer les données utiles (je suppose que vous avez un index sur Utilisateur.Id).
C'est vraiment le ratio doublons / total (ici 5%) qui fait qu'une requête sera plus rapide que l'autre.
Si votre taux reste stable ou tend vers 0, la seconde syntaxe sera à privilégier.
Si ce taux croît, il y a un moment où la première syntaxe sera préférable.

En l'état actuel compte-tenu du volume, c'est un faux problème, mais c'est très bien que vous vous posiez la question.

Choix entre group by ou over partition

Requêtes PostgreSQL

Discussions similaires

Partager

Partager