GROUP BY : doublons et deux champs distincts

**glorieuxduc** · 26/06/2015, 15h57

Bonjour à toutes et à tous,

Apprenant le SQL depuis peu, je me casse légèrement la tête sur un problème qui semble assez simple mais malheureusement je ne vois pas comment je pourrai le résoudre.

Considérons la table tIncidents suivante:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
ID	nmachine	ninter
1	12		23
2	1		4
3	12		2
4	12		2
5	1		10
6	1		69

Mon but est d'effectuer une requête permettant de connaître quels sont les machines qui ont le plus d'interventions.

J'ai donc fais la requête suivante:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

SELECT nmachine, COUNT(nmachine) AS NbPanne FROM tIncidents GROUP BY nmachine ORDER BY NbPanne DESC;

Mais le prob c'est que ça me retourne:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Tout est normal bien sûr, mais j'aimerai que le le count ne prenne pas en compte les doublons au niveau "nmachine ninter" (ex: ID 3 et ID 4), et que le résultat soit plutôt le suivant:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Je sais pas si c'est possible, et là je suis bloqué, je vous remercie par avance pour votre aide.

**al1_24** · 26/06/2015, 16h43

Il suffit que tu ailles jusqu'au bout de ton "expression de besoin"

j'aimerai que le le count ne prenne pas en compte les doublons au niveau "nmachine ninter"

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
SELECT nmachine, COUNT(DISTINCT ninter) AS NbPanne
FROM tIncidents 
GROUP BY nmachine 
ORDER BY NbPanne DESC
;

**glorieuxduc** · 26/06/2015, 17h25

Merci beaucoup, cela fonctionne très bien

Cependant j'ai du mal à comprendre la solution, je m'explique.

Imaginons que je rajoute l'enregistrement ID 7:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
ID	nmachine	ninter
1	12		23
2	1		4
3	12		2
4	12		2
5	1		10
6	1		69
7	1		23

Le résultat de votre requête corrigé affiche dans ce cas

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Cela réponds tout à fait à ma problématique, mais je me demande pourquoi COUNT DISTINCT ninter n'agit pas ici en omettant l'ID 7 où ninter = 23 tout comme l'ID 1 où ninter = 23. Je pense que ça vient du group by, mais j'arrive pas trop à comprendre, si vous avez une petite explication sur le sujet je serai ravi de l'entendre.

Merci beaucoup en tout cas

**al1_24** · 26/06/2015, 17h55

La requête regroupe par nmachine et, pour chaque nmachine, compte le nombre de valeurs distinctes de ninter.

**glorieuxduc** · 26/06/2015, 18h06

Ah d'accord.

En gros GROUP BY est prioritaire sur l’agrégation, donc regroupement par machine et agrégation ensuite avec COUNT. C'est plus clair, merci

**escartefigue** · 29/06/2015, 16h35

Envoyé par glorieuxduc

Ah d'accord.

En gros GROUP BY est prioritaire sur l’agrégation, donc regroupement par machine et agrégation ensuite avec COUNT. C'est plus clair, merci

Non : le GROUP BY c'est l'agrégation, alors que COUNT compte le nombre d'occurrences pour les éléments qui peuvent ou non être agrégés.

**glorieuxduc** · 29/06/2015, 17h41

Envoyé par escartefigue

Non : le GROUP BY c'est l'agrégation, alors que COUNT compte le nombre d'occurrences pour les éléments qui peuvent ou non être agrégés.

Non pas du tout, l'agrégation c'est les fonctions permettant de faire des statistiques sur une colonne définie (de transformer son contenu via une fonction). ex: MIN, MAX, AVG, COUNT, etc...

EX:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

SELECT SUM(depense_client) AS TotalEncaisse FROM tEncaissement ;

Affichera tous le total des encaissements grâce à la fonction d'agrégation SUM(depense_client);

Le GROUP BY, permet de regrouper les données d'une (ou plusieurs) colonne afin qu'il n'y ai pas de doublon (ex: regroupement par ville, nom client), du coup les doublons ne sont pas affichés mais ils sont transmis aux fonctions d'agrégations si il y en a. Du coup avec GROUP BY au lieu qu'une fonction d'agrégation soit appelée 1 seule fois, celle-ci sera appelée N fois (N enregistrement affichés).

Imaginons que nous avons 3 client: Martin, Doe et Jackson.

EX:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

SELECT nom_client, SUM(depense_client) AS TotalEncaisseClient FROM tEncaissement GROUP BY nom_client ;

aura le même effet que:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
SELECT SUM(depense_client) AS TotalEncaisseMartin FROM tEncaissement WHERE nom_client = Martin;
SELECT SUM(depense_client) AS TotalEncaisseDoeFROM tEncaissement WHERE nom_client = Doe;
SELECT SUM(depense_client) AS TotalEncaisseJackson FROM tEncaissement WHERE nom_client = Jackson;

GROUP BY n'est pas de l'agrégation, ça permet juste d'utiliser l'agrégation de manière plus efficace.

On peut très bien utiliser GROUP BY sans agrégation, par exemple pour afficher les différents noms de villes dans une table, en évitant les doublons.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

SELECT ville from tClient GROUP BY ville;

**aieeeuuuuu** · 30/06/2015, 10h01

Bonjour,

Envoyé par glorieuxduc

On peut très bien utiliser GROUP BY sans agrégation, par exemple pour afficher les différents noms de villes dans une table, en évitant les doublons.

Pour cela, il convient d'utiliser DISTINCT

**bstevy** · 30/06/2015, 10h09

Envoyé par aieeeuuuuu

Pour cela, il convient d'utiliser DISTINCT

Moi, je le fais avec un qualify lol ^^

**SQLpro** · 30/06/2015, 17h42

Envoyé par glorieuxduc

On peut très bien utiliser GROUP BY sans agrégation, par exemple pour afficher les différents noms de villes dans une table, en évitant les doublons.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

SELECT ville from tClient GROUP BY ville;

Non, absolument pas ceci est d'une haute stupidité.... En effet GROUP BY n'a pas vocation de remplacer DISTINCT et ce n'est même pas la même opération !

Démonstration (je l'ai déjà donnée une fois dans ce forum, mais visiblement vous ne lisez pas ce qui a déjà été posté et affirmez d'énormes bêtises !

DÉMONSTRATION :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
CREATE TABLE T (K INT, V VARCHAR(16), D DATE);
 
INSERT INTO T VALUES
(1, 'banane', '2005-01-01'),
(1, 'banane', '2005-01-01'),
(1, 'banane', '2005-01-01'),
(2, 'banane', '2005-01-01'),
(3, 'poire',  '2005-01-01');

Requête GROUP BY sans DISTINCT :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
SELECT D
FROM   T
GROUP  BY K, D

Résultat :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
D
----------
2005-01-01
2005-01-01
2005-01-01

Avec DISTINCT :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
SELECT DISTINCT D
FROM   T
GROUP  BY K, D

Résultat :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
D
----------
2005-01-01

CQFD !

Bref, apprenez la langage SQL. Mon site web comme mon livre peuvent vous y aider !

A +

**SergioMaster** · 01/07/2015, 08h06

Bonjour,

sans vouloir te vexer SQLPro, j'aimerais te faire remarquer que tu montes trop vite sur tes grands chevaux !

ta démonstration pèche car tu utilise deux champs pour le group by au lieu d'un seul comme l'indiquait glorieuxduc

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

SELECT D FROM T GROUP BY D

ne fourni bien qu'une seule réponse

donc pas de CQFD

pour ce que j'en sais sur DISTINCT versus GROUP BY :
pour certains SGBD le parser semble se charger de faire une conversion si besoin
le GROUP BY effectue également un tri à contrario de DISTINCT cependant si le champ est un Index on obtient le même résultat
s'il n'y a pas de fonction d'agrégat mieux vaut utiliser le DISTINCT que le GROUP BY

as-tu plus de précisions sur le combat DISTINCT vs GROUP BY ?

ceci étant, sur ce genre d'exemple c'est un peu

**SQLpro** · 01/07/2015, 13h58

Envoyé par SergioMaster

le GROUP BY effectue également un tri...

Ce que vous dites est faux, il existe d'autre moyens de faire un GROUP BY que le tri qui est généralement l'algorithme le plus couteux. En particulier le groupement par hachage...

En tout état de cause GROUP BY et DISTINCT n'a rien à voir.

A +

**SergioMaster** · 01/07/2015, 15h12

Envoyé par SQLpro

Ce que vous dites est faux, il existe d'autre moyens de faire un GROUP BY que le tri qui est généralement l'algorithme le plus couteux. En particulier le groupement par hachage...

Encore une fois, haro sur vos grand chevaux! je n'ai jamais dit que c'était un moyen de faire un tri c'est une constatation
si justement GROUP BY est plus couteux que DISTINCT c'est justement à cause de ce tri.
si peu de différence de temps et de ressources sont constatées entre GROUP BY et DISTINCT et que l'ordre obtenu est identique c'est si les champs sont indexés/font partie d'un index.
Quant au Hachage, qui est tout autre chose que le SQL de départ SELECT D FROM T GROUP BY D j'ose encore le souligner, tous les SGBD n'en sont pas encore là

En tout état de cause GROUP BY et DISTINCT n'a rien à voir.

J'en suis conscient l'objectif de mon intervention était de te faire mettre de l'eau dans ton vin (même s'il s'agit d'une haute trahison pour un vigneron)
et te faire remarquer qu'une remarque comme

Envoyé par SQLPro

Non, absolument pas ceci est d'une haute stupidité.

est loin d'être diplomate même si sa vertu se veut d'être pédagogique

**SQLpro** · 01/07/2015, 16h51

Envoyé par SergioMaster

...et te faire remarquer qu'une remarque comme ...
est loin d'être diplomate même si sa vertu se veut d'être pédagogique

Mon souhait est de ne surtout jamais verser ni dans le diplomate et encore moins dans le politiquement correct !
On voit ou cela nous même, par exemple avec le hollandisme !

A +

GROUP BY : doublons et deux champs distincts

Langage SQL

Discussions similaires

Partager

Partager