DISTINCT ou GROUP BY

**Papy214** · 31/10/2011, 17h26

Bonjour,

Je vais en faire sursauter plus d'un avec ma question mais tant pis

Je compte sur vous pour ne pas trop m'incendier

Quelle est la différence entre DISTINCT et GROUP BY ?

Parce que si je fais

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

SELECT DISTINCT texte FROM textes

ou

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

SELECT texte FROM textes GROUP BY texte

ça me donne le même résultat.

**tfc3146** · 31/10/2011, 21h16

Bonsoir,

Le "GROUP BY" comme son nom l'indique vous permet de faire une agrégation par champ "textes".
Il est donc possible par exemple de compter le nombre de fois où apparait le champ "textes" :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
SELECT texte, COUNT(*)
 FROM textes GROUP BY texte

Dans votre cas, le "GROUP BY" ne s'impose en effet pas car vous n'avez pas la nécessité d'utiliser une fonction d'agrégation (moyenne, maximum, minimum, compter les lignes, ...).
Le "DISTINCT" permet juste de supprimer les doublons sur l'attribut "textes".

En espérant avoir été clair.

**Papy214** · 01/11/2011, 11h02

Ok, donc si je comprends, le DISTINCT est approprié dans tous les cas où on n'utilise pas de fonction d'agrégation.

Merci

**elsuket** · 01/11/2011, 15h45

Bonjour,

Quelle est la différence entre DISTINCT et GROUP BY ?

Avec l'exemple que vous donnez, il est normal que vous obteniez le même résultat.
D'ailleurs le plan d'exécution de ces deux requêtes est strictement le même.

Maintenant GROUP BY est destiné aux calculs d'aggrégats, comme SUM(), COUNT(), AVG(), ..., qui vous sont retournés groupés par une ou plusieurs colonnes ou expressions, à raison d'une ligne par groupe.

En revanche DISTINCT, lui, ne vous retournera jamais que les tuples distincts, par une ou plusieurs colonnes ou expressions. Rien de plus

GROUP BY permet aussi de filtrer les groupes suivant la valeurs d'un agrégat, à l'aide de la clause HAVING.
Vous pouvez donc trouver les machines qui ont eut plus de 100 pannes (HAVING COUNT(*) > 100) sur une période donnée, par exemple.

Notez également que GROUP BY bénéficie de calculs avancés à l'aide des options WITH ROLLUP, WITH CUBE, WITH GROUPING SETS, ...

@++

**Papy214** · 02/11/2011, 09h48

Bonjour Nicolas,

A nouveau, merci pour toutes ces précisions.
Je ne vois pas tout de suite à quoi servent "WITH ROLLUP, WITH CUBE, WITH GROUPING SETS" mais je m'y intéresserai.

Par contre, il me vient une question en complément. Quand on utilise une fonction d'agrégation dans un "GROUP BY", est que SQL Server fait 2 fois le calcul, une pour le "SELECT et une pour le "GROUP BY" ?

Papy !

**elsuket** · 02/11/2011, 15h16

A nouveau, merci pour toutes ces précisions.

Avec plaisir

Je ne vois pas tout de suite à quoi servent "WITH ROLLUP, WITH CUBE, WITH GROUPING SETS" mais je m'y intéresserai.

WITH ROLLUP et WITH CUBE permettent d'obtenir en sus les valeurs de l’agrégat pour les groupes qui sont constitués par moins de colonnes ou d'expressions que les colonnes ou expressions sur lesquelles l'agrégat est calculé.
Donc par exemple, si nous souhaitons connaître le nombre pannes sur toutes les machines par mois, on obtiendra en sus le total par machine et le total par mois.
En tous les cas, suivant le nombre de colonnes ou d'expressions sur lequel l'agrégat est calculé, le résultat me paraît difficilement exploitable dans un autre contexte que pour des statistiques.
J'aimerai savoir s'il y a des participants à ce forum qui ont utilisé ces clauses dans une application dont le but n'est pas statistique.

WITH GROUPING SETS permet de façon similaire de définir les groupes pour lesquels on veut obtenir un calcul de l'agrégat à l'intérieur de celui-ci.

Par contre, il me vient une question en complément. Quand on utilise une fonction d'agrégation dans un "GROUP BY", est que SQL Server fait 2 fois le calcul, une pour le "SELECT et une pour le "GROUP BY" ?

Il y a forcément lecture des données et calcul de l'agrégat à la volée, mais ensuite.
Maintenant si la ou les tables(s) sont correctement indexées, cela ne pose pas de problème.
Si cela en devient un, il faut alors penser aux vues indexées qui sont terriblement efficaces, entre autres et principalement, pour les agrégats.

@++

**Papy214** · 02/11/2011, 21h31

Ces ROLLUP, CUBE et GROUPING SET ne doivent effectivement pas être utilisés souvent.
Il faudra que je cherche quelques exemples "simples" d'utilisation de ces éléments pour me faire une meilleure idée mais au moins j'ai un bon point dé départ.

Les index, je sais que c'est très utile mais je ne pensais que ça pouvait optimiser les fonctions d'agrégation. Je croyais que c'était plutôt pour les tri.

Je vais continuer ma découverte.

DISTINCT ou GROUP BY

Développement SQL Server

Discussions similaires

Partager

Partager