PostgreSQL surpasserait MySQL et MariaDB en lecture ?

Version imprimable

13/02/2016, 18h55
Victor Vincent

1 pièce(s) jointe(s)

PostgreSQL surpasserait MySQL et MariaDB en lecture ?

PostgreSQL surpasse-t-il MySQL et MariaDB en lecture ?
Un ingénieur logiciel partage son test de performance des trois systèmes de gestion de bases de données

Faire le choix de la base de données à utiliser dans un projet peut être un choix difficile pour un développeur dans des petites équipes de développements où une même personne peut accumuler plusieurs rôles à la fois. Dans certaines équipes il n’est pas rare que le développeur joue en même temps le rôle de concepteur de bases de données par exemple. Pour aider ses pairs dans leur choix technologique, un ingénieur logiciel partage les résultats de son test de performance avec la communauté. Ce qui a retenu son attention, souligne-t-il, c’est les performances de Postgres en lecture. D’après les résultats publiés par l’auteur du test de performance, MariaBD et MySQL ont pris les devants quand il s’agit des requêtes d’écriture en base de données. Cependant pour les requêtes de lecture en base de données, Postgres s’est démarqué de manière assez nette des deux autres aussi bien pour des requêtes simples que les requêtes complexes.

L’environnement utilisé par l’auteur du Benchmark est Ubuntu Wily Werwolf qui est la version 15.10 du système d’exploitation utilisé sur une machine avec un environnement processeur monocœur et une capacité de 1024 Mo de mémoire RAM. Pour les versions des systèmes de gestion de bases de données utilisés, il s’agit de la version 10.1.11 de MaraiDB, la version 5.7.10 de MySQL et de la version 9.5.0 de Postgres. La figure suivante représente les différentes requêtes de lecture en base de données qui ont été faites sur les trois systèmes de gestion de bases de données.

Pièce jointe 200766

Les bons résultats obtenus avec Postgres pourraient s’expliquer d’après l’auteur du benchmark par le fait que ce système de gestion de bases de données respecte les standards SQL, en tout cas plus que les deux autres.

Source : résultats du benchmark

Et vous ?

:fleche: Avez-vous testé les performances de ces différents systèmes de gestion de bases de données ?

:fleche: Vos résultats confirment-ils les performances de Postgres par rapport aux deux autres ?

Voir aussi

:fleche: la rubrique Bases de données
13/02/2016, 23h08
escartefigue

Bonsoir,

quelques remarques concernant ce sujet :

Citation:

Envoyé par Victor Vincent

Faire le choix de la base de données à utiliser dans un projet peut être un choix difficile pour un développeur

- Les développeurs n'ont jamais eu leur mot à dire quand au choix de la base de données
- Les performances sont rarement le critère de choix de la base, le budget intervient le plus souvent en premier, et les compétences en interne dans l'entreprise sont en général le 2eme critère
- Si la performance des requetes est un critère de choix, alors pourquoi privilégier les requetes en lecture, plutôt que celles en màj ? pour des infocentres, oui, mais en ce cas aucun des 2 sgbd cités n'est concerné
- toutes choses égales par ailleurs, My SQL présente de telles lacunes, que le choisir pour une base de données d'entreprise est un choix risqué
14/02/2016, 04h06
fsmrel

L'auteur du deuxième Quote est bien escartefigue et non Victor Vincent

Bonsoir,

Citation:

Envoyé par Victor Vincent

Les bons résultats obtenus avec Postgres pourraient s’expliquer d’après l’auteur du benchmark par le fait que ce système de gestion de base de données respecte les standards SQL, en tout cas plus que les deux autres.

Bigre ! Qu’est-ce que la norme SQL vient faire dans cette histoire ? Elle traite du Quoi, plutôt que du Comment ! Si l’auteur parlait de la supériorité de l’optimiseur du SGBD, de la structure des espaces physiques, index et autres éléments sous le capot, soit. Mais pour comparer, encore faut-il être très pointu à la fois sur toutes ces choses quant aux SGBD dont il est question, or il est pratiquement impossible d’être spécialiste dans les tréfonds de plus d’un SGBD. Ainsi, il est des études comparatives et autres benchmarks qui laissent songeur, tel celui-ci...

Citation:

Envoyé par escartefigue

Si la performance des requêtes est un critère de choix, alors pourquoi privilégier les requêtes en lecture, plutôt que celles en màj ? pour des infocentres, oui, mais en ce cas aucun des 2 sgbd cités n'est concerné.

Voilà des paroles frappées au coin du bon sens !

Pour ce qu’il en est de lire le plus vite possible des tables comme celle du benchmark (j’utilise le singulier : « celle », car je n’ai pas vu de jointure ou d’union, mais peut-être suis-je mauvaise langue, la table « testing » est-elle en fait une vue de jointure et/ou d’union ? _:P), les fichiers plats (même sophistiqués comme ceux qui utilisent VSAM d’IBM) sont sans doute les meilleurs candidats...

Mais, comme le sous-entend escartefigue, faire des mises à jour concurrentes, avec célérité, en toute sécurité et sans gêner les voisins, c’est une autre paire de manches, comparer en toute objectivité devient bigrement compliqué, il faut faire intervenir des DBA expérimentés, spécialistes de leur SGBD respectif...

Cela dit, comme le fait encore observer escartefigue, MySQL est sans doute un choix risqué, mais, pour ma part, ne l’ayant pas suffisamment secoué pour prétendre être véritablement spécialiste de ce SGBD, je suis obligé de suivre la proposition 7 de Wittgenstein (même chose au sujet de PostgreSQL)...
14/02/2016, 11h18
escartefigue

Citation:

Envoyé par fsmrel

Voilà des paroles frappées au coin du bon sens !

Attention, ces propos étaient les miens, Victor Vincent pourrait en prendre ombrage ;)
14/02/2016, 11h22
solstyce39

quand on voit pour la même requête :

MariaDB : 741 ms
Mysql : 6686 ms
PostgreSQL : 229.33 ms

voir un tel écart avec mysql sur la même requête et la même architecture physique, ça me laisse seulement penser qu'il y a un soucis ailleurs et me fait douter fortement du benchmarK

Après je n'ai pas une connaissance assez approfondie des SGBD
14/02/2016, 11h24
Gugelhupf
:fleche: Avez-vous testé les performances de ces différents systèmes de gestion de bases de données ?
Oui, j'ai même réalisé un benchmark (fin 2014) mais comme les données avaient étés généré aléatoirement et que le système de transaction par défaut diffère entre les deux bases, je considère remettre à jour mon article car tel qu'il est je le considère un peu obsolète.

:fleche: Vos résultats confirment-ils les performances de Postges par rapport aux deux autres ?
Oui et non. L'auteur a fait en sorte de prendre les cas où Postgres bat ses concurrents. Par expérience je peux dire que Postgres gère mieux quand :
- Une requête contient des fonctions d’agrégat (sum, max etc)
- Une requête retourne plusieurs centaines de tuples.
- Une requête contient beaucoup de jointure.
Par contre MySQL bat PostgreSQL sur ce type de requête simple :

Code:

SELECT champ1, champ2 FROM ma_table WHERE id = 1;

:fleche: Pas de fonction d'agrégat, simple tuple en retour (généralement moins de 50 tuples), pas (ou peu) de jointure.

Pour ce qui est des insertions mon test mettait en avant PostgreSQL, mais je n'avais pas pris en compte que MySQL faisait des auto-commit :aie: Bon après pour le cas d'une base entre insertion et lecture, on sait que les cas de lecture sont plus importants que l'écriture.

Ma conclusion : PostgreSQL reste plus polyvalent, MySQL semble plus adapté pour les sites web simples qui ne nécessitent pas de requêtes complexes.

PS :
Coquilles :

Citation:

Psostgres en lecture

Postgres en lecture

Citation:

Postges par rapport aux deux autres

Postgres par rapport aux deux autres
14/02/2016, 11h59
MaitrePylos

Citation:

Envoyé par Gugelhupf

Par contre MySQL bat PostgreSQL sur ce type de requête simple

Avec quel moteur ? myIsam ou InnoDb ?
14/02/2016, 13h50
fsmrel

Bonjour,

Citation:

Envoyé par escartefigue

Attention, ces propos étaient les miens, Victor Vincent pourrait en prendre ombrage ;)

Dont acte, distraction de ma part, merci à Victor Vincent d'avoir rectifié... ;)

Salut à tous.

@ Gugelhupf : tu ne serais pas lorrain, par hasard ? Je dis cela car en Alsace, on écrit plutôt kouglouf, et en Allemagne Kugelhupf.

J'ai regardé ton benchmark que je trouve bien plus intéressant que le message de "Victor Vincent".
J'ai jeté un coup d’œil dans la partie MySql et je trouve que rien n'est optimisé. Inversement, je ne connais pas Postgre.

Voici quelques remarques (juste un survol) concernant les différents points de ton sujet :

1) hormis les primary key et foreign key de tes trois tables, je ne voie rien concernant le choix du moteur, du charset, du collation, ainsi que l'usage de la compression ou pas.
Il serait plus opportun d'adapter tes tables à chaque SGBDR au lieu de faire quelque chose de standard.

Concernant les déclaratives de tes index (une foreign key, c'est déjà un index), il ne manque rien, vis-à-vis de tes requêtes.
Il suffit de faire un explain pour se rendre compte de son utilisation.

2) tu fais usage des nombres aléatoires, d'accord.
Mais pour tester les performances, il faut que tes données soient aussi exactement les mêmes.
Or cela ne sera pas le cas ! Il faut adopter une autre méthode que les nombres aléatoires.

3) tes deux premiers tests sont très similaires dans la façon dont tu gères les insertions
Je fais aussi une procédure stockée afin de simuler les insertions.
Je prends un exemple que j'ai fait chez moi, j'ai charger dans une table 'test' 1.000.000 de lignes.
Heure Début : 13:15:32,53
Heure Fin : 13:16:33,78

Soit en gros 1 Minute 1 Seconde et 25 Centièmes ! Alors que tu indiques 25 min 4.53 sec !
Il y a un très sérieux problème avec l'optimisation !!!

4) tu fais "select *". Il faut éviter d'extraire des colonnes dont tu n'as pas besoin.

5) tu fais une jointure, d'accord, mais j'aimerai que tu précises quel type de jointure.
Un "inner join", un "left outer join", autre chose ... Je n'aime pas les déclaratives par défaut.

6) quand tu as trois tables en jointure, il y a un ordre à respecter.
En général, on commence par la table charnière (je réutilise ton vocabulaire).
Et ensuite, on fait le jointure sur les autres tables.
Code:

1 2 3 4 5 6 7 8 9 SELECT P.*, M.nom AS nom_medecin, M.prenom AS prenom_medecin FROM t_charniere_medecin_patient MP INNER JOIN t_medecin M ON M.id = MP.id_medecin INNER JOIN t_patient P ON P.id = MP.id_patient;
Inversement, si tu veux optimiser tes accès, commence par les tables les plus petites.

7) Un exemple mal formulé :
Code:

1 2 3 4 5 6 7 8 9 10 SELECT P.*, M.nom AS nom_medecin, M.prenom AS prenom_medecin FROM t_charniere_medecin_patient MP INNER JOIN t_medecin M ON M.id = MP.id_medecin INNER JOIN t_patient P ON P.id = MP.id_patient WHERE M.id = 40;
Pourquoi faire un "where M.id = 40" ?
Car en faisant cela, tu récupères tout, puis ensuite, tu sélectionnes ce dont tu as besoin.
Code:

1 2 3 4 5 6 7 8 9 10 11 SELECT P.*, M.nom AS nom_medecin, M.prenom AS prenom_medecin FROM t_charniere_medecin_patient MP INNER JOIN t_medecin M ON M.id = MP.id_medecin AND M.id = 40 INNER JOIN t_patient P ON P.id = MP.id_patient WHERE M.id = 40;
8) il y a des images qui ne s'affichent plus dans ton didacticiel. Du coup, je voie nul part tes explain ???
Il serait très utile de voir ce qui a été fait sur ce point.

9) tu as fait l'effort de créer un benchmark entre MySql et Postgre. C'est très bien d'avoir pris le temps de le faire.
Mais tu devrais donner les valeurs moyennes en lançant, disons un milliers de fois, chaque test !
Un seul test par cas n'est pas représentatif d'un bon benchmark.

10) qu'est-ce qui a été fait en terme de paramétrage système pour MySql et Postgre ?
C'est le cœur même du SGBD qui va rendre optimal tes accès.
Tu as beau rajouter des index, ou faire des explains, si le paramétrage est mal fait, tu n'obtiendras rien de bon.

10) en conclusion, je considère que vos tests ne sont pas très représentatif de ce que l'on peut obtenir.
C'est comme si tu veux comparer une ferrari et une 2CV. Et pour ce faire, tu conduis en restant que sur la premier vitesse.

@+

14/02/2016, 16h01
Invité

Citation:

Envoyé par fsmrel

Bigre ! Qu’est-ce que la norme SQL vient faire dans cette histoire ?

Rien effectivement, l'auteur du blog n'a jamais dit ça... Victor Vincent ne lit probablement pas très bien l'anglais d'où sa confusion.
14/02/2016, 16h16
RyzenOC

Pour faire des benchmark correcte faudrait prendre compte le dommaine d'application (site wordpress ou bigdata) et aussi utiliser des syntaxe optimisé (pour Orable DB par exemple)
Par exemple les SGBD les plus performant pour des requêtes simple (un simple select par exemple) c'est la famille NoSQL, c'est très utilisé en big data.

Sinon je m'étais laissé entendre dire que pour des petites BDD, Mysql était plus performant que postgres et inversement.
J'imagine que les perf dépende aussi de la taille des tables.

Concernant MySQL, c'est un sgbd un peu spéciale, car on peut choisir son moteur. MyIsam ou InnoDB, les 2 ont leurs forces et leurs faiblesses en terme de perf.
14/02/2016, 17h52
Gugelhupf

Citation:

Envoyé par MaitrePylos

Avec quel moteur ? myIsam ou InnoDb ?

InnoDb (c'était indiqué dans l'en-tête du tableau dans mon article).

@Artemus24,

1. Comme indiqué dans l'en-tête du tableau, il s'agit d'InnoDb, pour ce qui est du charset ou collation j'ai laissé les valeurs par défaut, je doute que ce soit un critère important car je ne fais pas de traitement particulier sur les chaines.

2. C'est bien ce que je dis, je n'ai pas utilisé un fichier statique pour charger les données mais utilisé une fonction qui génère des valeurs random (même si on obtient le même nombre de tuple entre les deux bases), d'où 1 des 2 défauts que j'ai cité concernant mon benchmark.

3. Ce n'est pas un défaut d'optimisation, c'est un problème chaise-clavier (moi :aie: ). Là tu fais référence au 2ème défaut de mon benchmark, je suis en mode auto-commit true, d'où le fait d'avoir un temps d'insertion aussi conséquent.

4. Je fais SELECT * pour PostgreSQL et MySQL donc pas de souci, on considère qu'il faut récupérer tous les champs.

5. Il s'agit d'une jointure interne, c'est la jointure par défaut (SQL-92 : If a <qualified join> is specified and a <join type> is not specified, then INNER is implicit).

6. Je ne savais pas qu'il y avait un ordre à respecter (si tu as une référence n'hésite pas), moi j'ai tendance à commencer par la table la plus importante. Le terme "table charnière" ne vient pas de moi mais de mes professeurs.

7. Pourquoi faire un "where M.id = 40" ? : parce que id = 40 n'est pas une condition de jointure, mais un élément variable. Je n'ai pas testé la différence entre les performances entre ON et WHERE, mais je suis sur que le SGBD optimise cela à la lecture de la requête.

8. Les images font références à mon ancien site qui n'existe plus. Voici l'extrait du benchmark qui t'intéresse.

9. Je dirais que c'est le 3ème défaut de ce benchmark, mais je vais être honnête, pour faire un vrai benchmark il faudrait des outils adaptés, à l'époque je n'en connaissais pas et nous étions à court de temps pour fournir nos benchmark, et second problème ces outils sont spécifiques aux bases, ils sont tous différents et on ne sait pas comment ils sont implémentés. Mais bon j'ai tout de même exécuté ces requêtes plusieurs fois, il n'y avait pas de grosses différences.

10.1. Aucune optimisation particulière n'a été effectuée, nous avons les paramètres par défaut pour les deux systèmes (si tu connais aussi bien MySQL tu sais tout). J'imagine que les éditeurs font en sorte de distribuer leurs logiciels avec les paramètres les plus nazes qui soient, et que ce soit à nous de tuner leur outil.

http://www.nocturnar.com/imagenes/ra...and-furios.jpg

Bon je dis ça pour plaisanter :aie: N'hésite pas à dire comment tu aurais tuné pour faire le benchmark.

10.2. Critique subjective, n'hésite pas à nous faire un benchmark, nous verrons ce qu'il vaut.

Non je ne suis pas lorrain, je pensais à l'Alsace lorsque j'ai créé mon pseudo, je ne suis pas alsacien non plus, juste un gueux de parisien :aie:
14/02/2016, 21h39
fsmrel

Bonsoir,

Citation:

Envoyé par lecbee

Citation:

Envoyé par fsmrel

Bigre ! Qu’est-ce que la norme SQL vient faire dans cette histoire ?

Rien effectivement, l'auteur du blog n'a jamais dit ça... Victor Vincent ne lit probablement pas très bien l'anglais d'où sa confusion.

L’auteur du benchmark, a bien fait mention de la norme SQL, je le cite :

« As a result, I think that choosing PostgreSQL is a better options for RDBMS - provided that PostgreSQL comes with more features and following standard SQL. »
15/02/2016, 04h32
fsmrel

D’amour mourir me font, belle Marquise, vos beaux yeux...
Bonsoir,

Citation:

Envoyé par Artemus24

6) quand tu as trois tables en jointure, il y a un ordre à respecter.
En général, on commence par la table charnière (je réutilise ton vocabulaire).
Et ensuite, on fait le jointure sur les autres tables.

Pourquoi respecter un tel ordre ? Et s’il y a 10 tables « charnières » à joindre, par quel bout commence-t-on ? Au passage, je fais observer que la jointure naturelle est une opération commutative et associative, faisant que l’ordre ne joue pas.

Citation:

Envoyé par Artemus24

Inversement, si tu veux optimiser tes accès, commence par les tables les plus petites.

S’il s’agit là encore d’un ordre à respecter, autant dire qu’un optimiseur s’en tamponne le coquillard ! Il sait ce qu’il a à faire et comment le faire.

Citation:

Envoyé par Gugelhupf

Citation:

Envoyé par Artemus24

Pourquoi faire un "where M.id = 40" ?
Car en faisant cela, tu récupères tout, puis ensuite, tu sélectionnes ce dont tu as besoin.

7. Pourquoi faire un "where M.id = 40" ? : parce que id = 40 n'est pas une condition de jointure, mais un élément variable. Je n'ai pas testé la différence entre les performances entre ON et WHERE, mais je suis sur que le SGBD optimise cela à la lecture de la requête.

Vous avez parfaitement raison, Gugelhupf, c’est bien le SGBD qui optimise.

En fait, "where M.id = 40" correspond à l’opération relationnelle de restriction. Il est évident qu’un optimiseur quel qu’il soit va commencer par effectuer cette opération qui est la plus rentable de toutes quant aux performances (sous réserve bien sûr que l’on ait défini l’index ad-hoc).

Ainsi, que l’on code « Belle Marquise, vos beaux yeux me font mourir d’amour » :
```
SELECT 
    P.*, 
    M.nom AS nom_medecin, 
    M.prenom AS prenom_medecin 
FROM t_medecin M 
JOIN t_charniere_medecin_patient MP 
ON M.id = MP.id_medecin 
JOIN t_patient P 
ON P.id = MP.id_patient
WHERE M.id  = 40
;
```
Ou bien « D’amour mourir me font, belle Marquise, vos beaux yeux » :
```
SELECT 
    P.*, 
    M.nom AS nom_medecin, 
    M.prenom AS prenom_medecin 
FROM t_medecin M, t_charniere_medecin_patient MP, t_patient P 
WHERE M.id = MP.id_medecin 
AND P.id = MP.id_patient
AND M.id  = 40
;
```
ou encore « Vos yeux beaux d’amour me font, belle Marquise, mourir » :
```
SELECT 
    P.*, 
    M.nom AS nom_medecin, 
    M.prenom AS prenom_medecin 
FROM t_charniere_medecin_patient MP
INNER JOIN t_medecin M
ON  M.id = MP.id_medecin
AND M.id = 40 
INNER JOIN t_patient P 
ON P.id = MP.id_patient
WHERE M.id  = 40;
```
Eh bien, un optimiseur n’en a cure car, comme aurait dit Monsieur de La Palice, sa mission c’est ... d’optimiser ! Dans tous les cas, il applique donc d’abord la restriction très juteuse « where M.id = 40 », ce que montre bien un EXPLAIN, même avec MySQL :

1re requête :

http://www.fsmwarden.com/developpez_...lain_mysql.png

2e requête :

http://www.fsmwarden.com/developpez_...lain_mysql.png

3e requête :

http://www.fsmwarden.com/developpez_...lain_mysql.png

Citation:

Envoyé par Artemus24

une foreign key, c'est déjà un index

Les auteurs de MySQL en ont certes décidé ainsi, mais c’est un diktat insupportable, une erreur de leur part, ils confondent les niveaux, relationnel d’une part, physique d’autre part. Une clé étrangère (foreign key) d’une table T1 n’est pas un index, mais une référence à une clé candidate (voire une surclé) d’une table T2 (non nécessairement distincte de T1). On est en l’occurrence au niveau relationnel. Sorti de MySQL, que le DBA décide au niveau physique de mettre en œuvre pour T1 un index dont les colonnes sont celles de la clé étrangère, pourquoi pas, mais seulement en cas de nécessité, il est le seul juge.

Par exemple, avec PostgreSQL, sans index sur la colonne id_medecin, la requête ci-dessous va provoquer un balayage complet de la table t_charniere_medecin_patient :

select * from t_charniere_medecin_patient where id_medecin = 40 ;

=>

"Seq Scan on t_charniere_medecin_patient "

Avec un tel verdict de la part de l’optimiseur, on créera un index, mais là encore, c’est une décision du DBA (après tout, pour une table de quelques lignes, genre titres de civilité, le jeu n’en vaut sans doute pas la chandelle). Dans le cas présent, avec PostgreSQL, on codera par exemple :

create index t_charniere_medecin_patient_x1 on t_charniere_medecin_patient (id_medecin) ;

Et notre DBA peaufinera dans la soute, jusqu’à ce qu’il obtienne la performance recherchée. En passant, avant de s’occuper de la performance, afin d’éviter que cette table ne se transforme en « sac à tuples » (présence de doublons, donc mise en danger de l’algèbre relationnelle qui ne sait opérer correctement que sur des ensembles), il la dotera d’une clé primaire {id_medecin, id_patient} (avec pour conséquence la mise en œuvre implicite ou non de l’index de type UNIQUE correspondant...)

Citation:

5) tu fais une jointure, d'accord, mais j'aimerai que tu précises quel type de jointure.
Un "inner join", un "left outer join", autre chose ... Je n'aime pas les déclaratives par défaut.

Les sentiments ne sont pas de mise ! SQL est un langage pour lequel il existe une norme, et il y est écrit (cf. par exemple WG3:HBA-003 = H2-2003-305 = 5WD-02-Foundation-2003-09, WD 9075-2 (SQL/Foundation), September, 2003, aux pages 312-313) :

7.7 <joined table>

Function

Specify a table derived from a Cartesian product, inner join, or outer join.

Format

<joined table> ::=

<cross join>
| <qualified join>
| <natural join>

<cross join> ::=

<table reference> CROSS JOIN <table factor>

<qualified join> ::=

<table reference> [ <join type> ] JOIN <table reference> <join specification>

<natural join> ::=

<table reference> NATURAL [ <join type> ] JOIN <table factor>

<join specification> ::=

<join condition>
| <named columns join>

<join condition> ::= ON <search condition>

<named columns join> ::= USING <left paren> <join column list> <right paren>

<join type> ::=

INNER
| <outer join type> [ OUTER ]

<outer join type> ::=

LEFT
| RIGHT
| FULL

<join column list> ::=

<column name list>

Syntax Rules

[...]

3) If a <qualified join> or <natural join> is specified and a <join type> is not specified, then INNER is implicit.

[...]

La norme ayant décrété (dès SQL:1992, il y a donc belle lurette !) qu’INNER était implicite, chacun est libre d’en faire usage ou non. Maintenant, si les règles en vigueur dans l’entreprise imposent INNER (ou NATURAL ou USING, etc.), chacun devra évidemment se conformer à ces règles.
15/02/2016, 10h10
sinople

J'ajouterai que le fait d'inclure un LIMIT dans un requête non ordrée et un non sens total.

Comment voulez-vous prendre les x premiers enregistrements d'un ordre non déterminé ? Encore pire c'est souvent matérialisé par le SGBD par une opération de tri (sur on ne sait pas quoi, merci la pertinence du benchmark Mme Irma) et ça peut se transformer en un tueur de performance sur certaines requêtes.

Je passerai rapidement sur le post indiquant qu'il faut mettre une condition de sélection sur la jointure, s'il a déjà été expliqué que ça ne change rien au niveau de l'interpréteur de requête du SGBD, ça change énormément au niveau de l'interpréteur ICC (détruit la lisibilité de la requête, augmente le risque d'erreur en maintenance en devant modifier la variable de condition à plusieurs endroits). J'en ai encore les yeux qui saignent.

C'est un article/benchmark sponsorisé par les fabricants de pince à couder les néons ?
15/02/2016, 15h18
escartefigue

Citation:

Envoyé par sinople

J'ajouterai que le fait d'inclure un LIMIT dans un requête non ordrée et un non sens total.

Tout à fait d'accord, sauf le cas particulier où l'on souhaite prélever un échantillon quelconque parmi une population ;)
Cas d'espèce : identifier quelques lignes pour un test, on filtre avec where les cas de tests souhaités et on limite avec LIMIT (ou autre selon le SGBD) pour ne retenir que les n 1ers cas.
15/02/2016, 15h44
sinople

Sous SQL Server, J'ai déjà vu des requêtes sur des vues ou le simple fait d'enlever le TOP(200) mis par défaut par le management studio faisait passer le temps d'exécution de 5 secondes à 0.00 secondes (en affichant plus de ligne...).

Dans certains cas, je presque certain que les TOP, LIMIT (ou autre syntaxe) forcent une opération de tri.

J'ajouterai que d'effectuer un benchmark de tri sur des données non standardisée c'est aussi relativement dangereux (et donne surtout un résultat non fiable).

Citation:
Envoyé par Artemus24
Salut à tous.
...
6) quand tu as trois tables en jointure, il y a un ordre à respecter.
En général, on commence par la table charnière (je réutilise ton vocabulaire).
Et ensuite, on fait le jointure sur les autres tables.
Code:

1 2 3 4 5 6 7 8 9 SELECT P.*, M.nom AS nom_medecin, M.prenom AS prenom_medecin FROM t_charniere_medecin_patient MP INNER JOIN t_medecin M ON M.id = MP.id_medecin INNER JOIN t_patient P ON P.id = MP.id_patient;
Inversement, si tu veux optimiser tes accès, commence par les tables les plus petites.
....
@+
-4000 .Nimp ! Lorsque tu créés une jointure c'est pas toi qui décide, c'est le moteur qui décide du meilleur ordre de lecture de la table à moins que tu le forces via un mot clé à placer dans la requête mais c'est extrêmement rare de l'employer.

18/02/2016, 22h20
Marauder

♪♫ MySQL ... SGBD ... :ptdr:

Pourquoi pas faire une comparaison avec Access tant qu'on y est ?
19/02/2016, 10h02
jmnicolas

Citation:

Envoyé par escartefigue

- Les développeurs n'ont jamais eu leur mot à dire quand au choix de la base de données

A part contraintes techniques particulières, j'ai toujours utilisé ce que je voulais comme bases de données (Postgres en l’occurrence).
D'ailleurs pour mon dernier projet on m'a suggéré Mysql sur Windows ... je suis en train de configurer Postgres sur Debian ;-)
Mais bon je bosse dans une petite structure, j'imagine que c'est pas partout pareil.
19/02/2016, 11h31
escartefigue

J'imagine que dans structure où vous intervenez, vous êtes non seulement développeur, mais aussi chef de projet, voire responsable de domaine ou même responsable informatique.
Il en va ainsi dans les petites structures où les différentes personnes exercent plusieurs fonctions.

Ma remarque concerne les développeurs stricto-sensu.

Voilà plus de 30 ans que je traine mes guêtres dans les services informatique des banques, des assurances, de l'industrie automobile et de la retraite complémentaire, et je n'ai jamais connu d'entreprise qui délègue aux développeurs le choix de la base de données, ni même qui leur demande leur avis

Quand une DSI comporte 50 ou 500 personnes, il n'est évidemment pas question que chacun choisisse son OS ou son SGBD dans son coin ;)
19/02/2016, 12h00
ddoumeche

Citation:

Envoyé par Victor Vincent

:fleche: Avez-vous testé les performances de ces différents systèmes de gestion de bases de données ?

:fleche: Vos résultats confirment-ils les performances de Postgres par rapport aux deux autres ?

Oui, et Postgresql était à la traine par rapport à un Mysql d'usine, en terme de performances même sur des charges moyennes.
Ensuite, il était possible d'obtenir beaucoup mieux avec la version de Mysql de chez Percona, une société d'experts sur ce SGBDR.
Et je sais pour avoir lu et suivi les benchmarks de différents moteurs open source que Mysql 5.7 est ce qui se fait de mieux en terme de performances actuellement.

Les résultats de ce benchmark m'apparaissent donc comme très suspects. C'est une pratique courante, qui ne coute pas cher.

Tout dépend évidement de ce que l'on fait, pour du Web Mysql est excellent parce qu'optimisé dès l'origine pour cet usage.
Pour du Datawarehouse, Postgres est sans aucun meilleurs, ou en tout cas doit être considéré.
19/02/2016, 16h04
fsmrel

Merci à l'éditeur de la newsletter de compléter

Bonjour,

Ce billet est publié dans la newsletter, mais n'y sont affichés que les 10 premiers commentaires, selon l'ordre chronologique :

Merci à l'éditeur de la newsletter d'agir en conséquence, afin que tout le monde puisse voir la suite, laquelle est loin d'être inintéressante.
19/02/2016, 19h49
domi65

Mouais...

Le test ne signifie pas grand chose dans la mesure où on ne nous dit pas quel moteur de table a été utilisé par MySQL.
N'oublions pas que MySQL est un SDGB permettant d'utiliser plusieurs moteurs.
Selon le moteur utilisé les perfs peuvent être très différentes entre MySQL et... MySQL.
On ne sait pas non plus si les tables étaient indexées, ce qui peut influer les comparaisons des résultats.
Et comme l'on fait remarquer mes prédécesseurs, le choix des requêtes est un peu court.
Ce test laisse plus d'interrogations qu'il donne de réponses.

EDIT: Il n'y avait que très peu de messages précédent le mien lorsque j'ai écrit cette bafouille. Elle n'apporte donc rien et des réponses ont été données pour certains points. Bref : post à oublier.
20/02/2016, 00h24
Logan Mauzaize

Citation:

Envoyé par Victor Vincent

sur une machine avec un environnement processeur monocœur et une capacité de 1024Mo de mémoire RAM.

Je suis le seul que cela fait tilté ? D'ailleurs je constate qu'il ne joue qu'une seule requête à la fois et sur une seule table. Et avec un volume plutôt faible pour un BDD.
Je suis pas spécialiste MySQL et Postgres mais sur Oracle avec de tels paramètres il charge tout dans son cache et basta. Les écritures hormis les journaux se font en différer.
Bref ce n'est que du microbenchmark et il n'y a rien à en tirer.

D'ailleurs je pense qu'il serait également de faire le test hors Docker car celui-ci utilise un système de fichier virtualisé. Certains logiciels sont capables de détecter le type de partition et de s'adapter, d'autres non.

Citation:

Envoyé par Victor Vincent

Les bons résultats obtenus avec Postgres pourraient s’expliquer d’après l’auteur du benchmark par le fait que ce système de gestion de bases de données respecte les standards SQL, en tout cas plus que les deux autres.

Je vois pas trop le rapport strict entre respect des standards et performance (si ce n'est une meilleure intéprétation du sens des requêtes et un meilleur travail de l'optimiseur). Mais cela soulève également un autre point dans le choix d'une base de données (SGBDR ou pas) : choisir aussi ses fonctionnalités.

Citation:

Envoyé par Gugelhupf

pour ce qui est du charset ou collation j'ai laissé les valeurs par défaut, je doute que ce soit un critère important car je ne fais pas de traitement particulier sur les chaines.

Cela peut définir la taille et l'organisation du stockage des caractères et donc influencés les tests. De même valider l'adéquation entre les paramètres du client et ceux du serveur pour limiter un overhead de codage/décodage.

Citation:

Envoyé par Gugelhupf

C'est bien ce que je dis, je n'ai pas utilisé un fichier statique pour charger les données mais utilisé une fonction qui génère des valeurs random (même si on obtient le même nombre de tuple entre les deux bases), d'où 1 des 2 défauts que j'ai cité concernant mon benchmark.

Le mieux serait de générer un fichier d'entrée aléatoirement et de le réutiliser pour tous les scénarios.

Citation:

Envoyé par sazearte

Pour faire des benchmark correcte faudrait prendre compte le dommaine d'application (site wordpress ou bigdata) et aussi utiliser des syntaxe optimisé (pour Orable DB par exemple)

Tout à fait. Tout test de performance doit prendre en compte un scénario réel. Donner le débit/temps sur des fragments unitaires ne dit pas grand chose. Comment le SGBD gère les actions concurrentes (row/block/page/table contention, buffer, etc.) sont des éléments invisibles dans le microbenchmark.

Citation:

Envoyé par sazearte

Par exemple les SGBD les plus performant pour des requêtes simple (un simple select par exemple) c'est la famille NoSQL, c'est très utilisé en big data.

Ou même pour des requêtes plus complexes ou l'écriture. Mais il faut savoir que la plupart des solutions ont sacrifiés des fonctionnalités (persistence, transaction, journalisation, etc.). Il faut donc comparer ce qui est comparable.

Citation:

Envoyé par sazearte

Concernant MySQL, c'est un sgbd un peu spéciale, car on peut choisir son moteur. MyIsam ou InnoDB, les 2 ont leurs forces et leurs faiblesses en terme de perf.

En fait ce n'est pas spécifique à MySQL et on peut parfois même tuner pas mal de paramètre concernant le stockage. Je prends pour exemple les très nombreux paramètres "physique" sous Oracle 12 : http://docs.oracle.com/database/121/...2.htm#i2126711
Dans des cas d'utilisation spécifique ou de fortes sollicitations, un paramétrage aux petits oignons peut faire une grande différence ! A condition d'avoir un bon DBA ou un expert sous la main ...
20/02/2016, 12h44
JPLAROCHE

BONJOUR,

Citation:

MySQL semble plus adapté pour les sites web simples qui ne nécessitent pas de requêtes complexes.

reponse je fais avec Postgresql du web et cela me vas très bien.

quand je li que l'on ne peu connaître qu'une bd j poufffffff
j'ai travaillé pendant plus de 40ans avec DB2 , j'étais bien content lors des début de PHP d'avoir Mysql, et depuis la reprise de Mysql par oracle , je me suis penché sur Postgresql je peux dire qu'elle est très performante.
une BD aussi vrais qu'elle le soit , n'ai pas réservé a tel type de programmation ou tel secteur d'application. Allons allons ne vous emballer pas. je n'ai pas parler de SQLite (qui pour moi n'ai pas un sgbd tel que postgrsql...) par contre n'a pas son pareil pour quelque chose d'embarqué. Ou pour faire un outil indépendant.... bref comparer des SGBD il aurait fallu mette Oracle MSsql en plus mais cela n'est que mon avis.
@bientôt:pc:
22/02/2016, 15h15
ddoumeche

Vous n'êtes pas autorisés à publier les résultats des benchmarks de Sql Server ou Oracle sans autorisation de l'éditeur :

http://stackoverflow.com/questions/1...rformance-test

Je n'ai pas compris pourquoi l'auteur n'avait pas utilisé sysbench.
22/02/2016, 16h39
fsmrel

July 1984

Bonsoir,

Citation:

Envoyé par JPLAROCHE

j'ai travaillé pendant plus de 40 ans avec DB2

... DB2 qui va avoir 32 ans en juillet prochain... ;)

http://www.fsmwarden.com/developpez_...1984_debut.png

Quoi qu'il en soit, époque héroïque pour les DBA, quand pour étudier les performances de DB2, EXPLAIN n’existait pas encore, quand les cours spécialisés et pointus, dédiés à la performance étaient seulement en préparation chez IBM, quand des outils comme Detector n’existaient pas non plus...
23/02/2016, 22h36
Artemus24

Salut Fsmrel.

Désolé de te contredire, mais dans le livre de Gabrielle Wiorkowski "DB2 for Z/OS & OS/390, development for performance", à la page 42 du tome 1, je lis :

Citation:

DB2 was first announced as a product by IBM in June of 1983. There have been numerous various and releases since the original announcement as summarized below. More are expected in the futur :
V1.1 : June 1983
V1.2 : Feb. 1986
V1.3 : May 1987
V2.1 : April 1988.
V2.2 : October 1988
V2.3 : September 1990
V3.1 : March 1993
V4.1 : September 1994
V5.1 : April 1996
V6.1 : May 1998
V7.1 April 2000

Comme mon livre est la quatrième édition, je n'ai pas la suite des mises en service des autres versions.

ET pour être encore plus précis sur DB2, la version 1 release 1 a été annoncée le 7 juin 1983.

On retrouve cette information dans : https://www.redbooks.ibm.com/redbooks/pdfs/sg246763.pdf
en faisant une recherche sur 1983.

@+
24/02/2016, 04h45
fsmrel

Bonsoir,

Citation:

Envoyé par A. Gordon

ET pour être encore plus précis sur DB2, la version 1 release 1 a été annoncée le 7 juin 1983.

On retrouve cette information dans : https://www.redbooks.ibm.com/redbooks/pdfs/sg246763.pdf
en faisant une recherche sur 1983.

Pas la peine d’aller dans les Red Books, la lettre d’annonce est ici.

Les choses sont plus subtiles. DB2 a un copyright de 1982. La première annonce fut prévue pour septembre 1983, puis avancée au 7 juin, afin de sensibiliser les utilisateurs potentiels avant les vacances.

Mais annoncer n’est pas synonyme de mettre à disposition. A cette époque, seuls des privilégiés purent utiliser DB2, en « limited availability » et nous, les utilisateurs ordinaires, avons dû attendre la « general availability », prévue pour le « third quarter 1984 ». Et on a attendu jusqu’à ce fameux 3e trimestre...

Dans le même sens, la V2 de DB2 fut annoncée pour avril 1988 : en juin de cette année-là, il fallait que je secoue cette V2, mais elle n’était pas disponible. Toutefois, comme je binômais avec des gens d’IBM et qu’il y avait urgence, ceux-ci ont fait en sorte qu’on m’envoie la bande depuis les États-Unis.

Toujours dans le même sens, la lettre d’annonce de la V12 de DB2 est manifestement datée du 6 octobre 2015, mais ça n’est pas pour autant que cette version est aujourd’hui disponible :

« IBM will make DB2 12 for z/OS available to a select group of clients in a closed Early Support Program (ESP) on March 4, 2016. »

D'ici quelques jours, ces heureux élus pourront s’éclater, nous autres, on attendra (six mois, un an ?)

Ayons une pensée pour Gabrielle, qui nous a quittés il y a 4 ans à quelques jours près...