PostgreSQL et varchar(nn)

**olidau** · 20/10/2009, 09h17

Bonjour à tous,
Je ne savais pas trop où mettre ce message, alors comme je débute en PostgreSQL...

Ma question concerne la gestion des varchar par PostgreSQL, je vais essayer d'être clair :

Je voudrais savoir quel est l'impact de la longueur des champs varchar sur la rapidité de travail (en datawarehouse*) avec une base PostgreSQL.

C'est à dire :
vaut-il mieux déclarer :
1 champ varchar(10)
1 champ varchar(30)
1 champ varchar(50)
1 champ varchar(100)

sachant qu'un seul de ces champs est renseigné par enregistrement,
tantôt par une info de 10 o,
tantôt par une info de 30 o,
tantôt par une info de 50 o,
tantôt par une info de 100 o

ou déclarer un seul champ varchar(100) et tout mettre dedans quelque soit la longueur de l'info à enregistrer ?

* base attaquée par des appli delphi.

Merci d'avance pour votre aide.

**JeitEmgie** · 20/10/2009, 10h19

indépendamment de PostgreSQL :

tant que la longueur du varchar() ne dépasse pas la limite qui provoquerait sa conversion automatique en champ TEXT (ou CLOB, ou … - suivant le RDBMS), il est totalement inutile de songer à ce genre de pseudo optimisation… (et de toute façon jamais poussé à cet extrême…)

et spécifiquement pour PostgreSQL > v8.0 :

Tip: There are no performance differences between these three types, apart from the increased storage size when using the blank-padded type. While character(n) has performance advantages in some other database systems, it has no such advantages in PostgreSQL. In most situations text or character varying should be used instead.

pour les versions antérieures, lisez la doc.

En clair : sous PostgreSQL ≥ 8.0, vous pouvez même mettre TEXT sans aucune pénalité de performance…
la question de la longueur des VARCHAR() ne se pose donc que si vous devez en plus faire un schéma multi-RDBMS…
si vous êtes définitivement lié à PostgreSQL : vous êtes tranquille…

**olidau** · 20/10/2009, 11h46

Super, Merci.

J'utiliserai donc un ou des champs en varchar(100), s'agissant de la limite max dont j'ai besoin.
En parlant d'optimisation, je crois savoir que, à l'inverse, le problème se pose réellement pour les champs int2 et int4 :

Je suppose que même dans PostgreSQL, il convient de faire le distingo entre les deux ?

**olidau** · 20/10/2009, 12h42

Une petite précision :
Si j'utilise des varchar sans préciser la taille, mes composants Delphi orientés données m'affiche un [memo] au lieu du contenu du champ.

Voilà pourquoi j'en reste à ta remarque :

"tant que la longueur du varchar() ne dépasse pas la limite qui provoquerait sa conversion automatique en champ TEXT (ou CLOB, ou … - suivant le RDBMS), ..."

et que je précise une longueur de 100, sachant, maintenant, que les performances de ma BD ne seront pas peinalisées si je mets une donnée de 1 o dans ces champs.

En espérant être clair et avoir bien tout compris...

**JeitEmgie** · 20/10/2009, 12h44

Envoyé par olidau

Super, Merci.

J'utiliserai donc un ou des champs en varchar(100), s'agissant de la limite max dont j'ai besoin.
En parlant d'optimisation, je crois savoir que, à l'inverse, le problème se pose réellement pour les champs int2 et int4 :

Je suppose que même dans PostgreSQL, il convient de faire le distingo entre les deux ?

pour économiser 2 bytes par record ?

faites vos calculs pour voir si en fonction de la taille espérée de la DB et de son hébergement… cela a un intérêt…

**olidau** · 20/10/2009, 13h38

Non, ce n'est pas une question de coût de stockage.
C'est pour augmenter la rapidité de traitement sur ces champs.
J'imagine que faire des calculs sur des champs de 2 o (smallint) est deux fois plus rapide que sur des champs integer de 4 o.
(Dans la mesure évidente où les info stockées se contentent de la portée d'un smallint).

**JeitEmgie** · 20/10/2009, 15h43

Envoyé par olidau

Non, ce n'est pas une question de coût de stockage.
C'est pour augmenter la rapidité de traitement sur ces champs.
J'imagine que faire des calculs sur des champs de 2 o (smallint) est deux fois plus rapide que sur des champs integer de 4 o.
(Dans la mesure évidente où les info stockées se contentent de la portée d'un smallint).

…on est en 2009… pas en 1980…

**olidau** · 20/10/2009, 15h52

Ca existe depuis quand PostgreSQL

Pourquoi ils ont intégré la notion de petits entiers si cela ne sert à rien

**JeitEmgie** · 20/10/2009, 16h38

Envoyé par olidau

Ca existe depuis quand PostgreSQL

Pourquoi ils ont intégré la notion de petits entiers si cela ne sert à rien

il faut bien être compatible avec les standards… et l'héritage du passé…

**olidau** · 20/10/2009, 17h08

Mouai...

En tout cas, merci pour toutes ces info qui m'ont permis d'avancer.

**SQLpro** · 22/10/2009, 09h50

Contrairement à ce qui vous a été dit....

Envoyé par olidau

Non, ce n'est pas une question de coût de stockage.
C'est pour augmenter la rapidité de traitement sur ces champs.
J'imagine que faire des calculs sur des champs de 2 o (smallint) est deux fois plus rapide que sur des champs integer de 4 o.
(Dans la mesure évidente où les info stockées se contentent de la portée d'un smallint).

Un octets plus petit que la taille du mot du processeur oblige à effectuer une vérification logique de non overflow dans tous les calculs. C'est donc pénalisant (mais faiblement) par rapport à un entier qui est de la longueur exacte du mot du proc et pour lequel le calcul d'overflow est en logique micro câblée.
Maintenant en terme de volume et aussi contrirement à ce que l'on vous a dit, plus le volume de donner à scruter est faible et plus les SCAN et dans une moindre mesure les SEEK seront rapides. En sus, la RAM n'étant généralement pas extensible, utiliser un type le plus petit possible permet de mettre en cache plus de données...

Bien évidemment tout impacte les performances à des degrés divers et même en 2009 !

A +

**JeitEmgie** · 22/10/2009, 10h24

Envoyé par SQLpro

Contrairement à ce qui vous a été dit....

Un octets plus petit que la taille du mot du processeur oblige à effectuer une vérification logique de non overflow dans tous les calculs. C'est donc pénalisant (mais faiblement) par rapport à un entier qui est de la longueur exacte du mot du proc et pour lequel le calcul d'overflow est en logique micro câblée.
Maintenant en terme de volume et aussi contrirement à ce que l'on vous a dit, plus le volume de donner à scruter est faible et plus les SCAN et dans une moindre mesure les SEEK seront rapides. En sus, la RAM n'étant généralement pas extensible, utiliser un type le plus petit possible permet de mettre en cache plus de données...

Bien évidemment tout impacte les performances à des degrés divers et même en 2009 !

A +

L'optimisation est une problématique plus complexe que simplement discuter de 2 ou 4 bytes pour la taille d'un entier dans une table dont on ne connaît ni l'usage ni la taille dans une DB dont on ne connaît pas plus et tournant un OS dont on ne nous a rien dit, le tout sur un hardware hypothétique…

Disons simplement, que pour un débutant comme semble l'être olidau, il aura probablement à faire face à des problèmes d'écriture et d'optimisation de requêtes et de choix d'où mettre des index avant que la question de la taille optimale de quelques champs de valeurs "int" n'entre en jeu dans un problème d'optimisation…

Par contre, ce que l'on peut conseiller dès le début :
si vous savez que les ressources de la plate-forme qui hébergera la DB sont limitées, ne gaspillez pas de l'espace en définissant des champs inutilement grands là où vous êtes certain que ce ne sera jamais nécessaire à l'avenir…

PostgreSQL et varchar(nn)

PostgreSQL

Discussions similaires

Partager

Partager