L’une des deux grandes limitations en ce qui concerne la performance des processeurs actuels est la mémoire : elle doit être disponible en grande quantité (jusqu’à quelques téraoctets par machine, selon les applications) et avoir une très grande bande passante (transmettre une grande quantité d’information par seconde) avec une faible latence (une fois qu’une information est demandée en mémoire, elle arrive très vite). Cependant, une mémoire avec ces caractéristiques est extrêmement chère : c’est pourquoi la mémoire cache des processeurs est relativement limitée en capacité (souvent, quelques mégaoctets par cœur de calcul) — sans oublier la place nécessaire à proximité du processeur pour de telles quantités de mémoire.

Avec les années, la hiérarchie de la mémoire s’est imposée : un processeur dispose de registres (très rapides, mais assez petits), puis une série de caches (de moins en moins rapides mais de plus en plus gros), la mémoire vive (bien plus grosse que les caches, mais avec une latence non négligeable) et, finalement, le stockage de masse (avec des disques durs et SSD).

C’est pour cela que les technologies comme HBM ou HMC sont apparues. Elles permettent d’intégrer la mémoire vive directement au niveau du processeur : sans diminuer la taille de ce niveau de mémoire, la latence et la bande passante sont grandement améliorées. Les composants de mémoire HBM ou HMC sont inclus sur la même puce que le processeur lui-même. Avec des distances ainsi réduites, la consommation d’énergie globale du système est fortement diminuée. Des deux, HBM est la technologie dont le succès a été le plus retentissant : elle est utilisée pour tous les processeurs graphiques très haut de gamme actuels, tant chez AMD que NVIDIA, en remplaçant la mémoire GDDR. Altera l’emploie également pour certains FPGA. L’amélioration de performance des produits qui l’utilise peut être phénoménale.

La première génération de HBM a été développée par SK Hynix avec AMD, l’objectif était de viser exclusivement des cartes graphiques. La deuxième mouture s’est élargie quelque peu (avec des utilisations aussi dans le domaine du HPC et des réseaux), mais est loin de s’ouvrir à tous les domaines, notamment en raison de son coût : jusqu’à présent, la mémoire HBM2 est reléguée aux domaines où le coût importe peu (HPC, cartes graphiques très haut de gamme). Samsung envisage donc de développer une mémoire HBM3 qui peut s’adapter à des environnements où les coûts sont un facteur important (embarqué, téléphones portables, etc.) : la performance serait alors impactée (légèrement inférieure à la HBM2), mais avec des coûts de production réduits (des connexions TSV avec le reste de la puce en nombre bien plus limité).


La HBM3 devrait aussi viser les mêmes segments que précédemment, avec des offres bien plus fortes au niveau de la performance : notamment, une bande passante de 512 Go/s (le double de HBM2, elle-même doublée par rapport à la première génération). La densité de stockage devrait augmenter : chaque composant de mémoire devrait embarquer seize gigaoctets de mémoire au minimum.

Les premiers produits utilisant la mémoire HBM3 ne devraient arriver qu’à l’horizon 2019-2020, les détails techniques n’étant pas encore fixés ; d’ici là, la HBM2 aura eu le temps de mieux pénétrer le marché et de montrer ses capacités.

Sources : Next-Generation 3D Memory in the Works, SK Hynix and Samsung Talk HBM at Hot Chips 28 – Low Cost HBM, HBM2 and HBM3 In The Roadmap.