Un cluster de Raspberry pi?

**emixam16** · 23/07/2016, 17h43

Bonjour,

Je fais depuis peu un stage en rapport avec le big-data (hadoop, giraph & cie...), et une question (probablement stupide) me taraude, n'ayant pas trouvé d'interlocuteurs qui pouvaient me répondre, je me tourne vers vous pour m'éclairer.

Aujourd'hui les serveurs utilisent des réseaux de machines très puissantes, mais aussi très chères.
Puisque le big-data permet généralement un haut niveau de parallélisation, ne serait-il pas plus efficace de se servir de réseaux de cartes de type Raspberry zero (juste pour l'exemple) à moins de 5€ unité?

Si on reprend l'exemple du raspi 0, il tourne à 1Ghz et embarque 512MiO de ram.
Prenons un exemple simple (simpliste): si on prend cette configuration pour une machine (je ne prends pas en compte les frais pour le rack puisque des frais similaires seront à prévoir pour l'architecture en Raspberry pi:

Intel Xeon E5-2630 v4 (2.2 GHz) 10 coeurs / 20 threads (environ 800€ à l'unité)
la RAM de serveur, on tape dans les 6€ le GO, et
Disque dur (env 60€/TO)

Si on prend l'exemple d'un cluster de 16 machines contenant chacun 1 tel processeur, 64 GO de RAM, et 16 TO de RAM (valeurs issues du théorème du doit mouillé)
Le prix de ce cluster serait de 16*(800+6*64+60*16) ~ 34 000 €

Avec ces caractéristiques, une centaine de raspi 0 (+ une carte mémoire à une dizaine d'euros/unité) est plus puissant qu'une machine. En multipliant par 16, on obtient un prix total de 16*100*(10+5) = 24 000 €

Ainsi avec cette configuration le cluster dit classique est 42% plus cher que la configuration en Raspberry pi

Il est évident qu'un système à base de Raspberry pi aurait des inconvénients supplémentaires (plus de latence, plus dur à prototyper...), mais tout de même, pensez vous qu'il existe des applications, dans le big data mais pas uniquement, ou une architecture de ce type pourrait avoir en pratique des performances équivalentes voire supérieures à celles d'un cluster dit classique?

Si vous avez des éléments de réflexions, je serais ravis de les entendre!

**jlliagre** · 26/07/2016, 13h38

Aujourd'hui les serveurs utilisent des réseaux de machines très puissantes, mais aussi très chères.

Pas vraiment, le principe du big data est au contraire d'utiliser des machines "bon marché" par rapport aux standard des serveurs, même si bien sûr, on est pas dans la même catégorie que ce que fait Raspberry Pi.

Un Raspberry Pi zero, en dehors du fait qu'il est essentiellement introuvable aux prix catalogue, surtout en grandes quantités, a besoin de plus bien cher que son prix pour fonctionner, alimentation, cable micro-B USB, micro SD, et ici encore plus car il faudra bien pouvoir interconnecter tous les raspberry avec un réseau rapide. Il y a aussi un problème de stockage. Où vas-tu stocker les données car la micro SD va être un peu juste et comment seront elles accédées (pas de port sata ou équivalent), et enfin un problème sérieux de mémoire. 512 Mo, c'est beaucoup trop peu pour installer par exemple un nœud hadoop utilisable. Le cluster final risque aussi de coûter cher en maintenance car avec un nombre de composants aussi élevé, il faudra passer son temps à identifier et remplacer des composants HS.

**bordi** · 29/07/2016, 10h01

Envoyé par emixam16

Bonjour,

Je fais depuis peu un stage en rapport avec le big-data (hadoop, giraph & cie...), et une question (probablement stupide) me taraude, n'ayant pas trouvé d'interlocuteurs qui pouvaient me répondre, je me tourne vers vous pour m'éclairer.

Aujourd'hui les serveurs utilisent des réseaux de machines très puissantes, mais aussi très chères.
Puisque le big-data permet généralement un haut niveau de parallélisation, ne serait-il pas plus efficace de se servir de réseaux de cartes de type Raspberry zero (juste pour l'exemple) à moins de 5€ unité?

Si on reprend l'exemple du raspi 0, il tourne à 1Ghz et embarque 512MiO de ram.
Prenons un exemple simple (simpliste): si on prend cette configuration pour une machine (je ne prends pas en compte les frais pour le rack puisque des frais similaires seront à prévoir pour l'architecture en Raspberry pi:

Si vous avez des éléments de réflexions, je serais ravis de les entendre!

Il faut un minimum de mémoire et de ressource pour faire tourner des outils tel que hadoop, le minimum requis pour juste faire tourner c'est 16GB ram, 32 GB ram, je monte un rack de 3 itx 32GB de ram avec un master

mais j'ai installé un hadoop 1 - que pour la partie hdfs (gestion fichier) sur un cluster de 3 raspberry 1 de 512MB, mais pour la partie analytique c'est une autre paire de manche, ca exige trop de resources. ceux qui ont réussi
a faire un simple map reduce prend plusieur dizaine de minutes, hadoop et aussi un ecosysteme complet dont les composant exige des resources.

il vient de sortir l'odroid c2 avec 2GB ram, cpu 64bits, qui est supérieeur au raspberry, mais ca reste très insuffisant, par contre c'est très bien pour le calcul distribué en cluster

docker marche très bien avec les raspberry

**emixam16** · 29/07/2016, 10h41

Ok super, ça répond parfaitement à ma question!

Le Raspberry pi 0 n'était qu'un exemple extrême, pour faire réagir, je sais qu'il existe bien mieux (le raspi est fait pour les hobbyistes pas pour les pros, des composants ont utilisés en double).

Merci pour ces éléments !

**jlliagre** · 29/07/2016, 14h00

Envoyé par emixam16

le raspi est fait pour les hobbyistes pas pour les pros

Les "pros" ne se privent pas d'utiliser le raspberry pi quand c'est pertinent :
https://www.citrix.com/blogs/2016/05...-hdx-ready-pi/

Un cluster de Raspberry pi?

Big Data

Discussions similaires

Partager

Partager