Bonjour,
Je fais depuis peu un stage en rapport avec le big-data (hadoop, giraph & cie...), et une question (probablement stupide) me taraude, n'ayant pas trouvé d'interlocuteurs qui pouvaient me répondre, je me tourne vers vous pour m'éclairer.
Aujourd'hui les serveurs utilisent des réseaux de machines très puissantes, mais aussi très chères.
Puisque le big-data permet généralement un haut niveau de parallélisation, ne serait-il pas plus efficace de se servir de réseaux de cartes de type Raspberry zero (juste pour l'exemple) à moins de 5€ unité?
Si on reprend l'exemple du raspi 0, il tourne à 1Ghz et embarque 512MiO de ram.
Prenons un exemple simple (simpliste): si on prend cette configuration pour une machine (je ne prends pas en compte les frais pour le rack puisque des frais similaires seront à prévoir pour l'architecture en Raspberry pi:
- Intel Xeon E5-2630 v4 (2.2 GHz) 10 coeurs / 20 threads (environ 800€ à l'unité)
- la RAM de serveur, on tape dans les 6€ le GO, et
- Disque dur (env 60€/TO)
Si on prend l'exemple d'un cluster de 16 machines contenant chacun 1 tel processeur, 64 GO de RAM, et 16 TO de RAM (valeurs issues du théorème du doit mouillé)
Le prix de ce cluster serait de 16*(800+6*64+60*16) ~ 34 000 €
Avec ces caractéristiques, une centaine de raspi 0 (+ une carte mémoire à une dizaine d'euros/unité) est plus puissant qu'une machine. En multipliant par 16, on obtient un prix total de 16*100*(10+5) = 24 000 €
Ainsi avec cette configuration le cluster dit classique est 42% plus cher que la configuration en Raspberry pi
Il est évident qu'un système à base de Raspberry pi aurait des inconvénients supplémentaires (plus de latence, plus dur à prototyper...), mais tout de même, pensez vous qu'il existe des applications, dans le big data mais pas uniquement, ou une architecture de ce type pourrait avoir en pratique des performances équivalentes voire supérieures à celles d'un cluster dit classique?
Si vous avez des éléments de réflexions, je serais ravis de les entendre!
Partager