IBM annonce une série de mesures dans son soutien du framework Spark,
qui passe en version 1.4.0

En 2009, l’AMPLab de l’Université de Berkeley a développé le framework Spark qui est passé en Open Source un an plus tard sous la forme d’un projet Apache. Ce framework, qui fonctionne sur un cluster de serveurs, permet de traiter les données jusqu’à 100 fois plus vite que des piles Hadoop MapReduce ou Storm.

IBM a annoncé son engagement en faveur de ce framework. « Etant donné que les données et les analyses sont incrustées dans la structure de l’entreprise et de la société – depuis les applications jusqu’à l’internet des objets (IoT) -, Spark apporte des avancements essentiels au traitement de données à grande échelle. Tout d’abord, il améliore considérablement la performance des applications tributaires des données. Ensuite, il simplifie radicalement le processus de développement d’applications intelligentes, lesquelles sont alimentées par les données » a expliqué IBM.

Concrètement, dans son effort pour accélérer l’innovation sur l’écosystème Spark, IBM a décidé d’inclure Spark dans ses propres plateformes d’analyses et de commerce, Watson Health Cloud mettra à profit Spark pour les prestataires de soin ainsi que les chercheurs tandis qu’ils accèdent à de nouvelles analyses sur les données de santé de la population. Dans le même temps, IBM va mettre à disposition en Open Source sa technologie de Machine Learning IBM SystemML et également collaborer avec Databricks pour faire évoluer les capacités de Spark. IBM offrira Spark en mode SaaS sur sa plateforme BlueMix afin de permettre aux développeurs d’exploiter les données de manière plus efficace. IBM va engager plus de 3 500 chercheurs et développeurs afin de travailler sur des projets liés à Spark dans plus d'une douzaine de laboratoires à travers le monde. Le constructeur compte ouvrir un Spark Technology Center à San Francisco pour la Data Science ainsi que la communauté des développeurs. IBM va également former plus d’un million de data scientistes et ingénieurs de données sur Spark via des partenariats avec AMPLab, DataCamp, MetiStream, Galvanize et Big Data University.

Concernant Apache Spark, notons que le framework a atteint sa version 1.4. Cette mouture embarque le support de R ainsi que de Python 3 mais aussi une meilleure optimisation des contenants et des outils de gestion de cluster qui servent à la gestion du travail distribué.

Le langage de programmation R, principalement utilisé pour des analyses statistiques et la data science, est un parfait ingrédient pour un framework de traitement de données comme Spark. SparkR, le package Spark 1.4 qui ajoute le support de R, permet aux développeurs utilisant ce langage d'écrire du code qui évolue à travers plusieurs cœurs ou des nœuds de Spark, et de lire et d'écrire tous les formats de données pris en charge dans Spark.

Le support de Python 3 est un autre ajout clé dans cette mouture. Python reste l'un des langages de prédilection pour le travail sur des données scientifiques, à la fois en raison de sa facilité d'utilisation mais aussi pour la richesse de sa collection de packages mathématiques, statistiques et sa machine learning. Le support de Python a été ajouté à Spark en 2012, mais a été limitée à la branche 2.x de Python. Comme Python 3 est de plus en plus utilisé (surtout après être devenu l'interprète Python par défaut dans Fedora), il s’agit là d’une stratégie somme toute logique.

Télécharger Spark 1.4

Source : IBM, Spark

Et vous ?

Avez-vous déjà utilisé Spark ? Qu'en pensez-vous ?