Apache Spot : l'outil pour combattre les menaces avancées par un modèle ouvert de données,
une initiative d'Intel et Cloudera

Selon Cloudera, l’un des plus grands défis auxquels les entreprises sont confrontées aujourd'hui dans leur lutte contre les menaces informatiques est la collecte et des données de normalisation provenant de nombreuses sources de données d'événements de sécurité (elles peuvent souvent se compter en milliers) pour procéder aux analyses nécessaires. Ce processus se traduit souvent par des analyses qui deviennent tributaires de technologies spécifiques pour la détection des menaces et cela empêche de développer la flexibilité et l'agilité nécessaires pour garder le rythme face à des attaques de plus en plus.

Cloudera et Intel ont donné à la Fondation Apache un projet open source baptisé Spot et qui s’appuie sur Hadoop et Spark pour combiner l'analyse des big data et l'apprentissage machine dans la détection des menaces avancées. Apache Spot (qui a été accepté dans l’incubateur de l'Apache Software Foundation), anciennement connu sous le nom Open Network Insight (ONI), est un projet open source (basé sur la plate-forme Cloudera) qui a été développé au départ par les ingénieurs Intel Corp. pour des analyses de cybersécurité. ONI repose sur un modèle de données ouvert axé sur la communauté.

« L'objectif est de créer un modèle de données commun que tout développeur pourra intégrer dans ses applications afin de les doter de capacités analytiques leur permettant de prendre en charge des problèmes de cybersécurité », a déclaré Mike Olson, cofondateur et directeur de la stratégie de Cloudera, lors de la conférence Strata+Hadoop World qui a s'est achevée le 29 septembre à New York. « C’est un gros défi, mais la solution pourrait avoir un impact énorme partout dans le monde », a-t-il ajouté.

Aujourd'hui, l'utilisation principale cause de Spot est l'analyse du trafic réseau pour les flux de réseau (NetFlow, sFlow, et ainsi de suite), DNS et proxy. Globalement, Spot permet l'identification des menaces par détection d'événement anormal utilisant à la fois l'apprentissage machine supervisé et non supervisé. Cependant, la stratégie de modèle ouvert de données de Spot vise à étendre les capacités existantes de Spot pour afin d’aborder un ensemble plus large de cas d'utilisation de la cybersécurité que ceux qui sont actuellement pris en charge.

La disponibilité d'un modèle ouvert de données, qui peut être appliqué « en lecture » ou « en écriture », en batch ou flux, permettra la séparation des analyses de sécurité à partir des sources de données spécifiques sur lesquels ils sont conçus. Cette « séparation des tâches » a pour objectif de permettre à la communauté Spot de lancer des analyses indépendantes de technologies spécifiques et de fournir la souplesse nécessaire pour modifier les sources de données sous-jacentes, sans qu’il n’y ait un impact sur les analyses.


En clair, Apache Spot va se servir de l'apprentissage machine comme un filtre afin de séparer le trafic inoffensif du trafic dangereux mais aussi de rendre compte des comportements inhabituels sur le réseau. Il va aussi se servir de plusieurs procédures, comme l'enrichissement contextuel, le filtrage de bruit, les listes blanches et les fonctions heuristiques pour produire une liste des menaces les plus probables. Il va aussi faciliter le croisement de données provenant de plusieurs applications.

Le projet compte à ce jour plusieurs contributeurs dont eBay, Webroot, Jask, Cybraics, Cloudwick et Endgame. « La communauté open source est l’environnement idéal pour Apache Spot, car elle va favoriser l’adoption d’une approche collective de la lutte contre la cybercriminalité », a déclaré Ron Kasabian, vice-président et directeur général de l’Analytics and Artificial Intelligence Solutions Group d'Intel. « L'expertise conjointe des contributeurs va contribuer à diffuser plus largement l’idée du modèle ouvert de données que propose Apache Spot. Le projet met également en place les bases d’une collaboration qui doit permettre de résoudre l’un des défis parmi les plus complexes, en évolution constante, que représente l'analyse de la cybersécurité ».

Source : blog Cloudera, Apache Spot