Bonjour,

J'aimerais répartir sur plusieurs serveurs Spark le contenu de fichiers Open Data se rapportant à des communes.

J'ai besoin que le RDD que je constitue soit fait d'objets Java sérialisables, car ces objets auront quelques méthodes membres pour faire des constatations immédiates sur leur propre contenu.

Après quelques épreuves, j'ai constaté que je ne peux pas utiliser un procédé automatique de conversion de CSV (un format fréquent pour l'Open Data des ministères et des communes) en quelque-chose d'autre,
parce que les données que je lis réclament parfois des réactions immédiates à leur contenu pour être rectifiées ou complétées avant de pouvoir être prises en compte.

Alors, en général, j'ai écrit une méthode qui à partir d'une ligne de CSV, sait extraire une commune du code officiel géographique. Et à partir de cela, je voudrais constituer un RDD fait de :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
public class Commune implements Serializable
où la clef d'accès aux communes sera le code de la commune. Parce que beaucoup de données territoriales de l'Open Data que l'on peut associer par la suite aiment à utiliser ce code commune.
Exemple : 10121 pour la commune de Dampierre dans l'Aube.

Mais, j'ai un aussi besoin que le partitionnement se fasse par département (les deux ou trois premiers caractères du code commune est le code du département).
C'est important parce que les intercommunalités regroupent souvent 50 communes, très liées entre-elles, et il ne faudrait pas qu'obtenir des informations sur l'ensemble des communes d'une intercommunalité conduise à interroger des fragments différents, en pagaille.
Comme le plus souvent toutes les communes sont rassemblées dans le même département, à l'exception parfois d'une ou deux, un partitionnement des fragments par département serait le mieux.

C'est la première fois que je vais utiliser Spark. Et je vais l'utiliser pour faire ceci.
Avez-vous des conseils à me donner ?

Merci !