Bonjour,
Je fais de la recherche dans le domaine de fouille de données. Dans le but de suivre l’évolution de cette discipline et d'adapter mes travaux en conséquences, je voudrai
me mettre un peu en Big data.
Je compte me former toute seule. Les outils/langages que je compte utiliser: spark, python donc pyspark sachant que je programme déjà en python avec les bibliothèques de DataScience: pandas, sklearn, numpy etc
La première étape que je compte faire: c'est de tester un algorithme de machine learning sur des données SNAP de l'université stanford
lien: https://snap.stanford.edu/data/. Avez-vous une idée sur ces données ? est-ce que c'est possible de les manipuler avec spark?
je vois que ces données ont une structure d'un graphe. Je n'ai jamais manipulé ce genre de données. Avez-vous des liens ou des docs pour comprendre
comment les manipuler? La documentation fournie par SNAP ne m'a pas beaucoup aidé.
Sinon, que me conseillez-vous de comprendre (concepts/outils) en premier pour cette auto-formation ?
Merci
Partager