Bonjour,

Je souhaite appliquer l'algorithme Random Forest sur un jeu de données binarisé de ce genre

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
22 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 1 
28 0 1 0 0 0 1 0 0 0 0 0 1 0 0 1 0 
22 1 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0
La première colonne étant la classe et le reste des colonnes sont les attributs (le 1 implique la présence de l'attribut 0 sinon)

Je ne sais pas par quoi commencer pour appliquer Random Forest, il me semble que je dois diviser mon jeu de données en 2 parties training et test (corrigez moi si je raconte des bêtises).
Sur internet je trouve des exemples d'application de cet algo mais sur des jeux de données CSV donc je me demande est ce que mon data nécessite une étape de pré-traitement ou c'est faisable avec un jeu de données binarisé ?
Je veux bien des documentation en français qui pourront m'être utile vu que je connais quasiment rien sur cet algorithme.

Pour terminer j'ai aussi une autre question un peu bête mais je veux bien être sûr une fois pour toute, est ce que on peut utiliser la méthode de la validation croisée sur cet algo ? est ce que c'est le cas pour tous les autres classifieurs à savoir SVM, kNN et d'autres ?

Je vous remercie d'avance pour vos réponses