Bonjour,

Je désire programmer un arbre décision, auquel je passerai un jeu de données (probablement chargé depuis un fichier csv)

J'avais imaginé, que la dernière colonne du fichier serait la classe et les autres serait les variables. La 1ère ligne du fichier csv contenant les entêtes.

Néanmoins avec cette modélisation de base, je me demande comment distinguer les variables discrètes des variables continue, car si j'ai bien compris je dois faire un travaille préalable sur les variables continue(pour segmenter ces données, et pouvoir ensuite effectuer des affectations aux nouveaux nœuds).

J'ai donc 3 questions: suis-je obligé de donner à mon algorithme l'information sur le type de variable représentée par ma colonne dans le fichier csv (continu/discrète) ? - Je pense que oui.. mais j'aimerais confirmation

Comment sépare t'on en sous ensemble les valeurs d'une variable continue ? Existe t'-il des algorithmes pour cela ?

J'ai vu dans un exemple sur le net, un arbre de décision ou certain nœuds représentaient un ensemble de variable discrètes... Existe t'il un algorithme pour établir des sous groupes de variables discrètes ?

Merci d'avance !