-
Arbres de décision
Bonjour,
Je me renseigne actuellement sur les arbres de décisions.
L'approche de ceux-ci me turlupine : les arbres de décisions sont utilisés pour réaliser des objectifs de classification et de régression.
Dans le cadre de la régression : trouvons-nous réellement des mathématiques de régression derrière les algorithmes CHAID (khi-carré), C4.5 (coefficient de Ghini), etc. ?
Ou bien ce mot est-il utilisé parce qu'il permet simplement de réaliser des problèmes dits de "régression" ?
Merci.
-
:salut:
L'arbre de décision permet de créer une fonction constante par morceaux des entrées, donc d'approcher toute fonction à une précision arbitraire… à condition de créer suffisamment de nœuds. En soi, cependant, l'algorithme ne peut effectuer qu'une classification, la régression étant un cas particulier où la classe est un nombre.
-
Merci cela répond parfaitement à ma question.
-
Bonjour,
Admettons qu'un arbre soit créée avec des données cibles (qu'on retrouvera dans les feuilles) allant de 0 à 100.
Dans le cas d'une prédiction avec des données d'entrées devant logiquement fournir une donnée cible en dehors de ce range, mon arbre me donne la valeur maximum (100).
Est-ce du à une quelconque gestion du bruit ?
Ou à l'incapacité de l'arbre de sortir une valeur n'étant pas comprise entre les valeurs minimum et maximum présentent dans les feuilles de l'arbre ?
Merci.
-
Ce serait plutôt une incapacité à généraliser par-delà les exemples que tu lui donnes : avec une régression linéaire, par exemple, si tu sors des valeurs types que tu as en entrée pour l'apprentissage, tu peux avoir une valeur de sortie qui sort de la plage de valeurs correspondant à l'apprentissage.
La gestion du bruit correspondrait plutôt à toutes les techniques pour éviter le surapprentissage : limiter la profondeur de l'arbre, nombre minimum d'échantillons par feuille, seuil utilisé pour diviser un nœud, ce genre de choses.
-
Merci cela répond à mon interrogation :)
-
Bonjour,
Je continue mon travail sur les arbres de décisions.
Concernant ton précédemment post dourouc05, je ne suis pas d'accord avec toi.
La gestion du bruit consterne les différentes méthodes qu'utilisent les algorithmes pour gérer les valeurs absentes ou extravagantes, mais cela n'a rien avoir avec la hauteur de l'arbre et ce genre de chose.
Je reviens ici car j'ai une nouvelle question : comment puis-je déterminer l’efficacité de mon arbre ? Son degré de précision ou d'erreur, etc.
En somme, est-ce que mon arbre vaut quelque chose ?
Merci.