本章中讨论的是一种分类算法:决策树 (Decision Tree)

决策树定义


<aside> 📌 举例说明:一个小哥使用某种交通方式(因),花了一些时间(果)

后验概率:预先已知结果(路上花的时间),然后根据结果估计(猜)原因(交通方式)的概率分布即 后验概率(由于小哥花了一个小时,估计是走路过来,这种估计的概率值为后验概率)

先验概率:我们是在结果发生前就开始猜的,根据历史规律等方法确定原因 (使用的交通方式)的概率分布即 先验概率。(由于小哥有车,估计开车的概率。这种估计的概率值为先验概率)

似然估计:先定下来原因根据原因来估计结果的概率分布即 似然估计。(使用步行,估计时间需要1小时,这种估计是似然估计)

</aside>

决策树通过不断进行对某一属性的测试,从而对测试集进行分类。

68747470733a2f2f692e6c6f6c692e6e65742f323031382f31302f31372f356263373238656338346137372e706e67.png

从上一张图片我们可以看出决策树的定义方法:

<aside> <img src="/icons/cursor-click_pink.svg" alt="/icons/cursor-click_pink.svg" width="40px" /> 每个非叶节点表示一个特征属性测试。

每个分支代表这个特征属性在某个值域上的输出。

每个叶子节点存放一个类别。

每个节点包含的样本集合通过属性测试被划分到子节点中,根节点包含样本全集。

</aside>

决策树的构建可以自顶向下根据给定的属性不断分类构建。如下可见↓

Untitled

但是属性划分的方法比较重要,即上图的第8步。常见的算法有下列三种

属性划分算法