章五 | Notion

本章中讨论的是一种分类算法：决策树 (Decision Tree)

决策树定义

<aside> 📌 举例说明：一个小哥使用某种交通方式（因），花了一些时间（果）

后验概率：预先已知结果（路上花的时间），然后根据结果估计（猜）原因（交通方式）的概率分布即 后验概率（由于小哥花了一个小时，估计是走路过来，这种估计的概率值为后验概率）

先验概率：我们是在结果发生前就开始猜的，根据历史规律等方法确定原因（使用的交通方式）的概率分布即 先验概率。（由于小哥有车，估计开车的概率。这种估计的概率值为先验概率）

似然估计：先定下来原因，根据原因来估计结果的概率分布即 似然估计。（使用步行，估计时间需要1小时，这种估计是似然估计）

</aside>

决策树通过不断进行对某一属性的测试，从而对测试集进行分类。

68747470733a2f2f692e6c6f6c692e6e65742f323031382f31302f31372f356263373238656338346137372e706e67.png

从上一张图片我们可以看出决策树的定义方法：

<aside> <img src="/icons/cursor-click_pink.svg" alt="/icons/cursor-click_pink.svg" width="40px" /> 每个非叶节点表示一个特征属性测试。

每个分支代表这个特征属性在某个值域上的输出。

每个叶子节点存放一个类别。

每个节点包含的样本集合通过属性测试被划分到子节点中，根节点包含样本全集。

</aside>

决策树的构建可以自顶向下根据给定的属性不断分类构建。如下可见↓

Untitled

但是属性划分的方法比较重要，即上图的第8步。常见的算法有下列三种