本章中讨论的是一种分类算法:决策树 (Decision Tree)
<aside> 📌 举例说明:一个小哥使用某种交通方式(因),花了一些时间(果)
后验概率:预先已知结果(路上花的时间),然后根据结果估计(猜)原因(交通方式)的概率分布即 后验概率(由于小哥花了一个小时,估计是走路过来,这种估计的概率值为后验概率)
先验概率:我们是在结果发生前就开始猜的,根据历史规律等方法确定原因 (使用的交通方式)的概率分布即 先验概率。(由于小哥有车,估计开车的概率。这种估计的概率值为先验概率)
似然估计:先定下来原因,根据原因来估计结果的概率分布即 似然估计。(使用步行,估计时间需要1小时,这种估计是似然估计)
</aside>
决策树通过不断进行对某一属性的测试,从而对测试集进行分类。
从上一张图片我们可以看出决策树的定义方法:
<aside> <img src="/icons/cursor-click_pink.svg" alt="/icons/cursor-click_pink.svg" width="40px" /> 每个非叶节点表示一个特征属性测试。
每个分支代表这个特征属性在某个值域上的输出。
每个叶子节点存放一个类别。
每个节点包含的样本集合通过属性测试被划分到子节点中,根节点包含样本全集。
</aside>
决策树的构建可以自顶向下根据给定的属性不断分类构建。如下可见↓
但是属性划分的方法比较重要,即上图的第8步。常见的算法有下列三种