<aside> 💡 正例指的是分类问题中带有正确标记的样本,负例就是具有错误标记的任意样本
</aside>
前几章的内容围绕了机器学习的术语,学习器性能的评估,比较等基础内容,之后学习的是具体的模型
线性模型是目标函数为(广义)线性的模型。在机器学习中,线性模型就是让程序学习到一个线性的函数等,使其准确地进行分类/预测的工作。
<aside> 💡 很多时候,输入的属性值不能直接被程序所使用,需要做一定的处理。
对于具有序关系的属性值可以转化为数值形式,比如身高属性分为“高”“中等”“矮”,可转化为数值:{1, 0.5, 0}。 如果属性没有序关系或者大小等信息,可以转化为二元向量,例如:性别属性分为“男”“女”,可转化为二维向量:{(1,0),(0,1)}。
</aside>
如果一个模型的标记和属性之间的函数是广义的线性函数,如:

其中 $w$ 和 $x$ 是向量。g是联系函数,这是广义线性函数定义。

线性几率回归(逻辑回归) 线性几率回归使用了将预测值投影到0-1的的联系函数
通常其作用是得出0-1之间的y,作为该样本为正例的概率,即用来分类。
因此也可以作为连续到离散的一个转换
线性判别分析
线性判别分析(Linear Discriminant Analysis,简称LDA),其基本思想是:将训练样本投影到一条直线上,使得同类的样例尽可能近,不同类的样例尽可能远。如图所示:
多分类学习 有时我们需要分出很多类,这是我们可以使用多个二分分类器集成,解决多分类问题。
最经典的三个集成策略:“一对一”(OvO)、“一对其余”(OvR)和“多对多”(MvM) 1. OVO:N个真实类别,将其两两配对,学习产生N(N-1)/2个二分类学习器。在测试阶段,将新样本放入所有的二分类学习器中测试,得出N(N-1)个结果,最终通过投票产生最终的分类结果。 2. OVM:N个真是类别,将一个作为正类,其余为反类,产生N个学习器。测试时,得到N个结果,如N个学习器中只有一个的结果为正类,则取这个学习器所对应的正类为最终分类结果。 3. MVM:不会