本章介绍了一些机器学习中用到的基础知识

基本术语


  1. 机器学习的定义:通过历史的数据,使得计算机程序在任务A上获得了性能P的改善
  2. 一个个体所有的特征 / 属性称为这个个体的一个记录 / 标签,所有记录的集合称为数据集
  3. 一个样本(即个体)的特征数为维数
  4. 泛化能力指模型适用于新样本的能力
  5. 预测值为连续值的问题为:回归
  6. 预测值为离散值的问题为:分类
  7. 标记信息不同于记录,指代的是这个瓜真实情况是好的还是坏的(即正确值),是关于示例结果的信息。有标记信息的学习任务是监督学习,反之是无监督学习

模型的评估与选择


  1. 误差的分类: 训练集产生的误差是训练误差 测试集产生的是测试误差 在新样本上的误差称为泛化误差

  2. 过拟合与欠拟合 在过拟合问题中,训练误差十分小,但测试误差教大;在欠拟合问题中,训练误差和测试误差都比较大。

过拟合将训练集中的自身特点以为成了普通特征,甚至普通特征没有学习出来,导致学习器出现泛化能力差的情况

[<https://camo.githubusercontent.com/4a2f66579a44d926c7bf7d21500611fa1de151b92bacfb1b1f1802fc55d3bed3/68747470733a2f2f692e6c6f6c692e6e65742f323031382f31302f31372f356263373138313137323939362e706e67>](<https://camo.githubusercontent.com/4a2f66579a44d926c7bf7d21500611fa1de151b92bacfb1b1f1802fc55d3bed3/68747470733a2f2f692e6c6f6c692e6e65742f323031382f31302f31372f356263373138313137323939362e706e67>)

测试集和训练集


记录各种测试集和训练集的划分方法

  1. 留出法 将数据集二分,大约2/3-4/5的样本用作训练,剩下的用作测试,尽可能一致地划分(减少分布差异)。同时重复若干次取平均值

优点:快,简单