章十一 | Notion

本章讨论无监督学习中应用最为广泛的聚类算法

聚类算法介绍

聚类是一种经典的无监督学习方法。无监督学习的目标是通过对无标记训练样本的学习，发掘和揭示数据集本身潜在的结构与规律，即不依赖于训练数据集的类标记信息。

聚类则是试图将数据集的样本划分为若干个互不相交的类簇，从而每个簇对应一个潜在的类别。

最基本的问题就是度量样本之间的相似性，这便是对距离度量的研究。分类完，评价聚类结果的好坏，便是性能度量。

graph LR
  连续属性 --全部--> 有序属性
	离散属性 --大部分--> 无序属性
	离散属性 --小部分--> 有序属性
  无序属性 --记为--> 向量形式 --> VDM方法
	有序属性 --直接--> 闵可夫斯基距离

所有的特征向量，首先根据离散与否进行划分。

连续属性和一部分存在序关系的离散属性（例如：身高属性“高”“中等”“矮”，可转化为{1, 0.5, 0}），属于有序属性，可以直接用来计算距离，使用闵可夫斯基距离。

离散属性大部分如果没有序，需要使用VDM方法进行计算。注意，标记离散属性的时候，可以使用向量中的1/0进行表示，例如：属性中的性别“男”“女”，可转化为{（…,1,0,…），（…,0,1,…）}

Untitled