本章讨论无监督学习中应用最为广泛的聚类算法

聚类算法介绍


聚类是一种经典的无监督学习方法。无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。

聚类则是试图将数据集的样本划分为若干个互不相交的类簇,从而每个簇对应一个潜在的类别。

最基本的问题就是度量样本之间的相似性,这便是对距离度量的研究。分类完,评价聚类结果的好坏,便是性能度量

距离度量


graph LR
  连续属性 --全部--> 有序属性
	离散属性 --大部分--> 无序属性
	离散属性 --小部分--> 有序属性
  无序属性 --记为--> 向量形式 --> VDM方法
	有序属性 --直接--> 闵可夫斯基距离 
	
  

所有的特征向量,首先根据离散与否进行划分。

连续属性和一部分存在序关系的离散属性(例如:身高属性“高”“中等”“矮”,可转化为{1, 0.5, 0}),属于有序属性,可以直接用来计算距离,使用闵可夫斯基距离。

离散属性大部分如果没有序,需要使用VDM方法进行计算。注意,标记离散属性的时候,可以使用向量中的1/0进行表示,例如:属性中的性别“男”“女”,可转化为{(…,1,0,…),(…,0,1,…)}

Untitled