本章讨论无监督学习中应用最为广泛的聚类算法
聚类是一种经典的无监督学习方法。无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。
聚类则是试图将数据集的样本划分为若干个互不相交的类簇,从而每个簇对应一个潜在的类别。
最基本的问题就是度量样本之间的相似性,这便是对距离度量的研究。分类完,评价聚类结果的好坏,便是性能度量。
graph LR
连续属性 --全部--> 有序属性
离散属性 --大部分--> 无序属性
离散属性 --小部分--> 有序属性
无序属性 --记为--> 向量形式 --> VDM方法
有序属性 --直接--> 闵可夫斯基距离
所有的特征向量,首先根据离散与否进行划分。
连续属性和一部分存在序关系的离散属性(例如:身高属性“高”“中等”“矮”,可转化为{1, 0.5, 0}),属于有序属性,可以直接用来计算距离,使用闵可夫斯基距离。
离散属性大部分如果没有序,需要使用VDM方法进行计算。注意,标记离散属性的时候,可以使用向量中的1/0进行表示,例如:属性中的性别“男”“女”,可转化为{(…,1,0,…),(…,0,1,…)}