本章讨论机器学习中的降维和度量学习
在高维情形下,数据样本将变得十分稀疏,因为此时要满足训练样本为“密采样”的总体样本数目是一个触不可及的天文数字。
**训练样本的稀疏使得其代表总体分布的能力大大减弱,**从而消减了学习器的泛化能力;
同时当维数很高时,计算距离也变得十分复杂,甚至连计算内积都不再容易
缓解维数灾难的一个重要途径就是降维,即通过某种数学变换将原始高维空间转变到一个低维的子空间 。在这个子空间中,样本的密度将大幅提高,同时距离计算也变得容易。其合理性在于在很多实际的问题中,虽然训练数据是高维的,但是与学习任务相关也许仅仅是其中的一个低维子空间,也称为一个低维嵌入,例如:数据属性中存在噪声属性、相似属性或冗余属性等。
对高维数据进行降维能在一定程度上达到提炼低维优质属性或降噪的效果。
对于度量,我们指的是模型中类似距离的度量方法,不同的距离度量函数适用于不同的样本特性。那么学习距离度量来等效降维的方法就是度量学习
KNN即K邻近算法,是一种分类算法(也可以用于回归其实)。由于KNN对距离的度量比较重要,所以我们将它放在这里进行研究。