涉及到降维是一件极其麻烦的事情!

在选择降维方法的时候,人们不得不考虑很多因素。首先要考虑输入数据的性质。

比如说,对于连续数据、分类数据、计数数据、距离数据,它们会需要用到不同的降维方法。

对数据的性质和分辨率的考虑是十分重要的。

如果不考虑输入数据的性质贸然进行降维的话虽然能够使得这些这些高维模型低维化。

极有可能使得原本离散的数据直接“糊”在一起。

这种情况比高维离散还要糟糕。

在应用正式的降维技术之前。

还要对高维数据进行适当的预处理。

毕竟不是所有的数据都是样本数据。

而有的时候进行预处理时。

最佳的预处理方式又是引入降维。

这就会陷入一个疯狂套娃的循环之中。

总而言之,对高维数据进行降维是一件超级麻烦的事情。

在实际进行处理时一般自然语言处理方向的研究人员一般都竭力避免出现高维爆炸的情况。

而不是等出现高维数据之后再进行低维处理。

高维数据的低维处理某种程度更像是一种迫不得已的异常麻烦的补救措施。

很多东西因为麻烦就足以让人说再见了。

繁复的过程意味着容易出错。

而美好的事物所呈现的形式应该是简洁的。

就像欧拉公式一般。

正因为如此,伊芙·卡莉觉得林灰这种天才想表达的意思绝对不是将高维数据降维成低维数据。

如果林灰想表达的意思不是对高维数据做手脚。

而是说对传统的向量空间模型做文章?

将高维向量空间模型转化为维度较低的空间向量模型?

这种思路倒是不错。

但这种尝试先前并不是没人做过。

很早之前就有人进行了尝试。

早在上世纪末期就有人提出了潜在语义分析模型。

潜在语义分析模型是基于空间向量模型(vsm)而提出的。

潜在语义分析模型其基本思想是在得到文本的空间向量表示后。

通过奇异值分解,将高维且稀疏的空间向量映射到低维的潜在语义空间当中。

在得到低维的文本向量和单词向量之后。

再用余弦相似度等度量方式来计算文本间的语义相似度。

潜在语义分析的本质思想就是通过降维来去除原始矩阵中的噪音,从而提高计算准确度。

虽然这种思路不错,但这种方法并没有普适性。

这是因为潜在语义分析模型在架构模型的过程中采用的奇异值分解。

这种做法使得计算复杂度增高,并且可移植性较差。

在这种方法提出来之后。

并不是没人尝试对这种方法进行过改进。

同样是上世纪末。

有研究人员提出了概率潜在语义分析模型。

这种模型是基于概率,而不是基于奇异值分解。

这种模型相比于潜在语义分析模型的主要差异是增加一个主题层。

而后使用期望最大化算法训练主题,并找到一个概率性的潜在主题模型。

以此用来预测文本空间向量中的观察数据。

(本章完)

本章未完,点击下一页继续阅读。

都市言情小说相关阅读More+