高维语义空间降维

2019-12-17 14:22:47  浏览:677  作者:老王

  “维度灾难”指在对高维数据组织管理处理过程中遇到的由于数据特征(维度)过多而引起的所有问题,主要表现为以下几个方面:

  (1)高维空间数据分布非常稀疏,很难对有相似语义的数据信息进行有效的组织管理,在发现有相似语义的数据信息时,需要访问较大的空间区域;

  (2)高维空间中一个给定数据到其最近邻和最远邻的距离在很多情况下几乎是相等的,不能高效地组织和发现与该数据点语义相似的数据信息;

  (3)随着维数的升高,高维索引的数据划分效果变差,数据索引节点之间的重叠度随之增大,导致了数据的重复搜索并增加了数据访问路径,从而影响了搜索效率。

  此外,高维索引搜索效率受语义空间维度及数据对象内在维度(IntrinsicDimension)的影响,当在高维空间处理内在维度很低的数据对象时(如在1000维空间内查找2维平面),由于受到与内在维度无关维度的影响,导致搜索效率很低。降维方法是解决“维灾”问题的有效手段,通过有效手段将数据从高维空间映射到低维空间,同时尽可能保持数据集的整体结构和分布不变,从而获得高维数据的一个有意义的低维表示,进而降低基于语义的相似性搜索算法的复杂性,提高搜索效率,如图10。

高维语义空间降维

  降维方法从数学角度的描述如下:设X=图片.png为D维语义空间RD内数据元素个数为N的一个数据集,X的内在维度为图片.png,即数据集X内的数据元素属于嵌于D维语义空间RD内一个维度为d的子空间。降维技术通过找到合适的降维映射F:X→Y,将数据集X映射为一个新的维度为d的数据集Y,图片.png,同时尽量保证原数据集的拓扑结构不变,从而可以在较低维空间内对数据对象进行处理,有效地消除了维灾的影响。

  目前学者们已经陆续提出了多种降维方法,如潜在语义索引[60]、主成分分析[61]、多维尺度分析[62]以及近年来提出的基于流形学习[63]的算法等。从不同角度可以对降维方法作如下分类:从降维映射形式角度可分为线性及非线性降维;根据降维过程中是否使用数据中的监督信息可分为无监督降维,有监督降维及半监督降维;从操作数据集范围角度可分为全局方法和局部方法;根据降维过程中特征获取途径可分为特征选取和特征抽取两类。本文根据降维映射形式将现有降维技术分为线性降维和非线性降维,如图11。

高维语义空间降维

  形式上,设图片.png维空间内数据集合,通过降维映射

高维语义空间降维

  得到较低维空间Rd中的数据集Y,图片.pngRd。若F的每个分量Fi都只是X的线性函数,则称F为线性降维;否则,称F为非线性降维。

评论区

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

【随机新闻】

返回顶部