【技术实现步骤摘要】
一种基于邻域关系的高维数据快速降维方法以及系统
[0001]本专利技术涉及数据处理
,特别涉及一种基于邻域关系的高维数据快速降维方法以及系统。
技术介绍
[0002]在科学任务中通常要面对大量的高维数据,如全球气候模式识别及海洋涡旋检测过程中,均面对大量的高维气象海洋观测数据。数据的高维度一方面丰富了数据特征,但另一方面,在众多维度中,部分维度包含冗余信息,甚至干扰信息,给数据挖掘、分析、存储及访问带来了严峻挑战。
[0003]降维技术的主要目标是找到一个保留原数据集中绝大部分有意义信息的嵌入,以揭示数据的内在结构,即提取数据的主要特征,其中基于嵌入表示的非线性降维方法通过非线性映射将高维空间数据的潜在结构映射至低维空间表示,并保持原数据集的结构特征。经典的词向量嵌入表示方法Word2vec不仅保持了原文本的句法特征,而且保持了语义特征,其Skip
‑
gram模型是一个计算高效的两层神经网络模型,不仅可以学习大量单词的高质量分布式表示,而且为众多其他新对象的嵌入表示提供了解决方案,例如文本、图 ...
【技术保护点】
【技术特征摘要】
1.一种基于邻域关系的高维数据快速降维方法,其特征在于,包括如下步骤:计算原始矩阵中所述数据点与其邻居之间的相似度以及所述数据点与其邻居的邻居之间的相似度,根据所述数据点与其邻居之间的相似度以及所述数据点与其邻居的邻居之间的相似度,计算得到所述数据点的近似邻域图;从所述数据点的近似邻域图中随机采样,将随机采样得到的多个采样点作为所述数据点的上下文;基于所述数据点的上下文,通过词向量Skip
‑
gram模型学习通用数值型矩阵的嵌入表示。2.根据权利要求1所述的基于邻域关系的高维数据快速降维方法,其特征在于,所述计算原始矩阵中所述数据点与其邻居之间的相似度和所述数据点与其邻居的邻居之间的相似度,根据所述数据点与其邻居之间的相似度和所述数据点与其邻居的邻居之间的相似度,计算得到所述数据点的近似邻域图,包括:选取所述数据点相应的多个第一邻居以及所述数据点的每个第一邻居相应的多个第二邻居,其中,选取出的第一邻居的数量和选取出的第二邻居的数量相同;计算所述数据点与其任意一个第一邻居之间的相似度以及所述数据点与其任意一个第一邻居的任意一个第二邻居之间的相似度;若所述数据点与其任意一个第一邻居之间的相似度小于所述数据点与其任意一个第一邻居的任意一个第二邻居之间的相似度,则将所述数据点的该第二邻居替换该所述数据点的该第一邻居;重复上述替换过程,直至得到替换完成后的所述数据点的所述多个第一邻居,并基于替换完成后的所述数据点的所述多个第一邻居生成所述数据点的近似邻域图。3.根据权利要求2所述的基于邻域关系的高维数据快速降维方法,其特征在于,所述从所述数据点的近似邻域图中随机采样,将随机采样得到的多个采样点作为所述数据点的上下文,包括:归一化所述原始矩阵中的第i个所述数据点与其邻域图中多个的第一邻居之间的相似度;在归一化值的范围内选取随机值s,其中,sim()表示相似度计算函数,k表示第i个所述数据点相应的第一邻居的数量,k表示第i个所述数据点相应的第一邻居的数量,表示第i个所述数据点的第j个第一邻居,N
k
(i)表示第i个所述数据点的全部k个第一邻居;若第i个所述数据点与其第一邻居之间的相似度满足则将第i个所述数据点的第一邻居作为第i个所述数据点的采样点;重复上述采样过程,直至选取第i个所述数据点的采样点数量达到设定值,将得到的多个采样点作为第i个所述数据点的上下文。4.根据权利要求3所述的基于邻域关系的高维数据快速降维方法,其特征在于,在第i个所述...
【专利技术属性】
技术研发人员:任小丽,宋君强,任开军,李小勇,邓科峰,汪祥,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。