一种基于最优传输理论的高维数据可视化方法技术

技术编号:24686363 阅读:108 留言:0更新日期:2020-06-27 08:46
本发明专利技术涉及一种基于最优传输理论的高维数据可视化方法,属于数据可视化和维数缩减领域。该方法包括:S1:对原始高维数据进行数据预处理和归一化;S2:基于最优质量传输迭代收缩采样点;每次迭代过程先计算最优传输方案,然后根据最优传输方案将采样点移动到点集质量重心;S3:计算每个骨架点之间的连接关系,连接骨架点,构建骨架分支;S4:根据对称SNE公式求解高低维的各点对其他点的高斯分布和,构成高斯分布矩阵;S5:计算距离矩阵,并最小化Wasserstein距离得到传输计划矩阵;S6:利用传输计划矩阵并根据能量函数求解低维坐标。本发明专利技术能从高维数据提取拓扑结构,并且能将拓扑结构和数据投影到二维平面上的目标。

A high-dimensional data visualization method based on optimal transmission theory

【技术实现步骤摘要】
一种基于最优传输理论的高维数据可视化方法
本专利技术属于维数缩减和可视化
,涉及一种基于最优传输理论的高维数据可视化方法。
技术介绍
随着可用计算资源和传感设备数量的不断增加,我们收集和生成各种大型复杂数据集的能力不断增强。高维数据集出现在许多研究领域,如经济学、生物学、化学、政治学、天文学和物理学等。它们的广泛可用性、不断增加的规模和复杂性在对其进行有效的可视化领域中带来了新的挑战和机遇。例如,生物学中的基因组微阵列、空气质量研究中的光谱数据、核安全工程中的模拟参数和燃烧模拟中的化学成分[5]都可以映射到高维空间(几十到几百维)进行探索。另一方面,由于显示设备和我们的视觉系统的物理限制,无法直接显示和快速识别尺寸大于2或3的结构。在过去的十年中,人们引入了多种方法来利用低维投影或抽象来视觉传达高维结构信息:从降维到视觉编码,从定量分析到交互式探索。许多调查集中在高维数据可视化的不同方面,如平行坐标、质量度量、减少杂波、可视化数据挖掘和交互技术。多变量科学数据集也在其中进行了研究,而其他研究则集中在视觉编码技术的各个方面。这些论文提供了现有技术的有价值的总结和激发他们各自领域的未来方向的讨论。降维是分析和可视化高维数据集的基本技术之一。降维技术大致可分为两大类:线性降维和非线性降维(流形学习)。线性投影:线性投影使用线性变换将数据从高维空间投影到低维空间。它包括许多经典方法,如主成分分析(PCA)、多维标度(MDS)、线性判别分析(LDA)和各种因子分析方法。非线性降维:非线性降维可以在度量或非度量设置中发生。基于图形的技术被设计来处理度量输入,例如ISOMAP、局部线性嵌入(LLE)和LaplacianEigenmap(LE),其中邻域图被用于捕获局部距离邻近性并建立空间的数据驱动模型。另一组技术通过捕捉非度量差异来解决通常称为非度量MDS或基于应力的MDS的非度量问题。非度量MDS的基本思想是通过迭代优化直接最小化映射误差。但是,线性投影的技术缺陷是有线性投影,往往是直接对投影信息的距离矩阵进行操作,所以会出现对含有分类信息的数据分类不太明显的问题;而非线性降维也就是非线性投影的技术缺陷有该类方法对数据的全局特征保持的不好,很容易出现看不出本身数据形状的问题,最后非度量MDS这类方法,在效果上和前两类中的线性投影相差不大,但是时间开销上却很大。
技术实现思路
有鉴于此,本专利技术的目的在于提供种基于最优传输的高维数据可视化方法,将常用于三维数据中的骨架提取算法(即质量驱动拓扑感知曲线骨架提取算法)应用于高维数据,并且结合基于最优传输高位数据降维算法,将提取到的骨架点和骨架点周围的采样点降维到二维平面上,方便研究人员和用户理解数据特点和特征。为达到上述目的,本专利技术提供如下技术方案:一种基于最优传输理论的高维数据可视化方法,包括以下步骤:S1:对原始高维数据进行数据预处理和归一化;S2:基于最优质量传输迭代收缩采样点;每次迭代过程先计算最优传输方案,然后根据最优传输方案将采样点移动到点集质量重心;S3:计算每个骨架点之间的连接关系,连接骨架点,构建骨架分支;S4:根据对称SNE公式求解高低维的各点对其他点的高斯分布和,构成高斯分布矩阵;S5:计算距离矩阵,并最小化Wasserstein距离得到传输计划矩阵;S6:利用传输计划矩阵并根据能量函数求解低维坐标。进一步,所述步骤S1具体包括:对原始高维数据点集进行随机采样,得到新的采样点集,然后对原始数据点集进行质量分配,同时保证两个点集的总质量相同。进一步,步骤S2中,所述迭代收缩采样点包括:首先初始化传输代价矩阵;其次使用熵约束法更新最优传输计划,得到新的传输矩阵;最后更新采样点坐标。进一步,所述步骤S3具体包括:首先选择不在任何骨架分支上的骨架点;其次搜索相邻骨架点,纳入分支中;最后继续搜索直到所有的骨架点都位于分支上。进一步,所述步骤S4包括:选择高维点集中的任意一点,求该点到剩余点的高斯分布和,同理选择随机分布的低维点集中的任意一点,求该点到剩余点的高斯分布和,得到高低维的高斯分布向量;具体包括:将高维点之间的距离转化为高斯分布和,低维映射qij中的成对相似性表示为:在高维空间中pij同理表示为:然后采用一个更直观的方法定义:其中,X代表高维数据点,σ代表用户设置的参数,n为数据点的总个数,pj|i代表高维数据点的高斯分布和、pi|j代表低维数据点的高斯分布和,yi、yj、xi、xj分别表示第i和第j个低维数据点和高维数据点。进一步,所述步骤S5包括:计算高维空间中数据点之间的距离矩阵,并根据距离矩阵和高低维的高斯分布向量最小化Wasserstein距离,得到传输计划矩阵;具体包括:在Wasserstein表达式后面增加一个保持每个点全局距离的正则项,并给两项增加两个超参数来控制前后两项来保证集群点间的距离能被低维正确的表达,完整的能量公式如下:其中,λ为平衡两个项的参数,C为高维空间中的欧氏距离矩阵,n为数据点的总个数,D为高维数据点每个点之间的距离矩阵;使用Network-simplex方法求解得到传输计划矩阵为:Π=diag(ui)Kdiag(vi)其中,ε为参数需要用户手动设置。进一步,所述步骤S6具体包括:首先通过Wasserstein距离描述能量函数:然后通过传输计划矩阵和随机梯度下降法求解能量函数,最后输出带有骨架点的降维后的二维坐标。本专利技术的有益效果在于:本专利技术所述可视化方法,在质量驱动的拓扑曲线提取算法的基础上,对其进行扩展,使其不仅适用于三维数据点,更可以在高维数据上使用,并对算法进行优化,可以使用户手动选择骨架点的个数。对高维数据进行拓扑曲线提取,使在保留其数据特征点的基础上,引入了骨架点的拓扑信息。将最优传输理论应用于数据降维中,在保证高维数据点的距离信息的前提下改进降维算法,使其既保留拓扑性质,又可以保留部分分类效果。本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。附图说明为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作优选的详细描述,其中:图1为本专利技术所述的基于最优传输的高维数据可视化的流程图;图2为本专利技术所述的质量驱动的拓扑感知曲线骨架提取法的具体流程图;图3为本专利技术所述的基于最优传输的降维算法的具体流程图;图4为本专利技术的可视化方法在三维模型上的效果图;图5为本专利技术的可视化方法在高维数据上的效果图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可本文档来自技高网
...

【技术保护点】
1.一种基于最优传输理论的高维数据可视化方法,其特征在于,该方法包括以下步骤:/nS1:对原始高维数据进行数据预处理和归一化;/nS2:基于最优质量传输迭代收缩采样点;每次迭代过程先计算最优传输方案,然后根据最优传输方案将采样点移动到点集质量重心;/nS3:计算每个骨架点之间的连接关系,连接骨架点,构建骨架分支;/nS4:根据对称SNE公式求解高低维的各点对其他点的高斯分布和,构成高斯分布矩阵;/nS5:计算距离矩阵,并最小化Wasserstein距离得到传输计划矩阵;/nS6:利用传输计划矩阵并根据能量函数求解低维坐标。/n

【技术特征摘要】
1.一种基于最优传输理论的高维数据可视化方法,其特征在于,该方法包括以下步骤:
S1:对原始高维数据进行数据预处理和归一化;
S2:基于最优质量传输迭代收缩采样点;每次迭代过程先计算最优传输方案,然后根据最优传输方案将采样点移动到点集质量重心;
S3:计算每个骨架点之间的连接关系,连接骨架点,构建骨架分支;
S4:根据对称SNE公式求解高低维的各点对其他点的高斯分布和,构成高斯分布矩阵;
S5:计算距离矩阵,并最小化Wasserstein距离得到传输计划矩阵;
S6:利用传输计划矩阵并根据能量函数求解低维坐标。


2.根据权利要求1所述的一种基于最优传输理论的高维数据可视化方法,其特征在于,所述步骤S1具体包括:对原始高维数据点集进行随机采样,得到新的采样点集,然后对原始数据点集进行质量分配,同时保证两个点集的总质量相同。


3.根据权利要求1所述的一种基于最优传输理论的高维数据可视化方法,其特征在于,步骤S2中,所述迭代收缩采样点包括:首先初始化传输代价矩阵;其次使用熵约束法更新最优传输计划,得到新的传输矩阵;最后更新采样点坐标。


4.根据权利要求1所述的一种基于最优传输理论的高维数据可视化方法,其特征在于,所述步骤S3具体包括:首先选择不在任何骨架分支上的骨架点;其次搜索相邻骨架点,纳入分支中;最后继续搜索直到所有的骨架点都位于分支上。


5.根据权利要求1所述的一种基于最优传输理论的高维数据可视化方法,其特征在于,所述步骤S4包括:选择高维点集中的任意一点,求该点到剩余点的高斯分布和,同理选择随机分布的低维点集中的任...

【专利技术属性】
技术研发人员:秦红星韩坤
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1