一种基于图神经网络的大规模数据可视化降维方法技术

技术编号:27112363 阅读:22 留言:0更新日期:2021-01-25 19:09
本发明专利技术提出一种基于图神经网络的可视化降维方法,涉及深度学习、大规模数据处理的技术领域,解决了现有降维技术中,模型无法进行大规模数据训练、非参数式可视化降维模型无法处理未知数据点的可视化以及参数式可视化降维模型的可视化结果差的问题,对获取后的高维数据集进行划分和预处理后,构建异构图,建立GNN图神经网络模型,并确认损失函数,然后训练,训练完成后进行测试,损失函数面向高维大规模数据进行可视化降维,采用子图负采样的思想进行了创新训练,减少了模型的训练成本,且能把数据的维度降低,但保持住相当一部分的高维数据信息,使得后续的数据分析与处理变得更有意义且容易。有意义且容易。有意义且容易。

【技术实现步骤摘要】
一种基于图神经网络的大规模数据可视化降维方法


[0001]本专利技术涉及深度学习、大规模数据处理的
,更具体地,涉及一种基于图神经网络的大规模数据可视化降维方法。

技术介绍

[0002]随着云时代的来临,大数据(Big data)也吸引了越来越多的关注,由于大数据分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作,将会花费过多的时间和金钱,因此在大数据时代,对已收集的数据进行了解和探索是一项重要的任务,传统通过绘制2维(2D)或3维(3D)空间中数据的方法使数据散布在数据挖掘管道中,直接可视化观察数据分布,并以交互方式参与探索分析,对大规模数据分析探索起着至关重要的作用,保证了各行各业决策行动的准确性和时效性。
[0003]然而,大规模数据大多是高维的并且难以研究,例如,机器学习中样本的特征变量、图像的像素强度矢量以及单词或文档的嵌入通常包含数百至数千个维度,解决此类问题的核心思想是将高维数据投影到保留相似结构的低维空间中,这意味着投影的低维空间中的数据节点若在高维空间中是相似的,则应靠近,而若在高维空间中非相似,则应远离,这些高维度的数据引起的维度灾难现象使得很多传统的机器学习、数据挖掘算法失去原有的效果,因此,高维数据的降维技术一直是学术界关注的重点。
[0004]在降维技术中,有一类特殊的降维技术可以使数据直接下降到低维空间上,这种降维技术被称为可视化降维技术。2018年12月,董骏在《计算技术与自动化》期刊上发表了“面向数据集的ST-SNE算法高维数据降维研究”文章,对t-SNE计算高维空间样本点相似度的过程进行了改进,克服了数据集欧氏距离在高维空间中不能忠实反映样本位于非线性流形上相似关系的缺陷,提升了降维结果的分类准确度和可视化效果,然而在现有可视化降维算法中,往往需要对全部的数据进行可视化,这样的做法虽然能够使得可视化降维后的效果显著,但在模型的训练上所付出的代价是十分巨大的,因此无法进行大规模训练,而且实际应用对可视化的速度要求高,传统非参数式模型无法处理未知数据点的可视化问题。

技术实现思路

[0005]为解决现有降维技术中,模型无法进行大规模数据训练、非参数式可视化降维模型无法处理未知数据点的可视化以及参数式可视化降维模型的可视化结果差的问题,本专利技术提出了一种基于图神经网络的可视化降维方法,实现高效数据降维的同时,保证了高维数据原有的数据结构,便于后续数据的分析与处理操作。
[0006]为了达到上述技术效果,本专利技术的技术方案如下:
[0007]一种基于图神经网络的大规模数据可视化降维方法,包括:
[0008]S1.获取高维数据集,对高维数据集进行预处理;
[0009]S2.构建高维数据集的异构图;
[0010]S3.构建GNN图神经网络模型,将高维数据集及异构图作为输入,输出降维后的可
视化向量;
[0011]S4.将高维数据集划分为测试集T和训练集S,构建图神经网络模型的损失函数,利用训练集S训练GNN图神经网络模型;
[0012]S5.图神经网络模型训练完成后,利用测试集T对图神经网络模型进行测试,确定最终的可视化降维模型;
[0013]S6.将待降维的大规模数据集输入可视化降维模型,进行可视化降维。
[0014]优选地,所述高维数据集包括词向量数据集和图形像素数据集,设高维数据集表示为D={D1,D2,...D
i
,...,D
N
},D∈R
d
,R表示实数,D
i
表示第i个维度为d的向量,对高维数据集进行的预处理操作包括正则化处理。
[0015]优选地,步骤S2所述构建高维数据集的异构图的过程包括:利用高维数据集中已存在的异构图信息直接组成异构图或高维数据集中不存在异构图信息,构建高维数据集的KNN图;
[0016]所述利用高维数据集中已存在的异构图信息直接组成异构图的表达式为:
[0017]G
H
=(E
H
,V
H
)
[0018]其中,G
H
表示高维数据集的异构图,V
H
表示异构图的节点集合,V
H
中第i个节点v
i
对应的高维数据集的第一个向量D1;E
H
表示异构图的边,若节点v
i
与节点v
j
在异构图中存在边,则(v
i
,v
j
)∈E
H

[0019]优选地,构建异构图的过程中获得高维数据集的概率分布P,表示为:
[0020][0021]其中,p
ij
表示节点D
i
的附近出现节点D
j
的概率;k,l表示不同于i、j的数值编号。
[0022]优选地,步骤S3所述的构建GNN图神经网络模型的过程为:
[0023]S31.确定GNN图神经网络模型的超参数,包括隐藏层的维度h、神经网络的深度H及学习速率γ;
[0024]S32.将高维数据集D及高维数据集的异构图G
H
=(E
H
,V
H
)作为GNN图神经网络模型的输入,选定神经网络模型参数W={w1,w2,...,w
H
},其中,w
i
表示GNN图神经网络第i层隐藏层的可训练参数;
[0025]S33.构建出GNN图神经网络模型f
GNN
(G
H
,D,W)。
[0026]优选地,步骤S4所述构建图神经网络模型的损失函数面向的算法包括于t-SNE算法、UMAP算法及LargeVis算法,通过GNN图神经网络模型f
GNN
(G
H
,D,W)得到与输入高维数据集D={D1,D2,...,D
N
}对应降维后的y维可视化向量D

={D
′1,D
′2,...,D

N
},其中D

∈R
y
,y=2或3,兼容任何的可视化目标函数。
[0027]优选地,面向t-SNE算法构建的第一损失函数OF
t-SNE
满足:
[0028][0029]其中,q
ij
为中间概率,且为整数;
[0030]面向UMAP算法构建的第二损失函数OF
UMAP
满足:
[0031][0032][0033]其中,β、u均为大于零的实数;
[0034]面向LargeVis算法构建的第三损失函数OF
LargeVis
满足:
[0035][0036][0037]其中,E
H
为异构图的边集合,δ为大于0的实数,表示在选定的数据节点D
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的大规模数据可视化降维方法,其特征在于,包括:S1.获取高维数据集,对高维数据集进行预处理;S2.构建高维数据集的异构图;S3.构建GNN图神经网络模型,将高维数据集及异构图作为输入,输出降维后的可视化向量;S4.将高维数据集划分为测试集T和训练集S,构建图神经网络模型的损失函数,利用训练集S训练GNN图神经网络模型;S5.GNN图神经网络模型训练完成后,利用测试集T对图神经网络模型进行测试,确定最终的可视化降维模型;S6.将待降维的大规模数据集输入可视化降维模型,进行可视化降维。2.根据权利要求1所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,所述高维数据集包括词向量数据集和图形像素数据集,设高维数据集表示为D={D1,D2,

D
i
,

,D
N
},D∈R
d
,R表示实数,D
i
表示第i个维度为d的向量,对高维数据集进行的预处理操作包括正则化处理。3.根据权利要求2所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,步骤S2所述构建高维数据集的异构图的过程包括:利用高维数据集中已存在的异构图信息直接组成异构图或高维数据集中不存在异构图信息,构建高维数据集的KNN图;所述利用高维数据集中已存在的异构图信息直接组成异构图的表达式为:G
H
=(E
H
,V
H
)其中,G
H
表示高维数据集的异构图,V
H
表示异构图的节点集合,V
H
中第i个节点v
i
对应的高维数据集的第一个向量D1;E
H
表示异构图的边,若节点v
i
与节点v
j
在异构图中存在边,则(v
i
,v
j
)∈E
H
。4.根据权利要求3所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,构建异构图的过程中获得高维数据集的概率分布P,表示为:其中,p
ij
表示节点D
i
的附近出现节点D
j
的概率;k,l表示不同于i、j的数值编号。5.根据权利要求4所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,步骤S3所述的构建GNN图神经网络模型的过程为:S31.确定GNN图神经网络模型的超参数,包括隐藏层的维度h、神经网络的深度H及学习速率γ;S32.将高维数据集D及高维数据集的异构图G
H
=(E
H
,V
H
)作为GNN图神经网络模型的输入,选定神经网络模型参数W={w1,w2,

,w
H
},其中,w
i
表示GNN图神经网络第i层隐藏层的可训练参数;S33.构建出GNN图神经网络模型f
GNN
(G
H
,D,W)。6.根据权利要求5所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,步骤S4所述构建图神经网络模型的损失函数面向的算法包括于t-SNE算法、UMAP算法及LargeVis算法,通过GNN图神经网络模型f
GNN
(G
H
,D,W)得到与输入高维数据集D={D1,D2,

,
D
N
}对应降维后的y维可视化向量D

={D
′1,D
′2,

,D

N
},其中D

∈R
y
,y=2或3。7.根据权利要求6所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,面向t-SNE算法构建的第一损失函数OF
t-SNE
满足:其中,q
ij
为中间概率,α≥1,且为整数;面向UMAP算法构建的第二损失函数OF
UMAP
满足:满足:其中,β、u均为大于零的实数;面向LargeVis算法构建的第三损失函数OF
LargeVis
满足:满足:其中,E
H
为异构图的边集合,δ为大于0的实数,表...

【专利技术属性】
技术研发人员:杨易扬张景彬任成森巩志国蔡瑞初郝志峰陈炳丰
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1