【技术实现步骤摘要】
一种基于图神经网络的大规模数据可视化降维方法
[0001]本专利技术涉及深度学习、大规模数据处理的
,更具体地,涉及一种基于图神经网络的大规模数据可视化降维方法。
技术介绍
[0002]随着云时代的来临,大数据(Big data)也吸引了越来越多的关注,由于大数据分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作,将会花费过多的时间和金钱,因此在大数据时代,对已收集的数据进行了解和探索是一项重要的任务,传统通过绘制2维(2D)或3维(3D)空间中数据的方法使数据散布在数据挖掘管道中,直接可视化观察数据分布,并以交互方式参与探索分析,对大规模数据分析探索起着至关重要的作用,保证了各行各业决策行动的准确性和时效性。
[0003]然而,大规模数据大多是高维的并且难以研究,例如,机器学习中样本的特征变量、图像的像素强度矢量以及单词或文档的嵌入通常包含数百至数千个维度,解决此类问题的核心思想是将高维数据投影到保留相似结构的低维空间中,这意味着投影的低维空间中的数据节点若在高维空间中是相似的,则应靠近,而若在高维空间中非相似,则应远离,这些高维度的数据引起的维度灾难现象使得很多传统的机器学习、数据挖掘算法失去原有的效果,因此,高维数据的降维技术一直是学术界关注的重点。
[0004]在降维技术中,有一类特殊的降维技术可以使数据直接下降到低维空间上,这种降维技术被称为可视化降维技术。2018年12月,董骏在《计算技术与自动化》期刊上发表了“面向数据集的ST-SNE算法高维数据降维研究” ...
【技术保护点】
【技术特征摘要】
1.一种基于图神经网络的大规模数据可视化降维方法,其特征在于,包括:S1.获取高维数据集,对高维数据集进行预处理;S2.构建高维数据集的异构图;S3.构建GNN图神经网络模型,将高维数据集及异构图作为输入,输出降维后的可视化向量;S4.将高维数据集划分为测试集T和训练集S,构建图神经网络模型的损失函数,利用训练集S训练GNN图神经网络模型;S5.GNN图神经网络模型训练完成后,利用测试集T对图神经网络模型进行测试,确定最终的可视化降维模型;S6.将待降维的大规模数据集输入可视化降维模型,进行可视化降维。2.根据权利要求1所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,所述高维数据集包括词向量数据集和图形像素数据集,设高维数据集表示为D={D1,D2,
…
D
i
,
…
,D
N
},D∈R
d
,R表示实数,D
i
表示第i个维度为d的向量,对高维数据集进行的预处理操作包括正则化处理。3.根据权利要求2所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,步骤S2所述构建高维数据集的异构图的过程包括:利用高维数据集中已存在的异构图信息直接组成异构图或高维数据集中不存在异构图信息,构建高维数据集的KNN图;所述利用高维数据集中已存在的异构图信息直接组成异构图的表达式为:G
H
=(E
H
,V
H
)其中,G
H
表示高维数据集的异构图,V
H
表示异构图的节点集合,V
H
中第i个节点v
i
对应的高维数据集的第一个向量D1;E
H
表示异构图的边,若节点v
i
与节点v
j
在异构图中存在边,则(v
i
,v
j
)∈E
H
。4.根据权利要求3所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,构建异构图的过程中获得高维数据集的概率分布P,表示为:其中,p
ij
表示节点D
i
的附近出现节点D
j
的概率;k,l表示不同于i、j的数值编号。5.根据权利要求4所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,步骤S3所述的构建GNN图神经网络模型的过程为:S31.确定GNN图神经网络模型的超参数,包括隐藏层的维度h、神经网络的深度H及学习速率γ;S32.将高维数据集D及高维数据集的异构图G
H
=(E
H
,V
H
)作为GNN图神经网络模型的输入,选定神经网络模型参数W={w1,w2,
…
,w
H
},其中,w
i
表示GNN图神经网络第i层隐藏层的可训练参数;S33.构建出GNN图神经网络模型f
GNN
(G
H
,D,W)。6.根据权利要求5所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,步骤S4所述构建图神经网络模型的损失函数面向的算法包括于t-SNE算法、UMAP算法及LargeVis算法,通过GNN图神经网络模型f
GNN
(G
H
,D,W)得到与输入高维数据集D={D1,D2,
…
,
D
N
}对应降维后的y维可视化向量D
′
={D
′1,D
′2,
…
,D
′
N
},其中D
′
∈R
y
,y=2或3。7.根据权利要求6所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,面向t-SNE算法构建的第一损失函数OF
t-SNE
满足:其中,q
ij
为中间概率,α≥1,且为整数;面向UMAP算法构建的第二损失函数OF
UMAP
满足:满足:其中,β、u均为大于零的实数;面向LargeVis算法构建的第三损失函数OF
LargeVis
满足:满足:其中,E
H
为异构图的边集合,δ为大于0的实数,表...
【专利技术属性】
技术研发人员:杨易扬,张景彬,任成森,巩志国,蔡瑞初,郝志峰,陈炳丰,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。