【技术实现步骤摘要】
面向图数据的挖掘方法、装置、电子设备及可读存储介质
[0001]本申请涉及数据处理
,特别是涉及一种面向图数据的挖掘方法、装置、电子设备及可读存储介质。
技术介绍
[0002]随着人工智能技术的发展,深度学习方法在图像、文本等数据上的智能应用取得了巨大的成功。但现实中存在许多具备图结构的数据,例如社交网络分析、智能电网分析和分子药物合成等等。研究人员为此提出了各种针对图结构数据的图卷积神经网络模型(Graph Convolutional Network,简称GCN),在搜索、推荐、药物研发等领域都进行了广泛的应用。
[0003]然而,GCN虽然能够在面向图结构数据的任务中发挥巨大的作用,但是在超大规模的图结构数据的背景之下,GCN为了达到较好的模型性能需要较多的标注数据集进行学习和训练,然而人为地进行图结构数据集的全量标注以供GCN更好的进行模型训练,在人力、物力以及时间开销等方面都是极大的。
[0004]因此,目前亟需一种针对图结构数据的数据挖掘方法,能够在开发成本有限的前提下,在海量图结构数据中高效 ...
【技术保护点】
【技术特征摘要】
1.一种面向图数据的挖掘方法,其特征在于,所述方法包括:将图结构原始数据集输入简化图卷积神经网络,以输出待标注数据子集;其中,所述简化图卷积神经网络用于执行以下步骤:对所述图结构原始数据集进行预处理,得到特征融合后的图结构数据;计算所述图结构数据中每个图节点的中心度指标;对所述图结构数据中的所有图节点进行聚类,得到多个聚类簇,并计算每个图节点在所属聚类簇中的代表性指标;计算所述图结构数据中每个图节点的信息熵指标;根据所述中心度指标、所述代表性指标和所述信息熵指标,得到每个图节点的价值得分;将所述价值得分最高的n个图节点作为所述待标注数据子集。2.根据权利要求1所述的方法,其特征在于,对所述图结构原始数据集进行预处理,得到特征融合后的图结构数据,包括:对所述图结构原始数据集进行预处理,得到图结构数据的特征矩阵、度矩阵和邻接矩阵;针对所述图结构数据中的任一图节点,根据该图节点的K跳近邻内的所有图节点的所述特征矩阵、所述度矩阵和所述邻接矩阵进行特征融合,得到特征融合后的图结构数据。3.根据权利要求1所述的方法,其特征在于,计算所述图结构数据中每个图节点的中心度指标,包括:根据以下公式,计算所述图结构数据中每个图节点的中心度指标:其中:V
i
表示所述图结构数据中的第i个图节点;表示V
i
节点的中心度指标;V
j
表示所述图结构数据中的第j个图节点;表示所述第j个图节点的中心度指标;∑
k
A
jk
表示所述第j个图节点的度;A
ij
表示0或1,当V
i
图节点和V
j
图节点无连接关系时,A
ij
取0,当V
i
图节点和V
j
图节点有连接关系时,A
ij
取1;ρ为坍塌因子;N为所述图结构数据中所有图节点的个数。4.根据权利要求1所述的方法,其特征在于,计算每个图节点在所属聚类簇中的代表性指标,包括:根据以下公式,计算每个图节点在所属聚类簇中的代表性指标:其中:V
i
表示所述图结构数据中的第i个图节点;表示V
i
图节点的在所属聚类簇中的代表性指标;表示的是V
i
图节点所属聚类簇中的中心节点;是V
i
图节点在所属聚类簇中的向量表示;表示和之间的欧氏距离。5.根据权利要求1所述的方法,其特征在于,根据所述中心度指标、所述代表性指标和
所述信息熵指标,得到每个图节点的价值得分,包括:基于贝塔分布,进行时间敏感性系数的采样,得到所述中心度指标的第一采样权重、所述代表性指标的第二采样权重和所述信息熵指标的第三采样权重;其中,所述中心度指标的第一采样权重随时间推移而减小,所述代表性指标的第二采样权重和所述信息熵指标的第三采样...
【专利技术属性】
技术研发人员:王平辉,陶敬,张宇超,吕昕远,孙毅刚,邢舒明,韩婷,赵俊舟,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。