当前位置: 首页 > 专利查询>天津大学专利>正文

融合多视角信息导向表示学习的作者合作网络挖掘方法技术

技术编号:37398928 阅读:15 留言:0更新日期:2023-04-30 09:27
本发明专利技术公开了一种融合多视角信息导向表示学习的作者合作网络挖掘方法,对作者合作网络提取最大子图,在变分自编码器的框架内分别构建以邻近性为导向和结构相似性为导向的图卷积神经网络进行节点嵌入向量的聚合,捕捉两种导向的网络结构特征,构建相应的损失项进行模型参数更新;利用上述两种导向的节点嵌入为聚类任务的输入,使用k

【技术实现步骤摘要】
融合多视角信息导向表示学习的作者合作网络挖掘方法


[0001]本专利技术属于深度学习领域和网络表示学习领域,旨在将图中节点映射到低维稠密的向量空间,同时保留如网络的结构特征、节点属性等信息,进而应用到一些下游的机器学习任务中如节点分类、链路预测。

技术介绍

[0002]如何挖掘网络系统中的底层动力学模式一直是图数据科学的研究热点,其中,角色(或称结构等价性)存在于各种各样的现实世界系统中,包括社交网络、生物蛋白质网络、空中交通网络、引文网络等,在不同场景中的对应于不同的语义,挖掘出节点的角色特征可以更好地帮助决策者认识到每个节点在网络中所起到的功能和作用。
[0003]节点连边的产生是由两种性质共同驱动的,一种性质的捕获可以作为另外一种信息捕获的导向。在已知一部分角色信息时领域中心节点时,如中心人物和该领域内的其他作者联系紧密,有助于社团的挖掘;反之,若已知社团信息,一些同时属于多个社团概率且度较大的节点则倾向为桥接节点。有一些研究已经尝试利用并学习角色和社团间的交互模式。本专利技术主要针对融合邻近性和结构相似性的网络表示学习的科学问题,并借助深度学习图神经网络强大的学习和表征能力,联合学习两种导向的节点向量。
[0004]参考文献:
[0005][1]Refex[Henderson,Keith,et al."It's who you know:graph mining using recursive structural features."Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining.2011.]。

技术实现思路

[0006]针对上述现有技术,本专利技术提出的一种融合多视角信息导向表示学习的作者合作网络挖掘方法,主要目的是构建基于合作者的引文网络,并研究如何将节点映射到角色向量空间中去,空间中距离相近的节点具有相似的角色或功能;构建一种新的对应于该任务的图卷积神经网络,有效聚合邻域内节点信息;进行图可视化,标注图中各类角色节点,清晰识别出图数据中的底层结构和关联性。
[0007]为了解决上述技术问题,本专利技术提出的一种融合多视角信息导向表示学习的作者合作网络挖掘方法,主要包括:获得论文数据后构建作者合作网络,提取所述作者合作网络的最大子图;对所述的最大子图的节点按照度进行升序排序进行节点集切分;利用Refex统计节点属性和节点邻域属性特征,从而提取节点特征;在变分自编码器的框架内构成生成模型:分别构建以邻近性为导向和结构相似性为导向的图卷积神经网络进行节点嵌入向量的聚合,捕捉两种导向的网络结构特征,进而构建相应的损失项进行参数更新;利用所述的生成模型得到上述两种导向的节点嵌入,以此为聚类任务的输入,使用k

means算法进行聚类分析,得到节点社团标签和节点角色标签;使用mataplotlib库进行可视化,通过分析节点社团标签得到当今环境下的课题关联规律,通过分析节点角色标签推断交叉学科下的人
才分布情况。
[0008]进一步讲,本专利技术所述的作者合作网络挖掘方法,包括以下具体步骤:
[0009]步骤一、获取数据与数据处理:
[0010]1‑
1)对公开的论文文献进行搜索整理,获得论文数据,对其中息不全的数据进行删除,将重复数据进行剔除,之后提取论文中的作者信息,对于含有英文名的作者信息进行删除,并对涉及个人隐私的私密数据进行筛除脱密处理,最终得到作者数据表,该作者数据表包括作者姓名、作者所属机构、作者从事的学科、发表的论文及论文合作关系;
[0011]1‑
2)以作者数据表中的论文合作关系作为边构建作者合作网络,其中,以作者姓名和其所属机构作为合作网络的节点的唯一标识符;
[0012]1‑
3)提取所述作者合作网络的最大子图,并使用邻接矩阵A作为该最大子图内节点的交互情况,当节点i与节点j产生交互时,A
ij
=1;
[0013]步骤二、对步骤一所述的最大子图的节点按照度进行升序排序,并构建一个映射函数f:deg(v
i
)

m,其功能为将N个节点映射到中C={C1,...,C
M
},M为组的数量,为超参数,M设置为4,该函数的具体构建过程如下:
[0014]2‑
1)给定邻近矩阵A计算所有节点度d,并按照升序排列;
[0015]2‑
2)计算节点度平均值avg;
[0016]2‑
3)指针j赋值为1;
[0017]2‑
3)指针i赋值为1;
[0018]2‑
4)当组C
i
的节点数量小于avg时,将节点j加入到C
i
中;
[0019]2‑
5)重复上述步骤2

1)至2

4),直至所有节点加入到所有组中,得到节点分组C;
[0020]步骤三、利用Refex统计节点属性和节点邻域属性特征,得到节点特征矩阵F,具体步骤如下:
[0021]3‑
1)指针i赋值为1;
[0022]3‑
2)计算节点i的度;
[0023]3‑
3)计算以节点i构成的自我中心网络的所有边;
[0024]3‑
4)计算以节点i构成的自我中心网络中的所有节点的度;
[0025]3‑
5)计算自我中心网络内部的入边与出边的比例;
[0026]3‑
6)计算非自我中心网络内部的边与所有边的比例;
[0027]3‑
7)计算自我中心网络三角子图的个数;
[0028]3‑
8)计算节点i的聚类系数;
[0029]3‑
9)重复上述步骤3

1)至3

8),直到所有节点计算完毕,以节点属性和节点邻域属性特征构成节点特征矩阵F;
[0030]步骤四、构建生成模型:所述生成模型由编码器和解码器组成;构建所述生成模型的步骤如下:
[0031]4‑
1)构建节点结构相似性导向的两层图卷积神经网络:以邻接矩阵A作为输入,节点特征矩阵F为第一层嵌入,更新节点嵌入矩阵时,包括:对上一层节点嵌入进行全局映射,将上一层节点嵌入通过分组编号C所指向的卷积核进行局部特征映射;将全局映射和局部特征映射进行矩阵加和,并通过RELU函数进行非线性映射,得到新一层的节点嵌入矩阵,所述节点结构相似性导向的两层图卷积神经网络的形式如下:
[0032][0033]式(1)中,v为初始标签为r的节点,h为嵌入向量,N(v)为v的邻居节点,k代表神经网络层数,W
g
为全局训练矩阵,W
r
为对应标签r的训练矩阵;
[0034]4‑
2)使用G本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合多视角信息导向表示学习的作者合作网络挖掘方法,其特征在于,主要包括:构建作者合作网络,提取所述作者合作网络的最大子图;对所述的最大子图的节点按照度进行升序排序进行节点集切分;利用Refex统计节点属性和节点邻域属性特征,从而提取节点特征;在变分自编码器的框架内构成生成模型:分别构建以邻近性为导向和结构相似性为导向的图卷积神经网络进行节点嵌入向量的聚合,捕捉两种导向的网络结构特征,进而构建相应的损失项进行参数更新;利用所述的生成模型得到上述两种导向的节点嵌入,以此为聚类任务的输入,使用k

means算法进行聚类分析,得到节点社团标签和节点角色标签;使用mataplotlib库进行可视化,通过分析节点社团标签得到当今环境下的课题关联规律,通过分析节点角色标签推断交叉学科下的人才分布情况。2.根据权利要求1所述的作者合作网络挖掘方法,其特征在于,包括以下步骤:步骤一、获取数据与数据处理,包括:步骤1

1)对公开的论文文献进行搜索整理,获得论文数据,对其中信息不全的数据进行删除,将重复数据进行剔除,之后提取论文中的作者信息,对于含有英文名的作者信息进行删除,并对涉及个人隐私的私密数据进行筛除脱密处理,最终得到作者数据表,该作者数据表包括作者姓名、作者所属机构、作者从事的学科、发表的论文及论文合作关系;步骤1

2)以作者数据表中的论文合作关系作为边构建作者合作网络,其中,以作者姓名和其所属机构作为合作网络的节点的唯一标识符;步骤1

3)提取所述作者合作网络的最大子图,并使用邻接矩阵A作为该最大子图内节点的交互情况,当节点i与节点j产生交互时,A
ij
=1;步骤二、对步骤一所述的最大子图的节点按照度进行升序排序,并构建一个映射函数f:deg(v
i
)

m,其功能为将N个节点映射到中C={C1,...,C
M
},M为组的数量,为超参数,M设置为4,该函数的具体构建过程如下:步骤2

1)给定邻近矩阵A计算所有节点度d,并按照升序排列;步骤2

2)计算节点度平均值avg;步骤2

3)指针j赋值为1;步骤2

3)指针i赋值为1;步骤2

4)当组C
i
的节点数量小于avg时,将节点j加入到C
i
中;步骤2

5)重复上述步骤2

1)至2

4),直至所有节点加入到所有组中,得到节点分组C;步骤三、利用Refex统计节点属性和节点邻域属性特征,得到节点特征矩阵F,具体步骤如下:步骤3

1)指针i赋值为1;步骤3

2)计算节点i的度;步骤3

3)计算以节点i构成的自我中心网络的所有边;步骤3

4)计算以节点i构成的自我中心网络中的所有节点的度;步骤3

5)计算自我中心网络内部的入边与出边的比例;步骤3

6)计算非自我中心网络内部的边与所有边的比例;
步骤3

7)计算自我中心网络三角子图的个数;步骤3

8)计算节点i的聚类系数;步骤3

9)重复上述步骤3

1)至3

8),直到所有节点计算完毕,以节点属性和节点邻域属性特征构成节点特征矩阵F;步骤四、构建生成模型,所述生成模型由编码器和解码器组成;构建所述生成模型的步骤如下:步骤4

1)构建节点结构相似性导向的两层图卷积神经网络:以邻接矩阵A作为输入,节点特征矩阵F为第一层嵌入,更新节点嵌入矩阵时,包括:对上一层节点嵌入进行全局映射,将上一层节点嵌入通过分组编号C所指向的卷积核进行局部特征映射;将全局映射和局部特征映射进行矩阵加和,并通过RELU函数进行非线性映射,得到新一层的节点嵌入矩阵,所述节点结构相似性导向的两层图卷积神经网络的形式如下:式(1)中,v为初始标签为r的节点,h为嵌...

【专利技术属性】
技术研发人员:周一南邵明来王文俊孙越恒
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1