一种基于异质学术网络进行学者画像的方法及系统技术方案

技术编号:26792692 阅读:17 留言:0更新日期:2020-12-22 17:08
本发明专利技术提供一种基于异质学术网络进行学者画像的方法,包括:获取待画像的中心学者信息以及进行画像的属性设置,所述属性设置包括学者的属性信息和/或为学者具备该属性信息的概率所设定的相应阈值;利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率,其中,所述属性概率分布模型是以异质学术网络中的学者信息为输入,以所述学者具备所述属性信息的概率为输出,通过训练获得;以及依据满足所述属性设置的属性信息对所述中心学者进行画像。本发明专利技术的学者画像方法充分利用了异质学术网络的多语义信息对学者的属性信息进行刻画,提高了画像的准确性。

【技术实现步骤摘要】
一种基于异质学术网络进行学者画像的方法及系统
本专利技术涉及计算机数据挖掘分析
,尤其涉及基于异质学术网络进行学者画像的方法及系统。
技术介绍
本部分的陈述仅仅是为了提供与本申请的技术方案有关的背景信息,以帮助理解,其对于本申请的技术方案而言并不一定构成现有技术。学术网络由是由学者、期刊、会议和其他学术文献等节点,以及节点之间组成的关系构成的异质网络。随着学术科研活动的蓬勃发展,新的学者不断地加入学术之中,新的学术文献也不断地被发表,使得学术网络在飞速的增长和扩充。学术网络中包含了丰富的、有价值的、可挖掘的数据和信息,成为了很多学术数据挖掘与分析的基础,获得了广泛的应用,例如用于判断学科发展脉络和趋势、识别科研专家和社区、学术同行评审评议等。以学者画像为例,其目的是根据学者发表过的学术成果、参与过的科研项目、合作过的学术同行等构成的异质学术网络,确定学者的研究兴趣等属性信息,用以确保在学术评审中,精确地对评审专家进行刻画,从而保证评审专家的精准推荐。然而现有的学者画像技术大多是基于同质学术网络进行识别,仅利用了单一的语义信息,难以准确刻画学者属性。另一方面,现有技术中也没有考虑学术网络的动态变化,例如,新学者的产生和新论文的发表,因此无法根据学术网络的动态变化适时更新对学者的属性信息,不能保证信息的时效性。此外,现有的学者画像技术主要对整个学术网络进行分析,导致计算复杂度高且效率低下。因此,亟需一种新型的基于异质学术网络进行学者画像的方法。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺陷,提供一种基于异质学术网络进行学者画像的方法,包括:获取待画像的中心学者信息以及进行画像的属性设置,所述属性设置包括所需的学者的属性信息和/或为学者具备该属性信息的概率所设定的相应阈值;利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率,其中,所述属性概率分布模型是以异质学术网络中的学者信息为输入,以所述学者具备所述属性信息的概率为输出,通过训练获得;以及依据满足所述属性设置的属性信息对所述中心学者进行画像。可选地,其中,所述属性概率分布模型采用图神经网络模型。可选地,其中,所述利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率包括:依据所述中心学者查找所述异质学术网络中包含所述中心学者的异质学术子网络;约简所述异质学术子网络,并将其转换为包含异质语义的同质学术子网络;根据所述同质学术子网络中所述中心学者的邻域特征更新所述中心学者的特征;以及基于更新后所述中心学者的特征计算所述中心学者具备所述属性信息的概率。可选地,其中,所述依据所述中心学者查找异质学术网络中包含所述中心学者的异质学术子网络包括:查找所述异质学术网络中以所述中心学者为起点的对称元路径;将所述以所述中心学者为起点的所有对称元路径作为所述异质学术子网络。可选地,其中,所述约简所述异质学术子网络包括:仅保留所述异质学术子网络中的所述中心学者以及与所述中心学者类型相同的节点;将所述异质学术子网络中与所述对称元路径对应的链接类型作为连接的所述中心学者以及与所述中心学者类型相同的节点的边;以及为所述中心学者添加与所述对称元路径对应的链接类型的自环。可选地,其中,所述将其转换为包含异质语义的同质学术子网络包括:获取约简后的所述异质学术子网络中所述链接类型的向量;池化约简后的所述异质学术子网络中相同节点之间所述链接类型的向量,获得包含异质语义的所述同质学术子网络。可选地,其中,所述根据所述同质学术子网络中所述中心学者的邻域特征更新所述中心学者的特征包括:提取所述同质学术子网络中所述中心学者的邻域特征;基于所述中心学者的特征及其邻域特征更新所述中心学者的特征。可选地,其中,通过加权邻域聚合的方式提取所述同质学术子网络中所述中心学者的邻域特征,包括:获取所述同质学术子网络中其他节点相对于所述中心学者的权重,公式如下:αj=σ(Wc·[xi-xj,ei,j]+bc)其中,αj表示同质学术子网络中其他节点相对于所述中心学者的权重,σ表示sigmoid函数,Wc和bc表示线性的参数,xi表示中心学者的特征向量,xj表示其他节点的特征向量,ei,j表示中心学者与其他节点之间的异质语义向量;以及依据所述权重计算所述中心学者的邻域特征,公式如下:其中,hi表示中心学者的邻域特征向量,|N(i)|表示同质学术子网络中节点的数量,Φ表示非线性转换函数,Wm、bm表示线性层参数,xj表示其他节点特征向量,ei,j表示中心学者与其他节点之间的异质语义向量。可选地,其中,所述基于所述中心学者的特征及其邻域特征更新所述中心学者的特征包括:将所述中心学者的特征向量和其邻域的特征向量进行拼接并非线性转换,获得更新后中心学者的特征,公式如下:xi′=Φ(Wg·[xi,hi]+bg)其中,xi′表示更新后中心学者的特征向量,Φ表示非线性转换函数,Wg、bg表示线性层参数,xi表示中心学者的特征向量,hi表示中心学者的邻域特征向量。本专利技术另一方面提供了一种基于异质学术网络进行学者画像的系统,包括:接口模块,用于获取待画像的中心学者信息以及进行画像的属性设置,所述属性设置包括所需的属性信息以及为学者具备该属性的概率设定的相应阈值;预测模块,用于利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率;画像模块,用于依据满足所述属性设置的属性信息对所述中心学者进行画像;以及训练模块,用于根据采集的异质学术网络相关数据训练所述属性概率分布模型,以异质学术网络中的学者信息为输入,以所述学者具备所述属性信息的概率为输出,对所述属性概率分布模型进行训练。与现有技术相比,本专利技术的优点在于:本专利技术的方法通过使用属性概率分布模型对学者进行画像,能够在充分利用异质学术网络中的多语义信息的同时,减少噪声及计算复杂度,并能够灵活地适应学术网络的动态变化,保证信息的时效性,使得学者画像结果更加精准。附图说明以下参照附图对本专利技术实施例作进一步说明,其中:图1是根据本专利技术一个实施例的基于异质学术网络进行学者画像的方法的流程图;图2是根据本专利技术一个实施例的利用属性概率分布模型预测学者属性的概率的方法的流程图;图3是根据本专利技术一个实施例的异质学术网络的示意图;图4是根据本专利技术一个实施例的查找异质学术子网络的示意图;图5是根据本专利技术一个实施例的约简异质学术子网络的示意图;图6是根据本专利技术一个实施例的将约简的异质学术子网络转换为同质学术子网络的示意图;图7为根据本专利技术一个实施例的基于异质学术网络进行学者画像系统的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本专利技术进一步详细说明。应当理解,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没本文档来自技高网...

【技术保护点】
1.一种基于异质学术网络进行学者画像的方法,包括:/n获取待画像的中心学者信息以及进行画像的属性设置,所述属性设置包括学者的属性信息和/或为学者具备该属性信息的概率所设定的相应阈值;/n利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率,其中,所述属性概率分布模型是以异质学术网络中的学者信息为输入,以所述学者具备所述属性信息的概率为输出,通过训练获得;以及/n依据满足所述属性设置的属性信息对所述中心学者进行画像。/n

【技术特征摘要】
1.一种基于异质学术网络进行学者画像的方法,包括:
获取待画像的中心学者信息以及进行画像的属性设置,所述属性设置包括学者的属性信息和/或为学者具备该属性信息的概率所设定的相应阈值;
利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率,其中,所述属性概率分布模型是以异质学术网络中的学者信息为输入,以所述学者具备所述属性信息的概率为输出,通过训练获得;以及
依据满足所述属性设置的属性信息对所述中心学者进行画像。


2.根据权利要求1所述的方法,其中,所述属性概率分布模型采用图神经网络模型。


3.根据权利要求1所述的方法,其中,所述利用预先训练好的属性概率分布模型计算所述中心学者具备所述属性信息的概率包括:
依据所述中心学者查找所述异质学术网络中包含所述中心学者的异质学术子网络;
约简所述异质学术子网络,并将其转换为包含异质语义的同质学术子网络;
根据所述同质学术子网络中所述中心学者的邻域特征更新所述中心学者的特征;以及
基于更新后所述中心学者的特征计算所述中心学者具备所述属性信息的概率。


4.根据权利要求3所述的方法,其中,所述依据所述中心学者查找异质学术网络中包含所述中心学者的异质学术子网络包括:
查找所述异质学术网络中以所述中心学者为起点的对称元路径;
将所述以所述中心学者为起点的所有对称元路径作为所述异质学术子网络。


5.根据权利要求4所述的方法,其中,所述约简所述异质学术子网络包括:
仅保留所述异质学术子网络中的所述中心学者节点以及其他学者节点;
将所述异质学术子网络中与所述对称元路径对应的链接类型作为连接的所述中心学者以及与其他学者节点的边;以及
为所述中心学者添加与所述对称元路径对应的链接类型的自环。


6.根据权利要求5所述的方法,其中,所述将其转换为包含异质语义的同质学术子网络包括:
获取约简后的所述异质学术子网络中所述链接类型的向量;
池化约简后的所述异质学术子网络中相同节点之间所述链接类型的向量,获得包含异质语义的所述同质学术子网络。


7.根据权利要求6所述的方法,其中,所述根据所述同质学术子网络中所述中...

【专利技术属性】
技术研发人员:梁英谢小杰王梓森刘政君史红周
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1