基于学术网络的学者画像方法及系统技术方案

技术编号:29075207 阅读:20 留言:0更新日期:2021-06-30 09:32
本发明专利技术提出一种基于学术网络的学者画像方法及系统,包括获取包括多类型节点的异质学术网络,并获取待画像识别学者的语义信息,通过在异质学术网络中选择符合语义信息的元路径,得到元路径集合,并为元路径集合中各元路径分配使用概率;根据学术网络中学者节点的度,得到从学者节点开始随机游走的采样长度,从元路径集合中根据使用概率选取元路径,并以选取的元路径对异质学术网络使用基于回退的随机游走采样,直到随机游走采样得到的节点序列长度达到采样长度,获得节点序列;将节点序列输入到Skip

【技术实现步骤摘要】
基于学术网络的学者画像方法及系统


[0001]本专利技术涉及学术网络和数据挖掘领域,具体地说,本专利技术涉及一种基于学术网络的学者画像方法及系统。

技术介绍

[0002]学术网络是一种描述学术实体及其关系的数据组织形式,随着科研学术活动的不断进行,新的学术文献不断被发表,新的学者不断加入学术网络中,这使得学术网络的规模变得越来越庞大。学术网络包含多种复杂的关系,这也意味着学术网络中包含着丰富的语义信息,研究学术数据并捕捉这些语义信息是一个重要的工作。对于学术网络的研究可应用于科研社区发现,专家推荐,学术同行评审评议等领域。以学者画像为例,其目的是根据异质学术网络,确定学者的研究兴趣等属性信息,实现对评审专家的精准刻画,从而保证专家评审评议过程中评审专家推荐的精准性。
[0003]在进行学者画像时,需要精准推荐评审专家。学术网络是一种异质信息网络,其异构性使学术网络包含了丰富的语义信息,如期刊与论文的收录关系,学者与论文的发表关系等,综合考虑学术网络中包含的复杂语义信息可以捕捉更多的上下文语义信息,对学者的属性信息有更准确的预测,进而实现更精准的评审专家推荐。
[0004]现有学者画像技术主要存在如下的缺点和不足:
[0005]1)现有的学者画像技术没有充分考虑学术网络中的隐含语义,导致识别结果不准确。现有的学者画像技术主要是利用信息网络中已有的属性信息进行学者建模,忽略了学术网络的网络结构特征,无法充分考虑到学术网络中包含的复杂语义,导致对于学者特征的刻画不准确,进而影响到了属性识别结果。r/>[0006]2)现有的学者画像技术没有考虑学术网络的节点在连接性上的差异,导致识别结果不准确。现有的学者画像技术对学术网络中所有的节点进行了几乎相同的特征提取操作,忽略了学术网络中节点在连接性上的差异,无法充分的提取连接性较高的节点的语义信息,进而影响到了属性识别结果。
[0007]3)现有的学者画像技术没有考虑邻域节点和非邻域节点在节点语义提取上的差异,导致识别结果不准确。现有的学者画像技术在节点采样中忽略了可以更好反映节点语义的邻域节点,无法充分捕捉节点语义信息,进而影响到了属性识别结果。

技术实现思路

[0008]专利技术人经过研究提出一个基于异质学术网络的学者画像方法,以克服上述现有技术缺陷。该方法首先选取多条可以表达学术网络中语义的元路径,为每一条元路径分配一个初始使用概率,所有元路径的使用概率之和为1,通过使用多条元路径来充分考虑学术网络中的多种语义信息。在随机游走采样开始时,根据预设的使用概率随机选取一条元路径进行随机游走采样,采样序列中的节点从左向右排列,节点的回退窗口定义为以当前节点为右边界且包含多个节点的窗口。在每一次采样之后通过回退概率触发回退采样,当触发
回退采样时回退到当前节点的回退窗口中度最大的节点。在执行完回退采样之后继续按照元路径进行随机游走采样,当沿元路径随机游走结束时,根据使用概率再次选取一条元路径继续进行随机游走采样直至采样结束,回退采样可以使随机游走采样更加注重邻域节点的影响,这使得采样过程更加合理,有利于提高学者表示的准确性。为了考虑学术网络的节点在连接性上的差异,提高学者表示的准确性,提出了一种采样上的改进,对于度(出度+入度)较高的节点进行较多次数的随机游走来探索其邻域,进而更全面的提取节点特征,对于度较低的节点,只进行较少次数的随机游走即可捕捉到节点特征。在随机游走采样结束之后,将节点序列输入到Skip

gram模型中学习并得到学者表示向量。最后,通过学者表示向量计算学者属性取值的概率分布,识别学者的属性信息,对学者进行画像。
[0009]本专利技术的目的是解决上述现有技术在进行学者画像时无法捕捉学术网络中的异质语义信息以及无法体现节点连接性和领域节点影响的问题,提出了一种基于学术网络的学者画像方法,其中包括:
[0010]步骤1、获取异质学术网络,基于该异质学术网络中节点间关系,选取多条表示不同语义信息的元路径,构成元路径集合,并为元路径集合中各元路径分配使用概率;
[0011]步骤2、根据学术网络中各节点的度,为各节点分配随机游走的采样长度,从元路径集合中根据该使用概率选取元路径,并以选取的元路径对该异质学术网络使用基于回退的随机游走采样,直到随机游走采样得到的节点序列长度达到该采样长度,获得节点序列;
[0012]步骤3、将该节点序列输入到Skip

gram模型中获得特征向量,将该特征向量投影到属性取值的概率空间,以选取概率值最大的属性作为学者画像的向量表示。
[0013]所述的基于学术网络的学者画像方法,其中步骤1中该异质学术网络包括多种类型的节点。
[0014]所述的基于学术网络的学者画像方法,其中步骤2中为各节点分配随机游走的采样长度具体包括:
[0015]TD(v)表示节点v的度,walk_length(v)表示从节点v开始随机游走采样的采样长度,K是调整采样序列大小的超参数;
[0016]walk_length(v)=K
·
TD(v)。
[0017]所述的基于学术网络的学者画像方法,其中步骤2中对该异质学术网络使用基于回退的随机游走采样包括:
[0018]在该异质学术网络中沿元路径进行随机游走采样,在每次采样后都有一定的概率触发回退操作:
[0019][0020]E表示该异质学术网的边集合,v
i
节点类型是T
t
,v
i+1
节点类型是T
t+1
,N
t+1
(v
i
)表示v
i
节点的T
t+1
类型节点邻域,若当前节点v
i
的类型是T
t
,则下一跳是T
t+1
类型的节点v
i+1

[0021]所述的基于学术网络的学者画像方法,其中步骤2中该基于回退的随机游走采样具体包括:节点回退到以当前采样的节点为右边界的窗口内度最大的节点,然后继续进行随机游走采样。
[0022]本专利技术还提出了一种基于学术网络的学者画像系统,其中包括:
[0023]模块1,用于根据该异质学术网络中节点间关系,选取多条表示不同语义信息的元路径,构成元路径集合,并为元路径集合中各元路径分配使用概率;
[0024]模块2,用于根据学术网络中各节点的度,为各节点分配随机游走的采样长度,从元路径集合中根据该使用概率选取元路径,并以选取的元路径对该异质学术网络使用基于回退的随机游走采样,直到随机游走采样得到的节点序列长度达到该采样长度,获得节点序列;
[0025]模块3,用于将该节点序列输入到Skip

gram模型中获得特征向量,将该特征向量投影到属性取值的概率空间,以选取概率值最大的属性作为学者画像的向量表示。
[0026]所述的基于学术网络的学者画像系统,其中模块1中该异本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于学术网络的学者画像方法,其特征在于,包括:步骤1、获取异质学术网络,基于该异质学术网络中节点间关系,选取多条表示不同语义信息的元路径,构成元路径集合,并为元路径集合中各元路径分配使用概率;步骤2、根据学术网络中各节点的度,为各节点分配随机游走的采样长度,从元路径集合中根据该使用概率选取元路径,并以选取的元路径对该异质学术网络使用基于回退的随机游走采样,直到随机游走采样得到的节点序列长度达到该采样长度,获得节点序列;步骤3、将该节点序列输入到Skip

gram模型中获得特征向量,将该特征向量投影到属性取值的概率空间,以选取概率值最大的属性作为学者画像的向量表示。2.如权利要求1所述的基于学术网络的学者画像方法,其特征在于,步骤1中该异质学术网络包括多种类型的节点。3.如权利要求1所述的基于学术网络的学者画像方法,其特征在于,步骤2中为各节点分配随机游走的采样长度具体包括:TD(v)表示节点v的度,walk_length(v)表示从节点v开始随机游走采样的采样长度,K是调整采样序列大小的超参数;walk_length(v)=K
·
TD(v)。4.如权利要求1所述的基于学术网络的学者画像方法,其特征在于,步骤2中对该异质学术网络使用基于回退的随机游走采样包括:在该异质学术网络中沿元路径进行随机游走采样,在每次采样后都有一定的概率触发回退操作:E表示该异质学术网的边集合,v
i
节点类型是T
t
,v
i+1
节点类型是T
t+1
,N
t+1
(v
i
)表示v
i
节点的T
t+1
类型节点邻域,若当前节点v
i
的类型是T
t
,则下一跳是T
t+1
类型的节点v
i+1
。5.如权利要求1所述的基于学术网络的学者画像方法,其特征在于,步骤2中该基于回退的随机游走采样具体包括:节点回退到以当前采样的节点为右边界的窗口内度最大的节点,然后继续进行随机游走采样。6.一种基于...

【专利技术属性】
技术研发人员:梁英刘政君谢小杰王梓森史红周
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1