一种基于深度学习的隐含关系发现方法技术

技术编号:18350454 阅读:38 留言:0更新日期:2018-07-01 23:41
本发明专利技术公开了一种基于深度学习的隐含关系发现方法,属于信息技术领域,具体包括从学者发表网络G中生成论文合著网络G’;计算论文发表情况矩阵C,D,S以及论文的合著矩阵XS,XD,XT;提出了RGRU模型;在RGRU的基础上设计并构建tARMM模型来预测“导师‑学生”关系。本发明专利技术提出的tARMM模型在数据集上的预测准确度高于其他方法,能达到95%左右,对于其他具有时间依赖性的社会关系挖掘具有一定的借鉴意义和参考价值。

【技术实现步骤摘要】
一种基于深度学习的隐含关系发现方法
本专利技术属于信息
,具体涉及一种基于深度学习的隐含关系发现方法。
技术介绍
随着Facebook、Twitter、微信等社交媒体的普及和推广,社交媒体已经成为人们之间交流交互的重要平台。不同类型的社会关系对人有着不同的影响,人们的生活、学习和工作在这些关系的潜移默化之下发生着改变,比如在社交网络中,人们的喜好会受到朋友的影响,学生的研究方向会受到导师的影响。同时,在这些关系中还隐含着大量的额外信息,比如通过研究“导师-学生”关系,可以挖掘学术团体,建立科研社区网络,进一步了解相关研究课题的发展历程,找到下一步的发展方向。网络中有很多的显式关系,如朋友关系、关注关系、评论关系、回复关系等,然而,也有很多关系是隐含在网络中的,如:“导师-学生”关系隐含在论文合著网络中。论文合著网络是科研人员在合作出版文献过程中逐渐形成的合作关系网络,比如DBLP。目前,有若干的项目以维护关系作为自己的目标,比如LinkedIn和AI家谱。前者要求用户对每一个特殊的对象进行标注,比如同事、导师、学生等,后者同样采用手工标注的方法对研究领域的导师信息进行标注。显然,这些方法大量依赖于人工的标注,不仅效率低,准确性也不高,这大大限制了其推广能力。对于这种现象一个理想的解决方案是设计一种方法,自动从网络中挖掘或预测出其中隐含的关系。在论文合著网络中,想要仅从出版名单中判断谁是导师是比较困难的。有时根据直觉的假设,采用启发式规则可以在某些社交网络中区分关系类型。但是,研究发现使用典型的启发式规则只能达到精度为70-80%,即使是使用基于多个不同特征训练的多个规则结合监督学习模型,精度平均仍然只有80%,而且,在实践训练中它往往是很难收集监督信息的。论文合著网络中的“导师-学生”关系具有如下几个特性:1.隐含性。“导师-学生”关系是隐藏在论文合著网络中的,在论文合著网络中,只有论文的合作者、论文的题目、论文的发表时间、论文发表的刊物/会议等信息,无法显式地知道合作者之间的“导师-学生”关系。2.时间依赖性。导师-学生关系具有高度的时间依赖性,对于任何一个作者来说,在其众多的合作者中,早期的合作者比后期的合作者更有可能是其导师。此外,一个人可以从学生的角色转化为导师角色,而这个角色转变可能没有任何明显的迹象。3.难推测性。由于论文合著网络仅具有合作出版论文的相关信息,与其他社交媒体相比是非常简单的,同时因为“导师-学生”关系隐藏在论文合著网络中,这就导致在论文合著网络中人工地去推断“导师-学生”关系是比较困难的。近年来,社交关系研究引起了学术界的广泛关注。当前对社交关系的研究工作可以分为三个方面:社交关系预测、社交关系类型识别和关系的交互预测。社交关系预测,又称为链路预测,是指根据网络中节点的特征或已经存在的边,预测两个节点间存在边的可能性。Liben-Nowell等针对特定的社交网络,基于图的相似性度量方法计算节点之间的相似性,再利用该相似性预测节点之间的链接可能性。Lee等提出一种计算代价较小的基于社交向量时钟特征的模型来解决链接预测问题。CunchaoTu等提出CANE模型,通过对用户相关的文本数据信息进行网络嵌入从而达到链路预测的目标。Backstrom等针对社交关系的强度问题提出了基于监督学习的随机游走算法。Zhao等提出一种基于“可靠路径”的预测方法,这是少数适用于加权网络的预测方法之一。关系类型识别,是指针对一个或多个社交网络,自动地识别与挖掘出其中所蕴含的关系类型。Coppola等提出基于语义的自动关系挖掘框架。Leskovec等利用对数回归模型识别社交网络中的正关系或负关系,即朋友关系或非朋友关系。Diehl等使用学习排序函数识别“经理-下属”关系。Pentland等提出了几种obile数据挖掘模型,用于推测朋友关系。论文合著网络的“导师-学生”关系挖掘问题属于关系类型识别问题,在该问题上,唐杰等提出了TPFG模型用于从论文合著网络中挖掘“指导者-被指导者”关系,此外,他们面向异构网络(如邮件网络、科研合作网络等),提出一种基于因子图的统一框架,旨在解决社交关系类型的识别问题。李勇军等利用最大熵模型推测论文合著网络中的“导师-学生”关系。关系交互预测,主要研究单向的社交关系怎样发展成双向的社交关系,以及其发生变化的原因。最常见的单向关系是明星和他们粉丝之间的关系,双向关系是朋友关系。Hopcroft等探索关系交互预测问题,Lou等研究社交关系是如何发展成为三元闭包的。他们共同提出一种将关系交互预测问题抽象为图的学习框架。
技术实现思路
针对现有技术中存在的上述技术问题,本专利技术提出了一种基于深度学习的隐含关系发现方法,设计合理,克服了现有技术的不足,具有良好的效果。为了实现上述目的,本专利技术采用如下技术方案:一种基于深度学习的隐含关系发现方法,对隐含关系挖掘问题作出形式化的定义:定义1学者发表网络G将时间依赖的学者发表网络形式化表示为一个二部图,令G=(A,P,E),其中表示学者发表网络中所有作者的集合;是所有论文的集合;E={eik|1<=i<=na,1<=k<=np,ai是pk的作者},表示学者发表网络中的作者与论文的著作关系;定义2论文合著网络G’从G中生成其中,是作者集合,a0是一虚拟作者,对于作者ai,假设其导师为如果那么认为E’={eij|1<=i<=na,1<=j<=na,ai和aj具有合作关系且ai≠aj};其中,pnij是与eij相关的一个向量,pnij∈R1×40表示ai和aj在某一个时间域内合著的论文数量;对于单个作者来说,使用pni可以表示作者ai论文发表情况;定义3论文合著矩阵C对于A中任意作者x,假设其与m位作者具有合著关系,合作者集合用Ax表示,Ax={b0,b1,b2,···,bm},其中b0=a0;若在某一年t中,x与bj合著的论文数为则对于作者x,有合著矩阵:其中,T为作者合作的总体时间域,本文以一年为一个时间跨度,若作者合著时间为[1970,2010],共40年,则在上述矩阵中T=39,合著矩阵C∈R(m+1)×40;定义4导师学生关系R令R={yij|0<=i<=na,0<=j<=na},表示作者之间是否是“导师-学生”关系,其具体取值如下:所述的基于深度学习的隐含关系发现方法,具体包括如下步骤:Input:学者发表网络G;Output:“导师-学生”关系的预测结果;步骤1:对学者发表网络G中的链接进行分析,从学者发表网络G中生成论文合著网络G’;步骤2:根据论文合著网络G’,计算论文发表情况矩阵C,D,S,进而计算论文的合著矩阵XS,XD,XT;步骤3:建立tARMM(time-awareAdvisor-adviseeRelationshipMiningModel,时间感知的导师学生关系挖掘模型)模型;步骤4:通过tARMM模型对合著矩阵进行处理;步骤4.1:使用RGRU计算概率PT;步骤4.2:使用DNN计算概率PF;步骤4.3:计算最终的导师概率P;步骤5:P中本文档来自技高网
...
一种基于深度学习的隐含关系发现方法

【技术保护点】
1.一种基于深度学习的隐含关系发现方法,其特征在于:对隐含关系挖掘问题作出形式化的定义:定义1学者发表网络G将时间依赖的学者发表网络形式化表示为一个二部图,令G=(A,P,E),其中

【技术特征摘要】
1.一种基于深度学习的隐含关系发现方法,其特征在于:对隐含关系挖掘问题作出形式化的定义:定义1学者发表网络G将时间依赖的学者发表网络形式化表示为一个二部图,令G=(A,P,E),其中表示学者发表网络中所有作者的集合;是所有论文的集合;E={eik|1<=i<=na,1<=k<=np,ai是pk的作者},表示学者发表网络中的作者与论文的著作关系;定义2论文合著网络G’从G中生成其中,是作者集合,a0是一虚拟作者,对于作者ai,假设其导师为如果那么认为E’={eij|1<=i<=na,1<=j<=na,ai和aj具有合作关系且ai≠aj};其中,pnij是与eij相关的一个向量,pnij∈R1×40表示ai和aj在某一个时间域内合著的论文数量;对于单个作者来说,使用pni可以表示作者ai论文发表情况;定义3论文合著矩阵C对于A中任意一作者x,假设其与m位作者具有合著关系,合作者集合用Ax表示,Ax={b0,b1,b2,···,bm},其中b0=a0;若在某一年t中,x与bj合著的论文数为则对于作者x,有合著矩阵:其中,T为作者合作的总体时间域,本文以一年为一个时间跨度,若作者合著时间为[1970,2010],共40年,则在上述矩阵中T=39,合著矩阵C∈R(m+1)×40;定义4导师学生关系R令R={yij|0<=i<=na,0<=j<=na},表示作者之间是否是“导师-学生”关系,其具体取值如下:所述的基于深度学习的隐含关系发现方法,具体包括如下步骤:Input:学者发表网络G;Output:“导师-学生”关系的预测结果;步骤1:对学者发表网络G中的链接进行分析,从学者发表网络G中生成论文合著网络G’;步骤2:根据论文合著网络G’,计算论文发表情况矩阵C,D,S,进而计算论文的合著矩阵XS,XD,XT;步骤3:建立tARMM模型;步骤4:通过tARMM模型对合著矩阵进行处理;步骤4.1:使用RGRU计算概率PT;步骤4.2:使用DNN计算概率PF;步骤4.3:计算最终的导师概率P;步骤5:P中最大概率的候选导师即为x的预测导师,从而得到“导师-学生”关系的预测结果。2.根据权利要求1所述的基于深度学习的隐含关系发现方法,其特征在于:在步骤2中,对于论文的合著情况,从如下两个方面进行分析:第一方面,从合著的详细情况进行分析,对于作者x,通过合著矩阵C表示x与其候选导师之间的合著论文发表情况;候选导师的论文发表情况用D表示:作者x的论文发表情况pnx用S表示:S=(S0…ST-1)(2.3);分别利用作者和候选导师的论文发表情况对合著矩阵C进行归一化处理:XS=C·S(2.5);XD=D·S(2.6);其中,XS为基于学生的合著子矩阵,XSij∈...

【专利技术属性】
技术研发人员:赵中英刘文强李超
申请(专利权)人:山东科技大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1