基于图局部结构和文本语义相似性的学术论文推荐方法技术

技术编号:26689777 阅读:14 留言:0更新日期:2020-12-12 02:39
本发明专利技术公开了一种基于图局部结构和文本语义相似性的学术论文推荐方法。本方法为:1)基于论文库中论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络;2)对于论文p

【技术实现步骤摘要】
基于图局部结构和文本语义相似性的学术论文推荐方法
本专利技术涉及文本数据挖掘,图数据挖掘,神经网络,异质网络嵌入
,文本预训练模型
,具体是一种基于异质网络图局部结构和学术论文标题和摘要语义相似性的学术论文推荐技术。
技术介绍
近年来,随着互联网技术的高速发展,学术研究领域也发生着翻天覆地的变化,网络上学术论文的数量呈爆炸式增长。科研信息过载使得研究人员在网络上查找其所需要的学术论文信息时,往往需要花费大量的时间和精力,间接造成了科研浪费。因此如何快速、准确的为研究人员找到其感兴趣的学术论文信息成为亟待解决的问题。目前,推荐系统在电子商务、新闻和社交网络等领域有着广泛的应用,与传统的基于关键词的搜索技术相比,推荐系统对于海量数据更加有效和个性化。特别是在学术领域,一些研究人员不知道如何总结他们的需求,将导致输入不适当的关键词。相比之下,学术论文推荐系统通常会考虑研究者的兴趣、合著者关系和引用关系来设计推荐算法并提供推荐列表。随着信息技术的快速发展,科研信息服务平台已经广泛出现,这些平台包含了大量论文及其相关信息,例如论文名、摘要、关键词、作者、机构、引用关系等。因此,利用这些科研信息服务平台的数据库中的重要信息可以开发出高效的学术论文推荐系统,帮助研究人员快速检索到他们感兴趣或者领域相关的论文。目前已经有很多研究者针对学术论文推荐问题提出了解决方法,这些方法主要包括:针对一篇论文和它的候选论文,通过它们的关键词计算它们之间的相似性,相似性排序后,高相似性的论文将被推荐给用户;基于论文库构建一个图,其中作者和论文被视为节点,论文之间的关系、用户之间的关系以及用户与论文之间的关系被视为边。然后使用随机游走或其他算法来计算用户和论文之间的相关性。
技术实现思路
本专利技术的目的是提供了一种基于论文的网络表征和语义表征来进行论文推荐的技术方案。该技术方案利用论文的作者、机构、关键词构建一个论文关系异质网络,并利用这些信息得到异质网络中各个论文关系的表征向量。再利用论文标题、摘要中的文本信息,通过ELMO、Bert、GPT-2等文本预训练模型得到各个论文的语义表征向量。再将论文关系表征向量和论文语义表征向量加权求和,得到论文的最终表征向量。最后,基于所有论文的最终表征向量,给定任一论文,将所有论文与该论文的余弦相似性排序,并将高相似性的论文推荐给用户。本方法的有效性在于融合了异质网络表示学习方法,以及网络特征。本专利技术具体包括以下步骤:步骤一:基于论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络。给定任一论文,基于该异质网络,计算论文的加权相似度,并形成基于网络关系的论文加权相似度排序,并排序形成推荐结果候选集。步骤二:针对步骤一生成的异质网络,基于元路径的随机游走策略生成包含论文id的路径集,并利用word2vec模型训练得到论文的关系表征向量,具体使用python中gensim库中的word2vec模型。步骤三:利用论文的标题,摘要中的文本信息,使用文本预训练模型得到论文的语义表征向量。步骤四:将步骤二中的论文关系表征向量和步骤三中的论文语义表征向量加权求和,得到论文的最终表征向量。步骤五:基于步骤二至步骤四的方法,计算出论文库中所有论文的表征向量。基于所有论文的最终表征向量,当给定一论文,将其他所有论文与该论文的余弦相似性排序,并将高相似性的论文推荐给用户。步骤六:将通过步骤一及步骤五形成的推荐结果候选集进行融合,并将高相似性的论文推荐给用户。与现有技术相比,本专利技术的积极效果为:1.通过计算论文关系表征向量和论文语义表征向量并加权求和所得到的论文最终的表征向量,使得后续的论文相似性计算既考虑到了论文在学术异质网络中的网络结构相似性,又考虑到了论文文本的语义相似性,从而使得推荐的论文更加全面、丰富。2.本专利技术步骤一中的通过加权计算所得到的论文相似度具有精确推荐和可解释性的优点,但缺乏泛化性,推荐结果较为固定、不丰富;相比之下,本专利技术步骤五中的通过表征学习计算所得到的论文表中向量,是建立在数据驱动的深度学习范式之上的,在具有大量数据的情景下能够得到高效的模型,所推荐的结果将更加广泛和丰富,但不具备可解释性。本专利技术步骤六将通过步骤一及步骤五形成的推荐结果候选集进行融合,相较于已有的基于深度神经网络方法的论文推荐模型,推荐结果既广泛又具有可解释性。附图说明图1为本专利技术的方法流程图。图2为论文关系异质网络。图3为随机游走生成路径集方法流程图。具体实施方式下面将结合附图及实施例对本专利技术做进一步的阐述说明。本专利技术的目标是基于数据库中任一的论文推荐与其相关的论文,使用论文的一些主要信息,如标题、摘要、作者、关键词,通过综合考虑异质网络中的图局部结构所构建的论文关系表征和论文的语义表征,得到论文的最终表征。最后通过计算论文之间的余弦相似性并进行排序,进而将与一篇论文高度相关的论文将被推荐给用户。本专利技术方法流程如图1所示。步骤一:基于论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络。给定任一论文,基于该异质网络,计算论文的加权相似度,并形成基于网络关系的论文加权相似度排序,并排序形成推荐结果候选集。首先,先搭建论文的异质网络。将论文库的所有的论文之间的关系抽取出来,构建出一个论文异质网络,如图2所示。该网络主要包含一种类型的节点:论文,三种类型的边:CoAuthor、CoOrg和CoKeyword。把每一篇学术论文作为学术中的节点。CoAuthor代表两个论文之间有共同作者,边上的权值代表拥有共同作者的个数。如果两篇论文之间有共同作者,就根据其共同作者的数量搭建相应权值大小的边,如果两篇论文之间无共同作者,则不搭建此边。CoOrg代表两个论文中机构的相似性关系。在构建论文的CoOrg关系时,机构的相似性关系依据两个机构词的集合的交集数量,即如果两篇论文的作者机构有共现词,则为其搭建相应共现词数量为权值的边,如果两篇论文的作者机构交集大小为0,即两个机构之间无共现词,则不搭建这条边。如果两篇出版物有相同出现的关键词,且这个词不是停用词,那么就在它们之间构建一条CoKeyword的边,这边相应的也有数目的属性,如果有一个共现词,那么属性值为1,如果有两个共现词,那么属性为2,以此类推。给定任一论文,基于该异质网络,计算论文的加权相似度,并形成基于网络关系的论文加权相似度排序,并排序形成推荐结果候选集。对于一篇拟进行相似推荐的论文pi,找到在异质网络中所有与其存在关联边的其它论文,计算其加权相似性。对于其中任一篇论文pj,其与论文pi的加权相似性Sij计算公式如下:其中为论文pi和论文pj分别在作者、机构、关键词这三个维度的相似性;αauthor,αorg,αkeyword为作者相似性、机构相似性、关键词相似性的权重,为人工设置参数且和为1;count_same_a本文档来自技高网
...

【技术保护点】
1.一种基于图局部结构和文本语义相似性的学术论文推荐方法,其步骤包括:/n1)基于论文库中论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络;/n2)对于一篇拟进行相似推荐的论文p

【技术特征摘要】
1.一种基于图局部结构和文本语义相似性的学术论文推荐方法,其步骤包括:
1)基于论文库中论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络;
2)对于一篇拟进行相似推荐的论文pi,基于该异质网络计算与该论文pi有关联的论文相似度,基于论文相似度选取多个论文形成一推荐结果候选集;
3)对该异质网络进行基于设定元路径的随机游走策略生成包含论文id的路径集,并利用该路径集作为训练语料库训练得到论文库中每一论文的关系表征向量;
4)利用该论文库中论文的标题、摘要中的文本信息,使用文本预训练模型训练得到对应论文的语义表征向量;
5)将论文的关系表征向量和论文的语义表征向量加权求和,得到对应论文的最终表征向量;将该论文pi加入到该论文库中并生成该论文pi的最终表征向量;
6)计算该论文库中每一论文的最终表征向量与该论文pi的最终表征向量的相似性,并根据所得相似性选取多个论文作为该论文pi的待推荐候选论文;
7)将步骤2)所得推荐结果候选集与步骤6)所得待推荐候选论文进行融合,选取相似性最高的若干论文作为该论文pi的推荐论文。


2.如权利要求1所述的方法,其特征在于,形成所述推荐结果候选集的方法为:对于一篇拟进行相似推荐的论文pi,基于该异质网络找到与该论文pi存在关联边的论文pj,利用计算论文pi与论文pj的相似性Sij;其中,论文pi和论文pj在作者维度的相似性,为论文pi和论文pj在机构维度的相似性,为论文p...

【专利技术属性】
技术研发人员:杜一宁致远乔子越周园春
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1