一种基于引用次数的文献推荐方法技术

技术编号:23890798 阅读:19 留言:0更新日期:2020-04-22 06:23
本发明专利技术公开了一种基于引用次数的文献推荐方法,包括:首先,在文献数据库中选定文献群体范围;其次,依据所选定文献群体中文献间的相互引用关系构建引用网络模型,统计文献的黄金引用次数;然后,基于所述引用网络模型对文献进行聚类分组;最后,按照黄金引用次数和文献聚类分组排序,向用户推荐文献。通过定义文献的黄金引用次数,消除文献引用关系中自引的干扰,削弱低质低效他引的影响,同时基于文献引用网络进行文献聚类划分研究领域,使得用户可快速准确的锁定特定研究领域的高质量文献。

【技术实现步骤摘要】
一种基于引用次数的文献推荐方法
本专利技术属于文献检索
,具体地说涉及一种基于引用次数的文献推荐方法。
技术介绍
文献的引用关系反应了文献间内在的、本质的联系。文献之间的相互引用直接反应了两个独立研究个体之间的传承和内在联系,某文献对多篇文献的共同引用记录也隐含了多篇文献之间相关性。充分利用文献间引用关系特征信息可以提高文献聚类计算的有效性与可靠性。在学术文献数量飞速增长的当代,每天都有数以万计的学术成果被发表,通过文献聚类将相似的文档聚在一起,过滤不相似的文档,能帮助用户有效地组织、概括、导航和查找文献信息。申请号为201510957990.2的中国专利描述了一种文献引用网络可视化及文献推荐方及系统:该系统先通过定量分析引用行为产生的传递价值和文献相似度计算文献重要度,其次,利用改进的网页链接度排序算法与K均值聚类算法相结合用于文献网中社区发现,并对聚类结果进行可视化,最终将可视化中所展示的聚类中心文献推荐给用户。但是该专利在使用文献引用次数是并未考虑引文网络以及作者与作者之间的关系,施引文献是被引文献作者的另一研究成果,该次引用不能被作为被引文献重要性的有力证明。申请号为201710163216.3的中国专利公开了一种基于知识图谱的个性化文献推荐方法。首先构建知识图谱,并再次基础上分别构建用户兴趣模型与文献知识模型,根据知识路径集合计算各主题的重要程度,计算每篇文献的最优值,根据最优质排序推荐文献给用户。但是这一类方法缺乏用户差异性的考虑,无法适用于所有新用户,同时,本方法过于依赖用户信息,所推荐文献缺乏权威性和客观性。申请号为201410046769.7的中国专利描述了一种基于LDA(LatentDirichletAllocation,隐含狄利克雷分布)和VSM(VectorSpaceModel,向量空间模型)的中草药相似文献的推荐方法。基于中草药专业词典构建出整个中草药文献库的词向量空间,并获得语义词典,每篇文档基于该语义词典进行矢量化处理形成参数化的词向量,利用VSM和LDA两种方法获得的两篇文献的相似度,经加权处理获得最终的相似度值,并以此为依据进行相似文献推荐。该方法不仅能感知文本的表面含义,还能在文本的隐含语义层面来进步挖掘相似性,即使遇到海量文本数据的应用场景,仍能有较好的表现。但是该方法构建特定专业文献库的词向量空间和语义词典数据庞大且计算繁琐。其次,该方法中用孤立的、没有完整语义的词计算文献间相似度,会因为匹配因子“偏大”或“偏小”导致失真误差,仅限于确定领域文献库使用,若对交叉学科或新兴学科进行计算必然会出现结果偏倚现象。有鉴于此,特提出本专利技术。
技术实现思路
本专利技术要解决的技术问题在于克服现有技术的不足,提供一种基于引用次数的文献推荐方法,通过计算文献的黄金引用次数和利用群落算法划分文献研究领域,快速准确地为用户提供高质量文献。为解决上述技术问题,本专利技术采用技术方案的基本构思是:本专利技术提供了一种基于引用次数的文献推荐方法,包括:首先,在文献数据库中选定文献群体范围;其次,依据所选定文献群体中文献间的相互引用关系构建引用网络模型,统计文献的黄金引用次数;然后,基于所述引用网络模型对文献进行聚类分组;最后,按照黄金引用次数和文献聚类分组排序,向用户推荐文献。上述方案中,所述文献包括科技期刊、专利、会议论文、研究报告和学位论文。本专利技术的进一步方案为:所述引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个文献节点和|E|=M条边所组成的一个有向网络;其中,G代表文献群体中文献以及文献间引用关系的集合,V代表文献群体G中的文献集合,E代表文献群体G中文献间的引用关系。本专利技术的进一步方案为:所述“基于所述引用网络模型对文献进行聚类分组”包括对文献引用网络进行群落划分,划分后的文献群落视为相对独立的研究领域,步骤如下:S11.将所述引用网络G作为初始网络,并设为当前网络;S12.将当前网络中的节点随机分为两个群落,之后执行步骤S13;S13.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度,之后执行步骤S14;S14.将较低贡献度的节点从一个群落移动到另一个群落,之后执行步骤S15;S15.重新计算每个节点对模块度的贡献度和网络模块度,之后执行步骤S16;S16.判断网络模块度是否增加,同时判断网络模块度是否达到最大值,若模块度增加,即未达最大值,则保留该次节点移动结果并返回执行步骤S14,若模块度不增加,则撤回移动节点,将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落,并返回执行步骤S15;若模块度达到最大值,则执行步骤S17;S17.记录并保存初始网络此时的网络模块度及群落结构,之后执行步骤S18;S18.将步骤S17中划分出的每个群落作为单独网络继续进行划分,并对每个单独网络以递归的方式执行步骤S12~S18,直至初始网络没有更大的模块度产生,得到网络群落划分结果,即{G1,G2,G3,...,Gn}。本专利技术的进一步方案为:所述每个节点对模块度的贡献度λi根据下式计算:其中,κr(i)代表属于群落r的节点vi与该群落内其他节点之间的代表引用关系的边数量,为节点vi的施引数,为节点vi的被引数,ar(i)代表无论施引或者被引节点在群落r中的边的比例。本专利技术的进一步方案为:所述模块度Q根据下式计算:其中,m为文献网络中代表引用关系的总边数。本专利技术的进一步方案为:所述“按照黄金引用次数和文献聚类分组排序,向用户推荐文献”包括:将文献按照研究领域聚类划分的结果和依照黄金引用次数对文献排序相结合,向用户推荐文献;优选的,所述结合包括设定第一阈值,取文献群体中黄金引用次数大于所述第一阈值的文献节点,并根据黄金引用次数降序排列,之后取文献聚类划分结果和所述降序排列结果的交集,形成向用户推荐的文献列表,所述第一阈值不大于最大黄金引用次数;优选的,所述结合包括将文献群体中的所有文献节点按照黄金引用次数降序排列,之后为文献聚类划分结果中每个研究领域的文献群落设定第二阈值,向用户推荐每个文献群落中黄金引用次数处于第二阈值和最大黄金引用次数之间的文献节点所组成的文献列表,所述第二阈值不大于最大黄金引用次数。上述方案中,所述文献聚类划分的主要作用是对一个技术主题所包含的多个研究领域进行划分,划分结果即该技术主题下对应各子
的数个文献群落。而由于有些技术主题包含的研究领域比较庞杂,因此不可能完全实现每个研究领域中的文献都恰巧落入黄金引用文献群体中,因此需要在黄金引用文献群体和/或聚类划分的文献群落中引入阈值,在一定阈值范围形成二者的交集,从而得出推荐给用户的文献列表。本专利技术的进一步方案为:所述统计文献的黄金引用次数包括如下步骤:S21.统计文献被引次数,后执行步骤S22;S22.统计文献他引次数,后执行步骤S23;S23.计算文献的黄金引用次数。本发本文档来自技高网
...

【技术保护点】
1.一种基于引用次数的文献推荐方法,其特征在于,包括:/n首先,在文献数据库中选定文献群体范围;/n其次,依据所选定文献群体中文献间的相互引用关系构建引用网络模型,统计文献的黄金引用次数;/n然后,基于所述引用网络模型对文献进行聚类分组;/n最后,按照黄金引用次数和文献聚类分组排序,向用户推荐文献。/n

【技术特征摘要】
1.一种基于引用次数的文献推荐方法,其特征在于,包括:
首先,在文献数据库中选定文献群体范围;
其次,依据所选定文献群体中文献间的相互引用关系构建引用网络模型,统计文献的黄金引用次数;
然后,基于所述引用网络模型对文献进行聚类分组;
最后,按照黄金引用次数和文献聚类分组排序,向用户推荐文献。


2.根据权利要求1所述的一种基于引用次数的文献推荐方法,其特征在于,所述引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个文献节点和|E|=M条边所组成的一个有向网络;其中,G代表文献群体中文献以及文献间引用关系的集合,V代表文献群体G中的文献集合,E代表文献群体G中文献间的引用关系。


3.根据权利要求2所述的一种基于引用次数的文献推荐方法,其特征在于,所述“基于所述引用网络模型对文献进行聚类分组”包括对文献引用网络进行群落划分,划分后的文献群落视为相对独立的研究领域,步骤如下:
S11.将所述引用网络G作为初始网络,并设为当前网络;
S12.将当前网络中的节点随机分为两个群落,之后执行步骤S13;
S13.计算每个节点对所述模块度的贡献度并根据贡献度计算网络模块度,之后执行步骤S14;
S14.将较低贡献度的节点从一个群落移动到另一个群落,之后执行步骤S15;
S15.重新计算每个节点对模块度的贡献度和网络模块度,之后执行步骤S16;
S16.判断网络模块度是否增加,同时判断网络模块度是否达到最大值,若模块度增加,即未达最大值,则保留该次节点移动结果并返回执行步骤S14,若模块度不增加,则撤回移动节点,将不同于所述被撤回移动节点的贡献度较低的新节点从一个群落移动到另一个群落,并返回执行步骤S15;若模块度达到最大值,则执行步骤S17;
S17.记录并保存初始网络此时的网络模块度及群落结构,之后执行步骤S18;
S18.将步骤S17中划分出的每个群落作为单独网络继续进行划分,并对每个单独网络以递归的方式执行步骤S12~S18,直至初始网络没有更大的模块度产生,得到网络群落划分结果,即{G1,G2,G3,...,Gn}。


4.根据权利要求3所述的一种基于引用次数的文献推荐方法,其特征在于,所述每个节点对模块度的贡献度λi根据下式计算:



其中,κr(i)代表属于群落r的节点vi与该群落内其他节点之间的代表引用关系的边数量,为节点vi的施引数,为节点vi的被引数,ar(i)代表无论施引或者被引节点在群落r中的边的比例。


5.根据权利要求4所述的一种基于引用次数的文献推荐方法,其特征在于,所述模块度Q根据下式计算:



其中,m为文献网络中代表引用关系的总边数。


6.根据权利要求1所述的一种基于引用次数的文献推荐方法,其特征在于,所述“按照黄金引用次数和文献聚类分组排序,向用户推荐文献”包括:将文献按照研究领域聚类划分的结果和依照黄金引用次数对文献排序相结合,向用户推荐文献;
优选的,所述结合包括设定第一阈值,取文献群体中黄金引用次数大于所述第一阈值的文献节点,并根据黄金引用次数降序排列,之后取文献聚类划分结果和所述降序排列结果的交集,形成向用户推荐的文献列表,所述第一阈值不大于最大黄金引用次数;
优选的,所述结合包括将文献群体中的所有文献节点按照黄金引用次...

【专利技术属性】
技术研发人员:吴晨生李辉刘静陈雪飞靳晓宏
申请(专利权)人:北京市科学技术情报研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1