System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于链接相似度的学术文献检索方法及系统技术方案_技高网

基于链接相似度的学术文献检索方法及系统技术方案

技术编号:41327302 阅读:5 留言:0更新日期:2024-05-13 15:05
本发明专利技术公开了一种基于链接相似度的学术文献检索方法及系统,该方法包括以下步骤:步骤1,将学术文献根据是否存在引用关系转化为引用网络图;步骤2,给定学术文献节点a作为请求,使用基于Hub Depressed Index的相似度模型HdiSim来计算节点a与其他科学文献节点之间的相似度;步骤3,使用模块化分解和共享部分和策略来加速HdiSim的计算;步骤4,获取相似度排名最高的前k篇学术文献,从而得到与学术文献a相似的学术文献。与传统方法相比,本发明专利技术能够捕获到更加丰富且合理的相似信息,从而实现准确且高效的检索。

【技术实现步骤摘要】

本专利技术涉及学术文献检索技术,特别是一种基于链接相似度的学术文献检索方法及系统


技术介绍

1、随着学术研究领域的不断扩大和深入,学术文献数据库规模不断扩大,使用人数不断上升,对学术文献检索的需求也在不断增长,如何从海量的学术文献中快速找到相关的学术文献和学术资源成为了首要解决的难题。

2、目前学术文件检索方法可以大致分为两类,一种是基于文本相似度的方法,比如通过计算两篇学术文献之间的共同关键词、短语、摘要或者全文内容,通过词频等基础技术,从而去计算学术文献之间的相似度,但是这种方法往往需要全文文献的信息,计算的时间复杂度较高。另一种则是基于网络结构的链接和拓扑结构的相似度模型,将学术文献引用关系抽象成图,其中学术文献表示节点,引用关系表示边,通过计算图中任意两个节点之间的相似度来度量学术文献之间的相似度,这种方法所需信息较少,仅需文献的引用关系即可,且往往能获取较好的检索结果。

3、目前存在众多基于链接的相似度模型,其中在学术文献引用网络中应用较为广泛的是c-rank模型,该模型将相似性分数分为了jaccard系数、节点a与节点b邻居节点差集和节点b邻居节点集相似度、节点b与节点a邻居节点差集和节点a邻居节点集相似度。其迭代形式为:

4、

5、其中s(a,b)表示节点a和b之间的相似度,c表示衰减因子,取值在0~1之间,,ia表示节点a的邻居节点的集合,|ia|是节点a的度数。但是在实际应用场景中会发现,c-rank模型在相似度检索过程会产生一些误差,来源之一只因为两个节点的邻居节点如果是度数较大的,其相似度贡献值和度数较小的节点贡献值的权重是一致的。但实际上度数较小的节点所反应的相似度更能反应节点之间的相似度。


技术实现思路

1、本专利技术的目的在于提供一种基于链接相似度的学术文献检索方法及系统,其能够在有效的时间内提取出给定学术文献相似的学术文献,同时保证较高的准确度,满足查询需求。

2、实现本专利技术目的的技术解决方案为:第一方面,本专利技术提供一种基于链接相似度的学术文献检索方法,包括以下步骤:

3、步骤1,将学术文献根据引用关系是否存在转化为学术文献引用网络,其中学术文献作为图中的节点,如果学术文献之间存在引用关系,则在对应的节点之间增加一条边;

4、步骤2,给定节点a作为请求,使用hub depressed index的点对相似度模型hdisim计算全局节点相似度;

5、步骤3,使用模块化分解和共享部分和技术来加速hdisim的计算;

6、步骤4,获取节点a相似度排名最高的前k个节点,从而得到与学术文献a最相似的科学文献,从而完成相似学术文献的检索。

7、第二方面,本专利技术提供一种基于链接相似度的学术文献检索系统,包括:

8、第一模块,用于将学术文献根据引用关系是否存在转化为学术文献引用网络,其中学术文献作为图中的节点,如果学术文献之间存在引用关系,则在对应的节点之间增加一条边;

9、第二模块,用于给定节点a作为请求,使用hub depressed index的点对相似度模型hdisim计算全局节点相似度;

10、第三模块,使用模块化分解和共享部分和技术来加速hdisim的计算;

11、第四模块,用于获取节点a相似度排名最高的前k个节点,从而得到与学术文献a最相似的科学文献,从而完成相似学术文献的检索。

12、第三方面,本专利技术提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法的步骤。

13、第四方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法的步骤。

14、第五方面,本专利技术提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法的步骤。

15、相较于现有技术,本专利技术具有如下优点:首先本方法在进行相似学术文献检索时,只需要通过公开的文献引用信息进行网络的构造,不需要文献的所有全文内容去计算文本相似度等,即可以不受限于高昂的文献购买费用等问题原因导致的语料不全,导致基于文本的相似度准确度下降、文献收录不齐全等问题。其次,c-rank方法在相似度度量上面存在一定的不合理地方,c-rank在归一化邻居节点间相似度时,认为高度数邻居节点与低度数邻居节点享有同样的权重,实际中低度数节点的相似性更能反应节点间的相似性。而本专利技术采用了基于hub depressed index的点对相似度模型hdisim,在保留c-rank模型的特点同时,能够很好的解决c-rank存在的上述问题。最后本专利技术使用了模块化分解和共享部分和策略,避免了计算过程中大量的重复计算,在不损失精度的同时大大提高了计算速度,极大的提高了用户使用体验。

本文档来自技高网...

【技术保护点】

1.一种基于链接相似度的学术文献检索方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于链接相似度的学术文献检索方法,其特征在于,步骤2具体包括如下步骤:

3.根据权利要求2所述的基于链接相似度的学术文献检索方法,其特征在于,步骤3具体包括如下步骤:

4.一种基于链接相似度的学术文献检索系统,其特征在于,包括:

5.根据权利要求4所述的基于链接相似度的学术文献检索系统,其特征在于,第二模块,用于给定节点a作为请求,使用Hub Depressed Index的点对相似度模型HdiSim计算全局节点相似度,具体为:

6.根据权利要求5所述的基于链接相似度的学术文献检索系统,其特征在于,第三模块,使用模块化分解和共享部分和技术来加速HdiSim的计算,具体为:

7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-3中任一所述的方法的步骤。

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-3中任一所述的方法的步骤。

9.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-3中任一所述的方法的步骤。

...

【技术特征摘要】

1.一种基于链接相似度的学术文献检索方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于链接相似度的学术文献检索方法,其特征在于,步骤2具体包括如下步骤:

3.根据权利要求2所述的基于链接相似度的学术文献检索方法,其特征在于,步骤3具体包括如下步骤:

4.一种基于链接相似度的学术文献检索系统,其特征在于,包括:

5.根据权利要求4所述的基于链接相似度的学术文献检索系统,其特征在于,第二模块,用于给定节点a作为请求,使用hub depressed index的点对相似度模型hdisim计算全局节点相似度,具体为:

6....

【专利技术属性】
技术研发人员:曹铖俞唯仁袁龙
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1