System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于自适应超越指数的科学论文影响力评价方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>南开大学专利>正文

基于自适应超越指数的科学论文影响力评价方法及系统技术方案

技术编号:40438398 阅读:4 留言:0更新日期:2024-02-22 23:02
本发明专利技术公开了一种基于自适应超越指数的科学论文影响力评价方法及系统。本发明专利技术设置了论文主题确定模块、实时检索模块、自适应超越指数计算模块与可视化输出模块四个模块,其中论文主题确定模块依据大语言模型对给定论文题目及摘要进行分析,得到一个或多个论文主题。实时检索模块根据所获得的论文主题从可公开获取的数据库中实时获取论文的相关数据。自适应超越指数计算模块根据返回的相关数据计算出指定论文的自适应超越指数。可视化输出模块则是依据先前获取、计算得出的论文相关数据,利用Python语言实时渲染出一份图文并茂、界面整洁的PDF文件。

【技术实现步骤摘要】

本专利技术属于文献计量学领域,尤其涉及针对科学论文的质量评价算法及系统。


技术介绍

1、文献计量学是一种运用数学和统计学等方法,对文献尤其是科学论文进行定量分析的一门学科。在20世纪60年代,随着eugene garfield提出科学引文索引(sci)、derekjohn de solla price提出引用网络分析,以及alan pritchard明确了文献计量学的定义,文献计量学诞生了。自诞生起,文献计量学的理论与方法一直随着技术发展和社会需求而不断更新。其中,引用次数作为一种经典的量化评价指标,一直以来都有着广泛的引用。它是某篇论文或学术成果被其它论文和学术成果引用的次数,较高的引用次数通常有着较高的影响力。然而,由于基于引文分析法的引用次数评价方法在建立之初设置了一些假设与前提基础,因此该方法在实际使用中也受到一定限制。例如,引用次数评价法将所有引用视为相同的引用,这忽略了不同引文带来的差异。显然,被一篇高质量的文献引用与被一篇相对低质量的文献引用应当在数值上有所差别,而引用次数指标将其同等对待,仅以引用的次数多少来衡量影响力。

2、基于上述缺点,国内外不同学者尝试改进引用次数指标。其中最主流的改进思路是借助pagerank排序算法对引用进行打分,以此来试图在一定程度上消除或降低不同引文带来的偏差。pagerank是谷歌公司larry page和sergey brin开发的算法,最早用于评估网页的重要性和排名。pagerank算法认为一个网页的重要性是由其它网页重要性决定的,可以将论文类比为网页,将文献引用类比为网页链出,将文献被引类比网页链入,则其数学表达式如式1所示:

3、

4、其中,pr(a)为论文a的pagerank值,ti,(i∈[1,n])为论文a的被引文献,c(ti)为论文ti的文献引用数量,n为论文总数,d为阻尼因子,通常被设定为0.85,为论文中引用论文a的论文ti所贡献给论文a的级别值,该值也被称为mini-pagerank。尽管基于pagerank的引文分析方法在设计时考虑了相同重要性,但该算法需要在超过两层引用关系的数据集上才有稳定的表现,而在实际应用中,往往难以获得多层引用文献的数据,这会对算法的性能造成一定的影响。此外,虽然经过多层迭代后的pagerank会收敛至某一稳定的非归一化数值,但非归一化的数学性质会导致不同领域做出类似贡献论文的pagerank值有较大差异。

5、也有学者直接使用发表论文的会议集/期刊的影响因子(见式2)作为评价论文的指标。

6、

7、其中,citationtotal为总被引频次,piblicationtotal为总发文量。然而,现实中,一个会议集/期刊发表的论文往往包含了多个研究领域,甚至部分综合性会议集/期刊跨越了多个学科,这使得该值无法被直接用于跨学科对比中。为克服上述问题,中国科学院采用期刊超越指数作为现行期刊的评价指数,其数学表达式为:

8、

9、其中,sa为期刊a在主题t上的超越指数,d∈{article,review}为文献类型,at,d表示期刊a中主题为t,类型为d的论文集合。该式的含义是从期刊中随机选择一篇论文,其引用数大于从其它期刊选择的一篇相同主题、相同文献类型论文引用数的概率。这种计算方式避免了分子分母不一致问题,也较好地解决了偏态问题。但该指数的计算过程离散化,且由于引用量差异较大,存在同领域内具有不同引用数量但却具有相同超越指数的情况出现。另外需要指出的是,该指数主要针对期刊设计,并不适合对单篇论文进行量化评价。

10、现有评价方案或依靠简单的引用次数,或基于pagerank算法,亦或直接借用会议集/期刊影响因子进行评价,均难以实时准确地反映出单篇论文对领域的贡献。在现有认知范围内,尚不存在一种针对单篇论文的可实时更新的自适应超越指数评价算法及系统。


技术实现思路

1、本专利技术的目的是为了克服现有技术中的不足,弥补相关技术空白,提供一种基于自适应超越指数的科学论文影响力实时评价算法及系统,其设置了论文主题确定模块、实时检索模块、自适应超越指数计算模块与可视化输出模块四个模块,其中论文主题确定模块依据大语言模型对给定论文题目及摘要进行分析,得到一个或多个论文主题。实时检索模块根据所获得的论文主题从可公开获取的数据库中实时获取论文的相关数据。自适应超越指数计算模块根据返回的相关数据计算出指定论文的自适应超越指数。可视化输出模块则是依据先前获取、计算得出的论文相关数据,利用python语言实时渲染出一份图文并茂、界面整洁的pdf文件。

2、本专利技术的目的是通过以下技术方案实现的:

3、一种基于自适应超越指数的科学论文影响力评价方法,包括:

4、确定论文主题;根据指定论文的题目、摘要及预设的提示利用大语言模型获得论文的主题;

5、根据论文主题获得实时检索结果;通过论文主题在能够公开获取的论文数据库中实时检索与给定论文同属相同主题的论文集合,获得该论文集合内最相关的k篇论文及每篇论文p对应的引用次数pc;

6、根据检索结果计算自适应超越指数;根据所选择k篇论文及每篇论文p对应的引用次数pc,计算得出k篇论文的离散引用频率分布并将其视为概率质量函数,即其中citationx表示具有x次引用论文的数量;使用最大似然估计法拟合p(x=x),得到连续指数分布的概率密度函数(pdf)f(x)=λe-λ(x-loc),x≥0;其中,f(x)表示在取值x处的概率密度,λ、loc为最大似然估计法拟合的结果,分别表示控制缩放的尺度参数和控制位移位置参数;计算f(x)在区间[0,citenum]上的定积分,得到自适应超越指数自适应超越指数就是论文影响力的一个体现,它的取值范围是0到1,0代表这篇文章在领域内没有什么影响力,1代表这篇文章在领域内非常受认可。

7、本专利技术还提供一种基于自适应超越指数的科学论文影响力评价系统,包括:

8、论文主题确定模块,用于根据指定论文的题目、摘要及预设的提示利用大语言模型获得论文的主题;

9、实时检索模块,用于根据论文主题,在能够公开获取的论文数据库中实时检索与给定论文同属相同主题的论文集合,并获得该集合内最相关的k篇论文及每篇论文p对应的引用次数pc;

10、自适应超越指数计算模块,用于为根据所选择k篇论文及每篇论文p对应的引用次数pc,计算得出k篇论文的离散引用频率分布;并将其视为概率质量函数即其中citationx表示具有x次引用论文的数量;使用最大似然估计法拟合p(x=x),得到连续指数分布的概率密度函数f(x)=λe-λ(x-loc),x≥0;其中,f(x)表示在取值x处的概率密度,λ、loc为最大似然估计法拟合的结果,分别表示控制缩放的尺度参数和控制位移位置参数;计算f(x)在区间[0,citenum]上的定积分,得到自适应超越指数

11、可视化输出模块,用于依据先前获取、计算得出的论文被引本文档来自技高网...

【技术保护点】

1.一种基于自适应超越指数的科学论文影响力评价方法,其特征在于,包括:

2.一种基于自适应超越指数的科学论文影响力评价系统,其特征在于,包括:

3.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述的基于自适应超越指数的科学论文影响力评价方法中的步骤。

4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1所述的基于自适应超越指数的科学论文影响力评价方法中的步骤。

【技术特征摘要】

1.一种基于自适应超越指数的科学论文影响力评价方法,其特征在于,包括:

2.一种基于自适应超越指数的科学论文影响力评价系统,其特征在于,包括:

3.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所...

【专利技术属性】
技术研发人员:赵鹏海李翔
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1