System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 融合主题提取与余弦相似度的观点贡献度评价方法及系统技术方案_技高网

融合主题提取与余弦相似度的观点贡献度评价方法及系统技术方案

技术编号:40659061 阅读:6 留言:0更新日期:2024-03-18 18:51
本发明专利技术公开了一种融合主题提取与余弦相似度的观点贡献度评价方法及系统。所述观点贡献度评价方法包括:对目标数据库中的每篇文章的观点对应生成一个主题;其中,每篇文章对应一个观点,所述文章包括目标文章;比较各所述主题与目标观点的主题的相似度;所述目标观点为目标文章的观点;将各所述主题与目标观点的主题的相似度值大于相似度阈值的观点聚为一类,生成相似主题的文档集合,所述文档集合包括目标文章;根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度。本发明专利技术充分考虑了文章观点的先进性和前瞻性,借此来衡量学术代表作的观点贡献度,提高代表作评价的准确性及客观性。

【技术实现步骤摘要】

本专利技术涉及数据处理和评估技术,具体涉及一种融合主题提取与余弦相似度的观点贡献度评价方法及系统


技术介绍

1、目前,代表作评价制度已被应用于高校教师职称评审、学科评估、基金申报与课题评审、高水平人才选拔等各个方面,逐步形成绩效优先、鼓励创新和竞争向上的科研评价机制。尽管代表作评价制度已得到广泛应用,但其评价标准至今尚未有一套较为成熟的定论。

2、目前学术界对于代表作评价最常用的方法还是“同行评议”,即邀请本专业的多名专家或同行来对领域内其他学者的学术成果进行评价。相比于国内,国外应用同行评议起步更早,主要评估成果的质量及影响力,早在1986年,英国高等教育基金委员会就首次开展英国研究评估考核(research assessment exercise,ref),2014年,英国卓越研究框架(research excellence framework,ref)取代了rae,每位学者只需要提供不超过3项研究成果进行评分。实际上,同行评议更倾向于经验上的阐释,主要是凭借专家学者对本专业领域内的了解,来对同行的科研成果进行评价,这是一种经验性的思考 ,它主要凭借专家的经验和智慧来对学术成果进行评价,不可否认其评价结果有一定的正确性,受邀参与评价的专家往往学术造诣较高,对该学科领域较为了解,故其评价标准是有较高参考价值的。但同行评议也存在自身难以克服的弊端,一方面,学术研究是一项创新性很强的活动,一直不断地会有新知识新内容产生,这就导致评审专家可能会面临知识盲区或知识结构的不合理性问题;另一方面,人的情感可能导致评价过程中不可避免会受到主观因素的干扰,近年来,国内外许多学者对同行评议制度提出质疑。由于人具有主观性,审稿人的知识结构体系等都有可能会对评估结果产生影响,这让同行评议制度的可靠性、公正性受到质疑。

3、学者的学术贡献通常是指他们在特定领域内所作的研究和贡献,这些贡献通常以新的知识、理论、方法或应用的形式呈现,对学者进行评价可以从学者的贡献角度来进行分析,通过评估学者的学术成果的质量,可以衡量其在该领域所作的贡献。国内外对于学术成果影响力已开展了大量研究,许多学者用引文分析来评估作者贡献及学术影响力,例如美国物理学家早在2005年就已提出h指数来度量学者贡献和影响力。也有学者通过构建加权文献引文网络模型,提出学者文献影响力测度指标。还有从引用强度、引用位置、引用情感和作者署名次序4个方面构建一种作者学术影响力评价方法,计算作者贡献度。近年来,也有许多学者使用综合性的方法对学者贡献及学术影响力进行评价,例如融合altmetrics(替代计量学、补充计量学,加入了学术成果对社会影响力的考虑)与引文分析方法构建数据论文评价模型。也有选出与论文学术影响力最密切相关的7项指标组成综合评价体系,利用主成分分析法计算每篇论文的综合评价值。还有结合引文分析和同行评议方法,提出“客观同行评议”方法来评价论文的学术影响力。虽然国内外关于作者贡献度及学术影响力的研究已经有许多,但大多从引文角度入手构建评价模型或提出测度指标来分析作者的学术影响力,进而衡量作者的贡献度。基于引文的评价模型和测度指标复杂,不利于客观高效地对观点贡献度进行评价。


技术实现思路

1、针对现有技术的以上缺陷或改进需求,本专利技术一些实施例提供一种融合主题提取与余弦相似度的观点贡献度评价方法及系统,充分考虑文章观点的先进性和前瞻性,借此来衡量学术代表作的观点贡献度,提高代表作评价的准确性及客观性。

2、本专利技术为解决上述技术问题所采用的技术方案为:

3、在一些实施例中,提供一种融合主题提取与余弦相似度的观点贡献度评价方法,所述观点贡献度评价方法包括:

4、对目标数据库中的每篇文章的观点对应生成一个主题;其中,每篇文章对应一个观点,所述文章包括目标文章;

5、比较各所述主题与目标观点的主题的相似度;所述目标观点为目标文章的观点;

6、将各所述主题与目标观点的主题的相似度值大于相似度阈值的观点聚为一类,生成相似主题的文档集合,所述文档集合包括目标文章;

7、根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度,其中所述贡献度用于表示所述目标观点的先进性和前瞻性。

8、在一些实施例中,每个所述主题由多个主题词构成,所述对目标数据库中的每篇文章的观点对应生成一个主题,包括:将每个主题的多个主题词放入一个词袋,将一个词袋中的多个主题词作为一个集合而不考虑所述多个主题词的顺序,并对每个词袋进行去重操作。

9、在一些实施例中,所述比较各所述主题与目标观点的主题的相似度,包括:比较各所述主题与目标观点的主题的余弦相似度,生成各所述主题与目标观点的主题的相似度值。

10、在一些实施例中,所述目标数据库中的每篇文章的观点采用unilm模型提取,形成观点数据集,所述观点数据集中的数据格式为短文本;

11、所述对目标数据库中的每篇文章的观点对应生成一个主题,包括:使用textrank4zh模型对所述观点数据集进行处理,针对每个观点,从所述短文本中自动提取主题词,并根据权重排序选择权重值最大的三个主题词,将所述三个主题词放入一个词袋,生成一个主题。

12、在一些实施例中,所述根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度,包括:采用观点贡献度指标公式评估所述目标观点的贡献度,所述观点贡献度指标公式为:

13、 ,

14、其中,a、b、k为常数,根据测试结果调整k的值,t为目标文章的发表日期距离起始日期的天数值,p(t)的值随着t的增大而减小。

15、在一些实施例中,所述起始日期为所述目标数据库中的所有文章的发表时间范围的最早日期,设定常量b的值为6,设定a的值为4,k的取值为0.002。

16、在一些实施例中,所述目标文章为待评估学者的代表作。

17、在一些实施例中,还提供一种融合主题提取与余弦相似度的观点贡献度评价系统,所述观点贡献度评价系统包括:

18、主题生成模块,用于对目标数据库中的每篇文章的观点对应生成一个主题;其中,每篇文章对应一个观点,所述文章包括目标文章,每个主题包含三个主题词;

19、相似度比较模块,用于比较各所述主题与目标观点的主题的相似度;所述目标观点为目标文章的观点;

20、聚类模块,用于将各所述主题与目标观点的主题的相似度值大于相似度阈值的观点聚为一类,生成文档集合,所述文档集合包括目标文章;

21、贡献度指标计算模块,用于根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度,其中所述贡献度用于表示所述目标观点的先进性和前瞻性。

22、在一些实施例中,还提供一种电子设备,所述电子设备包括:

23、处理器;

24、存有处理器可执行指令的存储器,其中:

25、处理器从存储器内读取指令以实现如上任一项所述方法的本文档来自技高网...

【技术保护点】

1.一种融合主题提取与余弦相似度的观点贡献度评价方法,其特征在于,所述观点贡献度评价方法包括:

2.根据权利要求1所述的观点贡献度评价方法,其特征在于,每个所述主题由多个主题词构成,所述对目标数据库中的每篇文章的观点对应生成一个主题,包括:将每个主题的多个主题词放入一个词袋,将一个词袋中的多个主题词作为一个集合而不考虑所述多个主题词的顺序,并对每个词袋进行去重操作。

3.根据权利要求2所述的观点贡献度评价方法,其特征在于,所述比较各所述主题与目标观点的主题的相似度,包括:比较各所述主题与目标观点的主题的余弦相似度,生成各所述主题与目标观点的主题的相似度值。

4.根据权利要求3所述的观点贡献度评价方法,其特征在于,所述目标数据库中的每篇文章的观点采用统一语言预训练模型提取,形成观点数据集,所述观点数据集中的数据格式为短文本;

5.根据权利要求4所述的观点贡献度评价方法,其特征在于,所述根据所述文档集合中的每篇文章对应的时间先后顺序得出所述目标观点的贡献度,包括:采用观点贡献度指标公式评估所述目标观点的贡献度,所述观点贡献度指标公式为:

6.根据权利要求5所述的观点贡献度评价方法,其特征在于,所述起始日期为所述目标数据库中的所有文章的发表时间范围的最早日期,设定常量b的值为6,设定a的值为4,k的取值为0.002。

7.根据权利要求1所述的观点贡献度评价方法,其特征在于,所述目标文章为待评估学者的代表作。

8.一种融合主题提取与余弦相似度的观点贡献度评价系统,其特征在于,所述观点贡献度评价系统包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种融合主题提取与余弦相似度的观点贡献度评价方法,其特征在于,所述观点贡献度评价方法包括:

2.根据权利要求1所述的观点贡献度评价方法,其特征在于,每个所述主题由多个主题词构成,所述对目标数据库中的每篇文章的观点对应生成一个主题,包括:将每个主题的多个主题词放入一个词袋,将一个词袋中的多个主题词作为一个集合而不考虑所述多个主题词的顺序,并对每个词袋进行去重操作。

3.根据权利要求2所述的观点贡献度评价方法,其特征在于,所述比较各所述主题与目标观点的主题的相似度,包括:比较各所述主题与目标观点的主题的余弦相似度,生成各所述主题与目标观点的主题的相似度值。

4.根据权利要求3所述的观点贡献度评价方法,其特征在于,所述目标数据库中的每篇文章的观点采用统一语言预训练模型提取,形成观点数据集,所述观点数据集中的数据格式为短文本;

5.根据权利要求4所述的观点贡献...

【专利技术属性】
技术研发人员:段尧清凌榕曾江峰程征
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1