System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文献查重的方法、装置、存储介质及电子设备制造方法及图纸_技高网

一种文献查重的方法、装置、存储介质及电子设备制造方法及图纸

技术编号:40819243 阅读:7 留言:0更新日期:2024-03-28 19:37
本申请提供了一种文献查重的方法、装置、存储介质及电子设备,该方法包括:对待查重文本与对比库进行对比,获取第一筛选结果;在所述第一筛选结果中存在所述文本内容的情况下,则对所述文本内容和所述待查重文本进行句向量相似度计算,获取第二筛选结果,所述待查重文本和所述目标文本中均含有至少一种语句类型;对所述目标文本和所述待查重文本进行重复度计算,获取所述至少一种语句类型中每种语句类型对应的语句重复度值;根据所述每种语句类型对应的语句重复度值和所述每种语句类型的权重值,获取所述待查重文本的文本查重结果。本申请实施例可以提升文本的查重效率和精准度。

【技术实现步骤摘要】

本申请涉及文本处理,具体而言,涉及一种文献查重的方法、装置、存储介质及电子设备


技术介绍

1、文献查重是对文献文本的重复率进行检测的一种方式,通过对不同文献文本间的相似度进行分析,以确定查重结果。

2、目前,现有的查重算法的实现流程为:首先对上传的待查重文本进行预处理操作。然后,提取待查重文本中的特征。接着,系统会将提取出的特征与已知来源数据库进行比对,筛选出相似的内容。最后,计算相似句子或相似段落的重复字数输出最终的查重结果。然而,该查重算法并未考虑文本中不同类型的语句的重要程度不同,以及以句子为特征的方式忽略了句子的语义特征,通过该查重算法得到的查重结果的准确度无法保证。

3、因此,如何提供一种精准度较高的文献查重的方法的技术方案成为亟需解决的技术问题。


技术实现思路

1、本申请的一些实施例的目的在于提供一种文献查重的方法、装置、存储介质及电子设备,通过本申请的实施例的技术方案可以提升文本查重的准确度,实用性较高。

2、第一方面,本申请的一些实施例提供了一种文献查重的方法,包括:对待查重文本与对比库进行对比,获取第一筛选结果,其中,所述第一筛选结果表征所述对比库中是否存在与所述待查重文本相似的文本内容;在所述第一筛选结果中存在所述文本内容的情况下,则对所述文本内容和所述待查重文本进行句向量相似度计算,获取第二筛选结果,其中,所述第二筛选结果表征所述文本内容中与所述待查重文本相似的目标文本,所述待查重文本和所述目标文本中均含有至少一种语句类型;对所述目标文本和所述待查重文本进行重复度计算,获取所述至少一种语句类型中每种语句类型对应的语句重复度值;根据所述每种语句类型对应的语句重复度值和所述每种语句类型的权重值,获取所述待查重文本的文本查重结果。

3、本申请的一些实施例通过将待查重文本与对比库进行初筛后得到第一筛选结果,之后通过复筛得到第二筛选结果。之后对第二筛选结果中的目标文件与待查重文本进行重复度计算得到不同语句类型对应的语句重复度值,最后结合不同语句类型的权重值得到文本查重结果。本申请实施例可以通过对不同的语句类型赋予不同的权重值,提升文本查重的精准度,实用性较高。

4、在一些实施例,所述对待查重文本与对比库进行对比,获取第一筛选结果,包括:对所述待查重文本进行关键词抽取,获取文本关键词;对所述文本关键词进行分词,得到重要词;将所述文本关键词和所述重要词进行两两组合并筛选,获取检索关键词;以所述检索关键词为索引在所述对比库中检索,得到所述第一筛选结果。

5、本申请的一些实施例通过对待查重文本的关键词抽取和处理后得到检索关键词,通过检索关键词在对比库中检索得到第一筛选结果,可以提升查重的效率。

6、在一些实施例,所述对所述目标文本和所述待查重文本进行重复度计算,获取所述至少一种语句类型中每种语句类型对应的语句重复度值,包括:获取所述目标文本与所述待查重文本的最大公共子序列,所述最大公共子序列为至少一个;通过将所述最大公共子序列与所述待查重文本的比值与预设阈值进行对比,确定所述语句重复度值的计算方式,以得到所述语句重复度值。

7、本申请的一些实施例通过确定目标文本和待查重文本的最大公共子序列后,通过将最大公共子序列与待查重文本的比值与预设阈值进行对比,确定语句重复度值的计算方式,可以保证语句重复度计算的准确度和效率。

8、在一些实施例,所述通过将所述最大公共子序列与所述待查重文本的比值与预设阈值进行对比,确定所述语句重复度值的计算方式,包括:若确认所述比值不大于所述预设阈值,则按照如下方法确定所述语句重复度值:从所述最大公共子序列中查找出最长连续公共子序列;计算所述最长连续公共子序列和所述待查重文本的重复度,得到所述语句重复度值;若确认所述比值大于所述预设阈值,则按照如下方法确定所述语句重复度值:计算所述最大公共子序列和所述待查重文本的重复度,得到所述语句重复度值。

9、本申请的一些实施例通过最大公共子序列与待查重文本的比值与预设阈值进行对比的结果,选择不同的方式计算语句重复度值,保证了语句重复度计算的准确度和效率。

10、在一些实施例,在所述根据所述每种语句类型对应的语句重复度值和所述每种语句类型的权重值,获取所述待查重文本的文本查重结果之前,所述方法还包括:对所述待查重文本进行语句分类,获取所述至少一种语句类型,其中,所述至少一种语句类型包括:研究背景语句、研究目的语句、研究方法语句、研究结论语句和研究结果语句中的至少一种;设置所述至少一种语句类型中每种语句类型对应的权重值。

11、本申请的一些实施例通过考虑语句类型的重要性设置不同语句类型对应的权重值,为文本查重提供数据支持,提升文本查重的精准度。

12、在一些实施例,所述根据所述每种语句类型对应的语句重复度值和所述每种语句类型的权重值,获取所述待查重文本的文本查重结果,包括:将所述每种语句类型对应的语句重复度值与所述每种语句类型的权重值进行加权求和,得到所述文本查重结果。

13、本申请的一些实施例通过加权求和的方式确定文本查重结果,既简便又高效。

14、在一些实施例,所述方法还包括:在确认所述第一筛选结果中不存在所述文本内容的情况下,所述语句重复度值为零。

15、第二方面,本申请的一些实施例提供了一种文献查重的装置,包括:第一筛选模块,用于对待查重文本与对比库进行对比,获取第一筛选结果,其中,所述第一筛选结果表征所述对比库中是否存在与所述待查重文本相似的文本内容;第二筛选模块,用于在所述第一筛选结果中存在所述文本内容的情况下,则对所述文本内容和所述待查重文本进行句向量相似度计算,获取第二筛选结果,其中,所述第二筛选结果表征所述文本内容中与所述待查重文本相似的目标文本,所述待查重文本和所述目标文本中均含有至少一种语句类型;重复度计算模块,用于对所述目标文本和所述待查重文本进行重复度计算,获取所述至少一种语句类型中每种语句类型对应的语句重复度值;查重模块,用于根据所述每种语句类型对应的语句重复度值和所述每种语句类型的权重值,获取所述待查重文本的文本查重结果。

16、第三方面,本申请的一些实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如第一方面任一实施例所述的方法。

17、第四方面,本申请的一些实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现如第一方面任一实施例所述的方法。

18、第五方面,本申请的一些实施例提供一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现如第一方面任一实施例所述的方法。

本文档来自技高网...

【技术保护点】

1.一种文献查重的方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述对待查重文本与对比库进行对比,获取第一筛选结果,包括:

3.如权利要求1或2所述的方法,其特征在于,所述对所述目标文本和所述待查重文本进行重复度计算,获取所述至少一种语句类型中每种语句类型对应的语句重复度值,包括:

4.如权利要求3所述的方法,其特征在于,所述通过将所述最大公共子序列与所述待查重文本的比值与预设阈值进行对比,确定所述语句重复度值的计算方式,包括:

5.如权利要求1或2所述的方法,其特征在于,在所述根据所述每种语句类型对应的语句重复度值和所述每种语句类型的权重值,获取所述待查重文本的文本查重结果之前,所述方法还包括:

6.如权利要求1或2所述的方法,其特征在于,所述根据所述每种语句类型对应的语句重复度值和所述每种语句类型的权重值,获取所述待查重文本的文本查重结果,包括:

7.如权利要求1或2所述的方法,其特征在于,所述方法还包括:

8.一种文献查重的装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被处理器运行时执行如权利要求1-7中任意一项权利要求所述的方法。

10.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器运行时执行如权利要求1-7中任意一项权利要求所述的方法。

...

【技术特征摘要】

1.一种文献查重的方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述对待查重文本与对比库进行对比,获取第一筛选结果,包括:

3.如权利要求1或2所述的方法,其特征在于,所述对所述目标文本和所述待查重文本进行重复度计算,获取所述至少一种语句类型中每种语句类型对应的语句重复度值,包括:

4.如权利要求3所述的方法,其特征在于,所述通过将所述最大公共子序列与所述待查重文本的比值与预设阈值进行对比,确定所述语句重复度值的计算方式,包括:

5.如权利要求1或2所述的方法,其特征在于,在所述根据所述每种语句类型对应的语句重复度值和所述每种语句类型的权重值,获取所述待查重文本的文本查重结果之前,所述方法还包括:

...

【专利技术属性】
技术研发人员:王猛张智雄于改红叶志飞李涵昱刘熠
申请(专利权)人:中国科学院文献情报中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1