一种文章的查重检测方法、装置、设备及存储介质制造方法及图纸

技术编号:22594859 阅读:42 留言:0更新日期:2019-11-20 11:10
本发明专利技术实施例公开了一种文章的查重检测方法、装置、设备及存储介质。其中,文章的查重检测方法包括:对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合;获取与至少一个参考文章分别对应的至少一个关键描述特征;将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。本发明专利技术实施例的技术方案通过将待查重文章中的核心观点与参考文章的核心观点进行匹配,避免了因同义词替换或者文章内容顺序改变而造成对查重检测结果的影响,提高了文章查重检测的准确性。

A method, device, equipment and storage medium for duplicate checking

The embodiment of the invention discloses a duplicate checking detection method, device, device and storage medium of the article. Among them, the article duplicate checking detection method includes: semantic analysis of the article to be duplicate checked to determine at least one key sentence set corresponding to the article to be duplicate checked; obtaining at least one key description feature corresponding to at least one reference article respectively; matching each key sentence set of the chapter to be duplicate checked with each key description feature of each reference article respectively Match, and according to the matching results, determine the key feature similarity between the duplicate articles to be checked and the reference articles, so as to check the duplicate articles. The technical scheme of the embodiment of the invention can match the core point of the article to be checked with the core point of the reference article, avoid the influence on the result of the duplicate checking detection caused by the synonym replacement or the change of the content order of the article, and improve the accuracy of the duplicate checking detection of the article.

【技术实现步骤摘要】
一种文章的查重检测方法、装置、设备及存储介质
本专利技术实施例涉及信息处理技术,尤其涉及一种文章的查重检测方法、装置、设备及存储介质。
技术介绍
随着网络技术的迅速发展,网络用户可以轻易的获取网络上其他人发布的研究成果以及学位论文等。现在很多工作中都有撰写论文的需求,例如,教师、医生以及学生毕业答辩等,为了验证论文的原创性,通常要对论文进行查重检测。现有的论文查重系统,可以通过比较文本的方式发现待查重论文与网络上其他人上传的论文的相似度,但有一些作弊软件通过大量的同义词替换,使通过比较文本进行查重检测的论文查重系统失效,而且,通过人为将原文内容顺序进行改变,同样也会干扰上述查重系统,从而影响查重检测准确性。
技术实现思路
本专利技术实施例提供一种文章的查重检测方法、装置、设备及存储介质,以提高文章查重检测的准确性。第一方面,本专利技术实施例提供了一种文章的查重检测方法,所述方法包括:对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。第二方面,本专利技术实施例还提供了一种文章的查重检测装置,所述装置包括:<br>关键句集合确定模块,用于对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;关键描述特征获取模块,用于获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;相似度确定模块,用于将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。第三方面,本专利技术实施例还提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例提供的文章的查重检测方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例提供的文章的查重检测方法。本专利技术实施例的技术方案,通过对待查重文章进行语义分析,获得与待查重文章对应的至少一个关键句集合,并将上述关键句集合与获取到的参考文章的关键描述特征进行匹配,最终根据匹配结果,确定待查重文章与各参考文章之间的关键特征相似度,以对待查重文章进行查重检测,实现了将待查重文章中的核心观点与参考文章的核心观点进行匹配,避免了因同义词替换或者文章内容顺序改变而造成对查重检测结果的影响,提高了文章查重检测的准确性。附图说明图1是本专利技术实施例一中的一种文章的查重检测方法的流程图;图2是本专利技术实施例二中的一种文章的查重检测方法的流程图;图3是本专利技术实施例三中的一种文章的查重检测方法的流程图;图4是本专利技术实施例四中的一种文章的查重检测方法的流程图;图5是本专利技术实施例五中的一种文章的查重检测装置的结构示意图;图6是本专利技术实施例六提供的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一中的一种文章的查重检测方法的流程图,本实施例的技术方案适用于根据从待查重文章中提取的关键句与从参考文章中提取的关键描述特征进行文章查重检测的情况,该方法可以由文章的查重检测装置执行,该装置可以由软件和/或硬件来实现,并可以集成在各种通用计算机设备中,具体包括如下步骤:步骤110、对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;其中,关键句集合是从待查重文章中提取出来的,能够表征文章核心观点的语句的集合。本实施例中,通过对待查重文章以预设长度的句子为单位进行语义解析,并根据文章中包含的所有句子的语义进行类别的划分,例如,可以将相似度大于设定阈值的句子划分为一类,最终从至少一类句子中按照设定规则提取最能够表征文章核心观点的关键句,并由这些关键句构成关键句集合。步骤120、获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;其中,关键描述特征是预先对参考文章进行处理得到的与参考文章对应的描述信息,每一个关键描述特征对应参考文章中包含的一个主要观点。本实施例中,获取将要与待查重文章进行匹配的至少一个参考文章对应的关键描述特征,以对待查重文章进行查重检测,其中,一篇参考文章对应至少一个关键描述特征。步骤130、将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。本实施例中,将步骤110中得到的待查重文章的关键句集合依次与各个参考文章对应的关键描述特征进行对比,根据对比结果确定待查重文章与各个参考文章的相似度,根据相似度信息来确定待查重文章是否通过查重检测并出具检测报告,例如,可以预先设定相似度阈值,当待查重文章与某一篇参考文章的相似度超出该相似度阈值,则确定待查重文章没有通过查重检测,也可以计算与参考文章匹配的关键句在关键句集合中的占比,若占比超过预设占比阈值,则确定待查重文章没有通过查重检测。本专利技术实施例的技术方案,通过对待查重文章进行语义分析,获得与待查重文章对应的至少一个关键句集合,并将上述关键句集合与获取到的参考文章的关键描述特征进行匹配,最终根据匹配结果,确定待查重文章与各参考文章之间的关键特征相似度,以对待查重文章进行查重检测,实现了将待查重文章中的核心观点与参考文章的核心观点进行匹配,避免了因同义词替换或者文章内容顺序改变而造成对查重检测结果的影响,提高了文章查重检测的准确性。实施例二图2为本专利技术实施例二提供的一种文章的查重检测方法的流程图,本实施例在上述实施例的基础上进一步细化,提供了对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合的具体步骤。下面结合图2对本专利技术实施例二提供的一种文章的查重检测方法进行说明,包括以下步骤:步骤210、对所述待查重文章中包括的句子按照预设条件过滤,得到备选关键句集合。本实施例本文档来自技高网...

【技术保护点】
1.一种文章的查重检测方法,其特征在于,包括:/n对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;/n获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;/n将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。/n

【技术特征摘要】
1.一种文章的查重检测方法,其特征在于,包括:
对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;
获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;
将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。


2.根据权利要求1所述的方法,其特征在于,所述对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,包括:
对所述待查重文章中包括的句子按照预设条件过滤,得到备选关键句集合;
根据所述备选关键句集合中的句子的语义进行聚类,得到所述待查重文章的至少一个关键句集合。


3.根据权利要求2所述的方法,其特征在于,所述根据所述备选关键句中的句子的语义进行聚类,得到所述待查重文章的至少一个关键句集合,包括:
分别计算所述备选关键句集合中任意两个所述备选关键句之间的语义相似度;
根据所述语义相似度,对所述备选关键句集合中的各所述备选关键句进行聚类处理,得到至少一个聚类簇;
统计各所述聚类簇中包括的备选关键句的数量;
将所述数量满足数量阈值条件的聚类簇,作为所述关键句集合;和/或
所述对所述待查重文章中包括的句子按照预设的规则过滤,得到备选关键句集合,包括:
将所述待查重文章以标点符号为参照拆分为多个句子;
筛除句子长度不满足预设的有效阈值的所述句子,将剩余的句子形成所述备选关键句集合。


4.根据权利要求2所述的方法,其特征在于,在所述对所述待查重文章中包括的句子按照预设的规则过滤,得到备选关键句集合之后,还包括:
根据各所述备选关键句在所述待查重文章中的章节位置,和/或标题位置,确定与各所述备选关键句分别对应的权重系数;
按照所述权重系数,对所述备选关键句集合中的各所述备选关键句进行等效扩充。


5.根据权利要求1-4任一项所述的方法,其特征在于,在所述对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合之前,还包括:
对所述参考文章进行语义分析,确定与所述参考文章对应的至少一个关键句集合,作为比对关键句集合;
提取各所述比对关键句集合中的比对关键句的语义特征,得到与所述参考文章的各所述比对关键句集合对应的关键描述特征。


6.根据权利要求5所述的方法,其特征在于,所述提取各所述比对关键句集合中的比对关键句的语义特征,得到与各所述比对关键句集合对应的关键描述特征,包括:
在当前处理的比对关...

【专利技术属性】
技术研发人员:李陟
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1