The embodiment of the invention discloses a duplicate checking detection method, device, device and storage medium of the article. Among them, the article duplicate checking detection method includes: semantic analysis of the article to be duplicate checked to determine at least one key sentence set corresponding to the article to be duplicate checked; obtaining at least one key description feature corresponding to at least one reference article respectively; matching each key sentence set of the chapter to be duplicate checked with each key description feature of each reference article respectively Match, and according to the matching results, determine the key feature similarity between the duplicate articles to be checked and the reference articles, so as to check the duplicate articles. The technical scheme of the embodiment of the invention can match the core point of the article to be checked with the core point of the reference article, avoid the influence on the result of the duplicate checking detection caused by the synonym replacement or the change of the content order of the article, and improve the accuracy of the duplicate checking detection of the article.
【技术实现步骤摘要】
一种文章的查重检测方法、装置、设备及存储介质
本专利技术实施例涉及信息处理技术,尤其涉及一种文章的查重检测方法、装置、设备及存储介质。
技术介绍
随着网络技术的迅速发展,网络用户可以轻易的获取网络上其他人发布的研究成果以及学位论文等。现在很多工作中都有撰写论文的需求,例如,教师、医生以及学生毕业答辩等,为了验证论文的原创性,通常要对论文进行查重检测。现有的论文查重系统,可以通过比较文本的方式发现待查重论文与网络上其他人上传的论文的相似度,但有一些作弊软件通过大量的同义词替换,使通过比较文本进行查重检测的论文查重系统失效,而且,通过人为将原文内容顺序进行改变,同样也会干扰上述查重系统,从而影响查重检测准确性。
技术实现思路
本专利技术实施例提供一种文章的查重检测方法、装置、设备及存储介质,以提高文章查重检测的准确性。第一方面,本专利技术实施例提供了一种文章的查重检测方法,所述方法包括:对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。第二方面,本专利技术实施例还提供了一种文章的查重检测装置,所述装置包括:< ...
【技术保护点】
1.一种文章的查重检测方法,其特征在于,包括:/n对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;/n获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;/n将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。/n
【技术特征摘要】
1.一种文章的查重检测方法,其特征在于,包括:
对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,同一所述关键句集合中的所述关键句对应同一文章观点;
获取与至少一个参考文章分别对应的至少一个关键描述特征,不同所述关键描述特征分别对应不同文章观点;
将所述待查重文章的各所述关键句集合分别与各所述参考文章的各关键描述特征进行匹配,并根据匹配结果,确定所述待查重文章与各所述参考文章之间的关键特征相似度,以对所述待查重文章进行查重检测。
2.根据权利要求1所述的方法,其特征在于,所述对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合,包括:
对所述待查重文章中包括的句子按照预设条件过滤,得到备选关键句集合;
根据所述备选关键句集合中的句子的语义进行聚类,得到所述待查重文章的至少一个关键句集合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述备选关键句中的句子的语义进行聚类,得到所述待查重文章的至少一个关键句集合,包括:
分别计算所述备选关键句集合中任意两个所述备选关键句之间的语义相似度;
根据所述语义相似度,对所述备选关键句集合中的各所述备选关键句进行聚类处理,得到至少一个聚类簇;
统计各所述聚类簇中包括的备选关键句的数量;
将所述数量满足数量阈值条件的聚类簇,作为所述关键句集合;和/或
所述对所述待查重文章中包括的句子按照预设的规则过滤,得到备选关键句集合,包括:
将所述待查重文章以标点符号为参照拆分为多个句子;
筛除句子长度不满足预设的有效阈值的所述句子,将剩余的句子形成所述备选关键句集合。
4.根据权利要求2所述的方法,其特征在于,在所述对所述待查重文章中包括的句子按照预设的规则过滤,得到备选关键句集合之后,还包括:
根据各所述备选关键句在所述待查重文章中的章节位置,和/或标题位置,确定与各所述备选关键句分别对应的权重系数;
按照所述权重系数,对所述备选关键句集合中的各所述备选关键句进行等效扩充。
5.根据权利要求1-4任一项所述的方法,其特征在于,在所述对待查重文章进行语义分析,确定与所述待查重文章对应的至少一个关键句集合之前,还包括:
对所述参考文章进行语义分析,确定与所述参考文章对应的至少一个关键句集合,作为比对关键句集合;
提取各所述比对关键句集合中的比对关键句的语义特征,得到与所述参考文章的各所述比对关键句集合对应的关键描述特征。
6.根据权利要求5所述的方法,其特征在于,所述提取各所述比对关键句集合中的比对关键句的语义特征,得到与各所述比对关键句集合对应的关键描述特征,包括:
在当前处理的比对关...
【专利技术属性】
技术研发人员:李陟,
申请(专利权)人:上海智臻智能网络科技股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。