一种论文查重的方法技术

技术编号：10436267 阅读：681 留言：0更新日期：2014-09-17 13:06

本发明专利技术公开了一种论文查重的方法。该方法通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置，然后判断重复分句在原文中的间隔是否小于M，假如重复分句在原文中的间隔小于M，则待查文章在文本库中内容有重复。本发明专利技术的论文查重的方法判重速率和响应速度快，通过精确到分句的对比可以从多个原始论文中多处摘抄中找出摘抄的原始论文。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了。该方法通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置，然后判断重复分句在原文中的间隔是否小于M，假如重复分句在原文中的间隔小于M，则待查文章在文本库中内容有重复。本专利技术的论文查重的方法判重速率和响应速度快，通过精确到分句的对比可以从多个原始论文中多处摘抄中找出摘抄的原始论文。【专利说明】
本专利技术涉及论文查重的技术。
技术介绍
目前论文查重方法主要有三种：基于字符串匹配的方法，基于文档指纹的方法和基于语义知识的方法。基于字符串匹配的方法是一种基于数理统计的方法。它先通过字符串匹配算法，找出待检测文档与数据库中的文档相匹配的字符串数目，随后利用相似性计算公式求出结果。这种方法对字符串的选取要求很高，同时字符串匹配算法的时间复杂度较高，需要较大的资源开销和较长的计算时间。基于文档指纹的方法通过将代表文档语义的文本作为"指纹"，通过比较"指纹"从而达到判别抄袭的目的。在选取"指纹"的过程中可能受到文章的层次结构的影响而造成漏判。基于语义知识的方法是通过分析比较待检测文章与数据库文章的自然语义相似程度从而达到判别抄袭的目的。该方法依赖于自然语言相似性的计算，由于中文语言的复杂性，基于语义知识的判断结果正确性很难得到保证。针对目前的查重技术，如果论文作者在同一段落，尽可能多的选择多篇文献，从每篇参考文献中摘取部分子句到同一段落，不会被论文查重系统快速检测出来。
技术实现思路
本专利技术所要解决的问题：如果论文作者选择多...

【技术保护点】
一种论文查重的方法，其特征在于，包括以下步骤：S1：对文本库中的原文进行分句，并计算原文每个分句的指纹；S2：对待查文章进行分句，并计算待查文章每个分句的指纹；S3：通过待查文章各个分句的指纹与原文各个分句的指纹的对比，确定原文分句指纹与待查文章分句指纹相同的分句和分句的位置，得到重复分句和重复分句在原文中的位置；S4：根据重复分句在原文中的位置，判断重复分句在原文中的间隔是否小于M；假如重复分句在原文中的间隔小于M，则待查文章与原文的内容有重复；其中M为预先设定的常量。

【技术特征摘要】

【专利技术属性】
技术研发人员：严敏，林文荟，杨华，刘志程，
申请(专利权)人：江苏金智教育信息技术有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人