一种论文查重的方法技术

技术编号:10436267 阅读:681 留言:0更新日期:2014-09-17 13:06
本发明专利技术公开了一种论文查重的方法。该方法通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置,然后判断重复分句在原文中的间隔是否小于M,假如重复分句在原文中的间隔小于M,则待查文章在文本库中内容有重复。本发明专利技术的论文查重的方法判重速率和响应速度快,通过精确到分句的对比可以从多个原始论文中多处摘抄中找出摘抄的原始论文。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了。该方法通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置,然后判断重复分句在原文中的间隔是否小于M,假如重复分句在原文中的间隔小于M,则待查文章在文本库中内容有重复。本专利技术的论文查重的方法判重速率和响应速度快,通过精确到分句的对比可以从多个原始论文中多处摘抄中找出摘抄的原始论文。【专利说明】
本专利技术涉及论文查重的技术。
技术介绍
目前论文查重方法主要有三种:基于字符串匹配的方法,基于文档指纹的方法和 基于语义知识的方法。 基于字符串匹配的方法是一种基于数理统计的方法。它先通过字符串匹配算法, 找出待检测文档与数据库中的文档相匹配的字符串数目,随后利用相似性计算公式求出结 果。这种方法对字符串的选取要求很高,同时字符串匹配算法的时间复杂度较高,需要较大 的资源开销和较长的计算时间。 基于文档指纹的方法通过将代表文档语义的文本作为"指纹",通过比较"指纹"从 而达到判别抄袭的目的。在选取"指纹"的过程中可能受到文章的层次结构的影响而造成 漏判。 基于语义知识的方法是通过分析比较待检测文章与数据库文章的自然语义相似 程度从而达到判别抄袭的目的。该方法依赖于自然语言相似性的计算,由于中文语言的复 杂性,基于语义知识的判断结果正确性很难得到保证。 针对目前的查重技术,如果论文作者在同一段落,尽可能多的选择多篇文献,从每 篇参考文献中摘取部分子句到同一段落,不会被论文查重系统快速检测出来。
技术实现思路
本专利技术所要解决的问题:如果论文作者选择多篇文献,从每篇参考文献中摘取部 分子句,则不会被目前的论文查重系统快速检测出来。 为解决上述问题,本专利技术采用的方案如下: ,包括以下步骤: 51 :对文本库中的原文进行分句,并计算原文每个分句的指纹; 52 :对待查文章进行分句,并计算待查文章每个分句的指纹; 53 :通过待查文章各个分句的指纹与原文各个分句的指纹的对比,确定原文分句指纹 与待查文章分句指纹相同的分句和分句的位置,得到重复分句和重复分句在原文中的位 置; 54 :根据重复分句在原文中的位置,判断重复分句在原文中的间隔是否小于Μ ;假如重 复分句在原文中的间隔小于Μ,则待查文章与原文的内容有重复;其中Μ为预先设定的常 量。 进一步,根据本专利技术的论文查重的方法,还包括构建分句指纹库的步骤;所述构建 分句指纹库的步骤为对文本库中各个原文进行分句,并计算各个原文每个分句的指纹得到 分句指纹库;所述的分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应 关系表。 本专利技术的技术效果如下: 1.本专利技术通过指纹对比,计算开销低,判重速率快,响应速度快。 2.精确到分句的判别方法,可以更加准确地对抄袭的现象进行判别。 3.可以精确还原被抄袭的段落及子句内容,为论文查重提供有力证据。 4.可以从多个原始论文中多处摘抄中找出摘抄的原始论文。 【专利附图】【附图说明】 图1本专利技术论文查重方法的流程图。 【具体实施方式】 下面结合附图对本专利技术做进一步详细说明。 本专利技术通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复 分句在原文中的位置,然后判断重复分句在原文中的间隔是否小于M,假如重复分句在原文 中的间隔小于M,则待查文章在文本库中内容有重复。如图1所示,包括步骤: 51 :计算文本库中原文各个分句的指纹; 52 :计算待查文章的各个分句的指纹; 53 :找出重复分句和重复分句在原文中的位置; 54 :判断重复分句在原文中的间隔是否小于M。 这里的原文是指文本库中的文献文本。步骤S1和S2中计算指纹的过程实际上包 含了两个步骤:对文本进行分句的步骤和计算分句指纹的步骤。对文本进行分句的步骤是 指将文本根据分割符进行分割成多个句子的过程。分割符可以是句号、感叹号、问号、分号、 分段符等等。文本分割后得到的句子称为分句。文本所有的分句按顺序组合后成文原始文 本。计算分句指纹的步骤是采用哈希函数对分句进行运算的过程。这里的哈希函数是指单 向散列函数,比如MD5、SHA-l、SHA-2、SHA-3等等。通过采用哈希函数对分句进行运算后得 到分句的哈希值,该哈希值即可作为该分句的指纹。 图1中的整体过程是本专利技术的一实施例。更为通常的情形,步骤S1从属于初始化 的步骤。该初始化的步骤又可以称为构建分句指纹库的步骤。构建分句指纹库的步骤为对 文本库中各个原文进行分句,并计算各个原文每个分句的指纹得到分句指纹库。分句指纹 库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。有了初始化的构建分 句指纹库的步骤后,当需要对某待查文章进行查重时,只需要执行步骤S2、S3和S4即可。 分句指纹库可以通过数据库保存,也可以通过内存保存。当分句指纹库采用数据库保存时, 可以采用独立的数据库保存,也可以将每个原文的分句指纹信息作为文本的属性保存至文 本库内。 步骤S3是通过待查文章各个分句的指纹与原文各个分句的指纹的对比,确定原 文分句指纹与待查文章分句指纹相同的分句和分句的位置,得到重复分句和重复分句在原 文中的位置。步骤S4是根据重复分句在原文中的位置,判断重复分句在原文中的间隔是否 小于Μ ;假如重复分句在原文中的间隔小于M,则待查文章与原文的内容有重复。其中Μ为 预先设定的常量,可以是2或3或5。步骤S3和步骤S4是连续的过程,S卩,步骤S3的输出 直接作为步骤S4判重的输入依据。步骤S3和S4有两种实施方式:第一种实施方式是对文 本库中各个原文逐个与待查文章比较分句的指纹,这种实施方式如图1所示,当一个原文 判重结束后执行下一个原文的判重。第二种实施方式是首先在步骤S3中找出在文本库中 所有的与待查文章分句指纹相同的分句,然后在步骤S4中一次性地找出符合"重复分句在 原文中的间隔小于M"条件的各个原文。其中第一种实施方式适用于前述的"每个原文的分 句指纹信息作为文本的属性保存至文本库内"和"未构建分句指纹库"的情形,第二种实施 方式适用于前述的"分句指纹库采用独立的数据库保存"和"通过内存保存分句指纹库"的 情形。本专利技术优先第二种实施方式。需要说明的是,根据本专利技术的方法,找到的与待查文章 具有相同内容的原文可能有多个。 下面用具体的数据演示说明本专利技术的过程。设文本库中的文本为:..., 怂。待查文章的文本为文本库中的各个文本拆分分句后如下: Pl~^- Pi, f Ρ 1,2·> Ρ 1,3·> ···> ΡΙ,αιΛ ^2~ ? ^2,1^ ^2,2^ ^2,3^'Ρ?,πιΣ^ '> 卩3-、卩3, 1,卩3,2,卩3,3,· · ·,卩3,〇!3、' Pf、- Ρη, 1,Ρη,2, Ρη,3,· · ·,Pn,mn、。 上述...,備分别为文本. . 的分句数。经计算指纹后得 到各个文本的指纹如下所示: 产厂{力,7,力,之,力,J,· · ·,力,?7 }; ?2八 h2," h2,2, h2,3, · · ·,h2,m2} ·' 产?- { Λ? 7,力以,力3 J,· · ·,力 m3 }; Pf、- h本文档来自技高网...

【技术保护点】
一种论文查重的方法,其特征在于,包括以下步骤:S1:对文本库中的原文进行分句,并计算原文每个分句的指纹;S2:对待查文章进行分句,并计算待查文章每个分句的指纹;S3:通过待查文章各个分句的指纹与原文各个分句的指纹的对比,确定原文分句指纹与待查文章分句指纹相同的分句和分句的位置,得到重复分句和重复分句在原文中的位置;S4:根据重复分句在原文中的位置,判断重复分句在原文中的间隔是否小于M;假如重复分句在原文中的间隔小于M,则待查文章与原文的内容有重复;其中M为预先设定的常量。

【技术特征摘要】

【专利技术属性】
技术研发人员:严敏林文荟杨华刘志程
申请(专利权)人:江苏金智教育信息技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1