一种文本抄袭检测方法及系统技术方案

技术编号:21628950 阅读:30 留言:0更新日期:2019-07-17 11:05
本发明专利技术公开了一种文本抄袭检测方法及系统。该方法通过删除短句和采用截短字符指纹的方式,降低了提取句子指纹的数量和长度;通过删除句子中人名、地名、机构名、时间、以及其他一些冗余信息来提取句子指纹,实现微小改动抄袭内容的准确检测,如更改人名、地名、机构名等内容,也能够被检测出来,增强了鲁棒性。相对于传统的文本抄袭方法,本发明专利技术提供的技术方案大大减小了运算量,提高了检测速度,更加适用于在海量(亿级)原创文本中快速检索出待检测文件与有版权的原始文本相同或相似的地方,并输出其抄袭的所有文本和对应的抄袭程度。

A Text Plagiarism Detection Method and System

【技术实现步骤摘要】
一种文本抄袭检测方法及系统
本专利技术公开了一种文本抄袭检测方法及系统,涉及在海量文本环境下对特定文本进行抄袭检测。在海量文本环境下进行抄袭检测,由于需要处理大量的文本数据以及大量的匹配运算,因此,相应的方法或系统需要满足快速,准确以及对反抄袭手段具有一定的鲁棒性等要求。
技术介绍
已授权专利《基于段落抄袭检测的电子作业反抄袭系统和方法》(申请号201310631663.9)中,通过分段,为每个段落统计关键词的词频等信息生成一个向量,然后用余弦函数计算段落之间的相似度。这种方式能够检测出来段落之间的抄袭,若一片文章抄袭了多篇文章,可以把所有被抄袭的文章检测出来。不足之处是,这种方式需要把待检测文章的所有段向量与库内所有有版权章节的所有段落向量做余弦计算,计算量极为庞大,若录入有版权章节数目稍大,检测速度就会变得很慢。如说明书附图1所示,正在审查中的申请号为CN201510112689.1,专利技术名称为“一种论文相似度检测方法”专利文件中公开了一种文本相似度检测的方法。其包括:步骤(a),对检测文本进行中文分词;步骤(b),对分词后的文本进行停用词处理,若属于停用词则在文本中删除,文本中剩余的词属于关键词;步骤(c),对句子进行筛选,将关键词数目小于预设值K的句子删除;步骤(d),对句子筛选后的文本中的每个词通过GB2312编码方式进行编码;步骤(e),对所述编码通过指纹选择函数删除不必要的编码,得到检测文本的指纹序列;步骤(f),将所述指纹序列与论文库中的指纹序列进行比对,若有连续重叠,则重叠部分定义为疑似抄袭段落;步骤(g),将所述疑似抄袭部分定位到论文库中相应文档的相应段落,通过字符串匹配方式进行精确匹配,确认为精确匹配后定义为抄袭段落。该方法通过删除停用词,指纹选择函数对句子的GB2312编码进行指纹提取,然后比对库内有版权章节的所有质问序列,有连续重叠的部分定义为疑似抄袭,最后把疑似抄袭部分进行字符串精确匹配。这种方法计算量相对较小,也能应对一文抄袭多文的状况,但是它最后需要精确匹配字符串,对于稍有改动的抄袭内容就无能为力了,如更改了时间、地点等信息的文本就检测不出来。而且这种方法也需要比对所有库内的指纹,虽然能应对中型数量的录入文本,但如果录入文本过大,它就会变得很慢。可见,现有的文本抄袭检测方案由于所需要的计算量极为庞大、系统运行慢,鲁棒性差、对于稍有改动的抄袭内容无法准确检测出来,不适用于在海量文本环境中进行抄袭检测。
技术实现思路
为了克服现有文本抄袭检测系统无法适应在海量文本环境、以及对于稍作修改的抄袭内容无法准确检测的缺陷,本专利技术提供一种文本抄袭检测系统,其包括:文本分句模块、用于把一篇文本分割为若干条句子;句子筛选提炼模块、用于对文本分句模块分好的句子进行筛选提炼,避免对文本中每一条句子、句子中的每个字进行指纹提取;句子指纹提取模块、用于对筛选提炼后的句子进行指纹提取;本地搜索引擎模块、一方面用于按照<文本标识,指纹集>并保证文本标识唯一的方式录入本地搜索引擎的索引中,原创文本集经由文本分句模块、句子筛选提炼模块、句子指纹提取模块处理得到的一组组指纹集构建匹配指纹库,另一方面用于将待检测文本经由所述文本分句模块、句子筛选提炼模块、句子指纹提取模块处理得到的一组指纹与匹配指纹库进行匹配,检测出待检测文本与原创文本拥有相同指纹的句子确定为抄袭句子并输出检测结果;抄袭句子标记模块、用于根据本地搜索引擎模块输出的检测结果标记抄袭文本的抄袭句子以及被抄袭文本中相应的句子。进一步地、分句模块以文中出现的所有非中文、非英文、非数字的符号为分隔符把一篇文本分割成一条条句子,以句子为单位进行检测匹配对于一文抄袭多文的情况具有很好的检测效果。句子筛选提炼模块,一方面把短句删除,删除短句能够把“如有雷同,纯属巧合”的概率降低,并且能够极大减少指纹总数目以降低搜索引擎压力;另一方面删除句子中人名、地名、机构名、时间等命名实体信息,这些信息经过两层过滤:第一层,使用由条件随机场训练的命名实体识别模型来识别命名实体,判定为冗余信息并删除,第二层,建立一个常用词库(对一个大文本库中所有文本进行分词,挑选出频率最高的那部分词语作为常用词),然后对句子分词,若分词结果包含常用词库中没有的字词,判定为冗余字词并删除。句子指纹提取模块把筛选过的句子变为指纹,具体包括:采用MD5算法提取每句话的原始指纹,然后在保证总指纹数重复度足够小的前提下,从原始指纹上截取一定长度,并把数字指纹映射为字符指纹(即每个字符表示多个数字),从而达到减短指纹长度、减小本地搜索引擎的索引大小、提高搜索效率的效果。本地搜索引擎模块基于Lucene技术架构实现,一方面用来录入新的原创文本,另一方面搜索待检测文本的抄袭文本,可以录入与搜索同时进行,也能够对索引进行热备份。抄袭句子标记模块,根据本地搜索引擎模块的输出结果确定涉嫌被抄袭的文本,确定对应的每个抄袭句子的在被检测文本和涉嫌被抄袭文本中位置信息并进行标记。与此对应,本专利技术还提供一种文本抄袭检测方法,其包括以下步骤:A.给文本分句,把一篇文本分割为若干条句子;B.对分好的句子进行筛选提炼,避免对文本中每一条句子、句子中的每个字进行指纹提取;C.对筛选提炼后的句子进行指纹提取;D.按照步骤A到C将有版权的原创文本集提取到的一组组指纹集按照<文本标识,指纹集>的方式搜录入索引擎系统,并保证文本标识唯一;E.按照步骤A到C对待检测文本提取到的一组指纹输入搜索引擎进行匹配,检测出待检测文本与有版权原创文本拥有相同指纹的句子确定为抄袭句子并输出检测结果;F.根据步骤E输出的检测结果对抄袭句子进行标记。本专利技术提供文本抄袭检测系统及方法,通过对文本进行分句后得到的句子进行筛选提炼,克服了现有的文本抄袭检测技术需要为每个句子、句中的每个文字都提取指纹的缺点,减少了需要提取指纹的句子的数量的同时也减短了句子的指纹的长度,对于稍作修改的抄袭内容也能检测出来,增强了系统的鲁棒性;通过对筛选提炼后的句子提取数字指纹映射为字符指纹,达到进一步减短指纹长度、减小本地搜索引擎的索引大小、提高搜索的效率的技术效果。相对于现有技术,本专利技术提供的文本抄袭检索系统及方法更适应在海量文本环境中进行抄袭检测。附图说明图1为一种现有的文本相似度检测方法流程图;图2为本专利技术提供的文本抄袭检测系统的框架图。具体实施方式为了使本专利技术所解决的技术问题、技术方案以及有益效果更加清楚明白,以下结合附图对本专利技术进行进一步详细说明。应该理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。参照附图2,本专利技术提供一种文本抄袭检测系统,其包括:文本分句模块(1)、句子筛选提炼模块(2)、句子指纹提取模块(3)、本地搜索引擎模块(4)、抄袭句子标记模块(5)。其中、文本分句模块(1)、用于把一篇文本分割为若干条句子。分句模块(1)以文中出现的所有非中文、非英文、非数字的符号为分隔符,把一篇文本分割为若干条句子。以句子为单位对于一文抄袭多文的情况具有很好的检测效果。句子筛选提炼模块(2)、用于对文本分句模块分好的句子进行筛选提炼,避免对文本中每一条句子、句子中的每个字进行指纹提取。句子筛选提炼模块(2)、一方面将字数小本文档来自技高网
...

【技术保护点】
1.一种文本抄袭检测方法,其包括以下步骤:A.给文本分句,把一篇文本分割为若干条句子;B.对分好的句子进行筛选提炼,避免对文本中每一条句子、句子中的每个字进行指纹提取;C.对筛选提炼后的句子进行指纹提取,每条句子对应一个指纹;D.按照步骤A到C将有版权的原创文本集提取到的一组组指纹集按照<文本标识,指纹集>的方式录入本地搜索引擎,并保证文本标识唯一;E.按照步骤A到C对待检测文本提取到的一组指纹输入本地搜索引擎进行匹配,检测出待检测文本与有版权原创文本拥有相同指纹的句子确定为抄袭句子并输出检测结果;F.根据步骤E的输出的检测结果对抄袭句子进行标记。

【技术特征摘要】
1.一种文本抄袭检测方法,其包括以下步骤:A.给文本分句,把一篇文本分割为若干条句子;B.对分好的句子进行筛选提炼,避免对文本中每一条句子、句子中的每个字进行指纹提取;C.对筛选提炼后的句子进行指纹提取,每条句子对应一个指纹;D.按照步骤A到C将有版权的原创文本集提取到的一组组指纹集按照<文本标识,指纹集>的方式录入本地搜索引擎,并保证文本标识唯一;E.按照步骤A到C对待检测文本提取到的一组指纹输入本地搜索引擎进行匹配,检测出待检测文本与有版权原创文本拥有相同指纹的句子确定为抄袭句子并输出检测结果;F.根据步骤E的输出的检测结果对抄袭句子进行标记。2.如权利要求1所述的文本抄袭检测方法,其中步骤A,给文本分句具体为:以文本中出现的所有非中文、非英文、非数字的符号为分隔符,把一篇文本分割为若干条句子。3.如权利要求1所述的文本抄袭检测方法,其中步骤B,对分好的句子进行筛选提炼具体为:将字数小于一定限度的短句删除,将句子中人名、地名、机构名、时间等命名实体以及其他一些冗余信息删除,冗余信息经过两层过滤:第一层,使用由条件随机场训练的命名实体识别模型来识别命名实体,判定为冗余信息并删除;第二层,根据建立的常用词库,将句子中没有包含在常用词库中字词判定为冗余字词并删除,其中所述常用词库是通过将一个大文本库中所有文本进行分词,挑选出频率最高的那部分词语作为常用词建立的。4.如权利要求1-3中任一项所述的文本抄袭检测方法,其中步骤C对筛选提炼后的句子进行指纹提取具体为:采用MD5算法提取每句话的原始数字指纹,然后在保证总指纹数重复度足够小的前提下,从原始指纹上截取一定长度的数字指纹并映射为字符指纹,每个字符对应多个数字,进一步缩短指纹长度。5.如权利要求4所述的文本抄袭检测方法,其中所述本地搜索引擎是基于Lucene技术架构实现的,能够同时进行新的文本录入和抄袭检索。6.如权利要求5所述的文本抄袭检测方法,其中所述步骤E的输出的检测结果为按照被抄袭句子数由多到少进行排序的多个被抄袭文本标识项,其中每个被抄袭文本标识项表示为:<文本标识,被抄袭句子数>。7.如权利要求6所述的文本抄袭检测方法,其中步骤F,对抄袭句子进行标记具体为:从步骤E输出的检测结果中选出排在前面M位的被抄袭文本标识项,根据每一被抄袭文本标识项中的文件标识对应被抄袭文件内容以及被检测文本内容,确定每个抄袭句子在被检测文本和被抄袭文本中的位置信息并进行标记。8.一种文本抄袭检测系统,其包括:文本分句模块、用于把一篇文本分割为若干条句子;句子筛选提炼模块、用于对文...

【专利技术属性】
技术研发人员:张亿光郑杰王旭
申请(专利权)人:盛霆信息技术上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1