一种文本抄袭检测方法及系统技术方案

技术编号：21628950 阅读：30 留言：0更新日期：2019-07-17 11:05

本发明专利技术公开了一种文本抄袭检测方法及系统。该方法通过删除短句和采用截短字符指纹的方式，降低了提取句子指纹的数量和长度；通过删除句子中人名、地名、机构名、时间、以及其他一些冗余信息来提取句子指纹，实现微小改动抄袭内容的准确检测，如更改人名、地名、机构名等内容，也能够被检测出来，增强了鲁棒性。相对于传统的文本抄袭方法，本发明专利技术提供的技术方案大大减小了运算量，提高了检测速度，更加适用于在海量(亿级)原创文本中快速检索出待检测文件与有版权的原始文本相同或相似的地方，并输出其抄袭的所有文本和对应的抄袭程度。

A Text Plagiarism Detection Method and System

全部详细技术资料下载

【技术实现步骤摘要】
一种文本抄袭检测方法及系统
本专利技术公开了一种文本抄袭检测方法及系统，涉及在海量文本环境下对特定文本进行抄袭检测。在海量文本环境下进行抄袭检测，由于需要处理大量的文本数据以及大量的匹配运算，因此，相应的方法或系统需要满足快速，准确以及对反抄袭手段具有一定的鲁棒性等要求。
技术介绍
已授权专利《基于段落抄袭检测的电子作业反抄袭系统和方法》(申请号201310631663.9)中，通过分段，为每个段落统计关键词的词频等信息生成一个向量，然后用余弦函数计算段落之间的相似度。这种方式能够检测出来段落之间的抄袭，若一片文章抄袭了多篇文章，可以把所有被抄袭的文章检测出来。不足之处是，这种方式需要把待检测文章的所有段向量与库内所有有版权章节的所有段落向量做余弦计算，计算量极为庞大，若录入有版权章节数目稍大，检测速度就会变得很慢。如说明书附图1所示，正在审查中的申请号为CN201510112689.1，专利技术名称为“一种论文相似度检测方法”专利文件中公开了一种文本相似度检测的方法。其包括：步骤(a)，对检测文本进行中文分词；步骤(b)，对分词后的文本进行停用词处理，若属于停用词则在文本中删除，文本中剩余的词属于关键词；步骤(c)，对句子进行筛选，将关键词数目小于预设值K的句子删除；步骤(d)，对句子筛选后的文本中的每个词通过GB2312编码方式进行编码；步骤(e)，对所述编码通过指纹选择函数删除不必要的编码，得到检测文本的指纹序列；步骤(f)，将所述指纹序列与论文库中的指纹序列进行比对，若有连续重叠，则重叠部分定义为疑似抄袭段落；步骤(g)，将所述疑似抄袭部分定位到论...

【技术保护点】
1.一种文本抄袭检测方法，其包括以下步骤：A.给文本分句，把一篇文本分割为若干条句子；B.对分好的句子进行筛选提炼，避免对文本中每一条句子、句子中的每个字进行指纹提取；C.对筛选提炼后的句子进行指纹提取，每条句子对应一个指纹；D.按照步骤A到C将有版权的原创文本集提取到的一组组指纹集按照<文本标识，指纹集>的方式录入本地搜索引擎，并保证文本标识唯一；E.按照步骤A到C对待检测文本提取到的一组指纹输入本地搜索引擎进行匹配，检测出待检测文本与有版权原创文本拥有相同指纹的句子确定为抄袭句子并输出检测结果；F.根据步骤E的输出的检测结果对抄袭句子进行标记。

【技术特征摘要】
1.一种文本抄袭检测方法，其包括以下步骤：A.给文本分句，把一篇文本分割为若干条句子；B.对分好的句子进行筛选提炼，避免对文本中每一条句子、句子中的每个字进行指纹提取；C.对筛选提炼后的句子进行指纹提取，每条句子对应一个指纹；D.按照步骤A到C将有版权的原创文本集提取到的一组组指纹集按照<文本标识，指纹集>的方式录入本地搜索引擎，并保证文本标识唯一；E.按照步骤A到C对待检测文本提取到的一组指纹输入本地搜索引擎进行匹配，检测出待检测文本与有版权原创文本拥有相同指纹的句子确定为抄袭句子并输出检测结果；F.根据步骤E的输出的检测结果对抄袭句子进行标记。2.如权利要求1所述的文本抄袭检测方法，其中步骤A，给文本分句具体为：以文本中出现的所有非中文、非英文、非数字的符号为分隔符，把一篇文本分割为若干条句子。3.如权利要求1所述的文本抄袭检测方法，其中步骤B，对分好的句子进行筛选提炼具体为：将字数小于一定限度的短句删除，将句子中人名、地名、机构名、时间等命名实体以及其他一些冗余信息删除,冗余信息经过两层过滤：第一层，使用由条件随机场训练的命名实体识别模型来识别命名实体，判定为冗余信息并删除；第二层，根据建立的常用词库，将句子中没有包含在常用词库中字词判定为冗余字词并删除，其中所述常用词库是通过将一个大文本库中所有文本进行分词，挑选出频率最高的那部分词语作为常用词建立的。4.如权利要求1-3中任一项所述的文本抄袭检测方法，其中步骤C对筛选提炼后的句子进行指纹提取具体为：采用MD5算法提取每句话的原始数字指纹，然后在保证总指纹数重复度足够小的前提下，从原始指纹上截取一定长度的数字指纹并映射为字符指纹，每个字符对应多个数字，进一步缩短指纹长度。5.如权利要求4所述的文本抄袭检测方法，其中所述本地搜索引擎是基于Lucene技术架构实现的，能够同时进行新的文本录入和抄袭检索。6.如权利要求5所述的文本抄袭检测方法，其中所述步骤E的输出的检测结果为按照被抄袭句子数由多到少进行排序的多个被抄袭文本标识项，其中每个被抄袭文本标识项表示为：<文本标识，被抄袭句子数>。7.如权利要求6所述的文本抄袭检测方法，其中步骤F，对抄袭句子进行标记具体为：从步骤E输出的检测结果中选出排在前面M位的被抄袭文本标识项，根据每一被抄袭文本标识项中的文件标识对应被抄袭文件内容以及被检测文本内容，确定每个抄袭句子在被检测文本和被抄袭文本中的位置信息并进行标记。8.一种文本抄袭检测系统，其包括：文本分句模块、用于把一篇文本分割为若干条句子；句子筛选提炼模块、用于对文...

【专利技术属性】
技术研发人员：张亿光，郑杰，王旭，
申请(专利权)人：盛霆信息技术上海有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人