基于译文特征与内容的中英文跨语种抄袭识别方法技术

技术编号:9618460 阅读:183 留言:0更新日期:2014-01-30 06:20
本发明专利技术提供了一种基于译文特征与内容的中英文跨语种抄袭识别方法,包括:第一步骤,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备;第二步骤,用于进行译文特征抽取及数据统计,然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标;第三步骤,用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值;第四步骤,用于判定抄袭值是否超过阈值,而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章,如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。

Cross lingual plagiarism recognition method based on features and contents of text translation

The invention provides a translation based on the features and contents of English in cross language plagiarism identification method, including: a first step for the analysis of lexical and syntactic need for detection of the article, in order to prepare for the feature extraction; second step, for the feature extraction and data statistics, and then follow the words as a benchmark for normalization at the end of treatment, per million words appear specific data index number of each feature; third steps for operation to calculate the value of index data copying decision tree generation has been good and the support vector machine; the fourth step, to determine whether plagiarism value exceeds a threshold value, and, if not more than a predetermined value of plagiarism the threshold is determined, this article is not a copy of the copy, if the value exceeds a predetermined threshold, then processing into the content based Process of plagiarism algorithm.

【技术实现步骤摘要】

本专利技术涉及文本内容处理领域,更具体地说,本专利技术涉及一种。
技术介绍
国内对于复制检测技术的研究已经进行了很长时间,但是这些研究几乎全部集中在中文文章的相互抄袭检测上,而对跨语种的抄袭检测研究较少。在国内现有的一些中英文跨语种抄袭检测技术中,所采用的思路主要是借鉴国外对跨语种抄袭检测所采用的思路即:文翻译成目标语言,然后进行基于关键字的启发式搜索,然后对搜索后的结果进行详细分析,匹配关键词最后判定是否抄袭。但是,这种研究思路首先受限于英文与中文语种差距较大翻译效果不佳,其次忽略了中文作为世界上最复杂的语言所具有的一些特征。所以,现有的一些中英文跨语种抄袭检测技术的检测识别效果并不理想。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种能够有效进行中英文跨语种抄袭检测的。为了实现上述技术目的,根据本专利技术,提供了一种,其包括:第一步骤,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备;第二步骤,用于进行译文特征抽取及数据统计,然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标;第三步骤,用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值;第四步骤,用于判定抄袭值是否超过阈值,而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章,如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。优选地,内容的抄袭算法流程包括下述步骤:第五步骤,用于将待检测文档进行分词处理,并进行词性标注;第六步骤,用于去除停用词,获得文档的词干向量,根据各个词干在文章中出现的次数词频来决定文档的关键词;第七步骤,用于将关键词翻译为英语以得到相应的英文关键词;第八步骤,用于使用英文关键词利用已词干化的英文文档语料库中进行检索,获得可能是被抄袭的文档;第九步骤,用于比较待识别文档与检索出的文档,获得待识别文档与检索出的文档之间的相似度;第十步骤,用于将待识别文档与检索出的文档之间的相似度与预先设定的相似度阈值进行比较,以确定是否抄袭,其中如果待识别文档与检索出的文档之间的相似度大于相似度阈值,则判定本文章为抄袭文章。优选地,在第九步骤中,若在检索出的文档的句子中找到待识别文档的原词匹配,则相似度被确定为第一相似度值;若在检索出的文档的句子中找到待识别文档的一级同义词匹配,则相似度被确定为小于第一相似度值的第二相似度值;若在检索出的文档的句子中找到待识别文档的二级同义词匹配,则相似度记为被确定为小于第二相似度值的第三相似度值;若在检索出的文档的句子中发现待识别文档的多个同义词匹配,则相似度被确定为数值较大的相似度值;若在检索出的文档的句子中没有发现待识别文档的同义词匹配,则相似度被确定为小于第三相似度值的第四相似度值。优选地,如果待识别文档与检索出的文档之间的相似度不大于相似度阈值,那么则可以进行进一步的其它判定,例如人工检索。优选地,第一相似度值为1,第二相似度值为0.8,第一相似度值为0.3,第四相似度值为0,并且相似度阈值的取值范围为0.5至0.8。优选地,相似度阈值为0.6。优选地,在第三步骤中,决策树以及支持向量机的生成是通过针对一个抄袭语料库以及将一个非抄袭语料库分别执行第一步骤和第二步骤而生成的。优选地,在第八步骤中,采用倒排索引检索方法进行检索来使用英文关键词利用已词干化的英文文档语料库中进行检索。优选地,在第一步骤中可采用ICTCLAS分词算法来进行词法与句法分析。【附图说明】结合附图,并通过参考下面的详细描述,将会更容易地对本专利技术有更完整的理解并且更容易地理解其伴随的优点和特征,其中:图1根据本专利技术实施例的的流程图。需要说明的是,附图用于说明本专利技术,而非限制本专利技术。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。【具体实施方式】为了使本专利技术的内容更加清楚和易懂,下面结合具体实施例和附图对本专利技术的内容进行详细描述。本专利技术针对现有技术存在的不足,提出了基于中文译文特征的中英抄袭识别方法。主要思想是,首先通过中文的特殊性来找出那些不符合中文习惯的译文特征来判定文章是否为跨语种抄袭。然后将判断抄袭概率如果抄袭概率比较大那么采取基于内容的抄袭算法,来最终判定文章是否抄袭。具体地说,图1根据本专利技术实施例的的流程图。如图1所示,根据本专利技术实施例的包括:第一步骤SI,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备。例如,在第一步骤SI中可采用中科院的ICTCLAS (Instituteof ComputingTechnology, ChineseLexicalAnalysisSystem)分词算法来进行词法与句法分析。第二步骤S2,用于进行译文特征抽取及数据统计(例如,数据统计包括统计句式、代词、虚词、标点符号、句长以及滥用词等各项特征),然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标。第三步骤S3,用于将这些数据指标放入已经生成好的决策树以及支持向量机SVM(SupportVectorMachine)中进行运算以计算出抄袭值。其中,在第三步骤S3中,优选地,决策树以及支持向量机SVM的生成可以是通过针对一个抄袭语料库(例如,该抄袭语料库可以是一个由英文翻译成中文的文章组成的语料库)以及将一个非抄袭语料库(例如,该非抄袭语料库可以是一个由各个核心期刊与会议的论文集组合成的语料库)分别执行第一步骤SI和第二步骤S2而生成的。第四步骤S4,用于判定抄袭值是否超过阈值。而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章(第十一步骤Sll);如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。优选地,如图1所示,内容的抄袭算法流程包括下述步骤:第五步骤S5,用于将待检测文档进行分词处理,并进行词性标注。第六步骤S6,用于去除停用词,获得文档的词干向量,根据各个词干在文章中出现的次数词频TF(TermFrequency)来决定文档的关键词。第七步骤S7,用于例如通过机器翻译,将关键词翻译为英语以得到相应的英文关键词。第八步骤S8,用于使用英文关键词利用已词干化的英文文档语料库(即,作为可能的被抄袭对象的文档的已词干化的英文文档的语料库)中进行检索(例如,可采用倒排索引检索方法进行检索),获得可能是被抄袭的文档(即,从作为可能的被抄袭对象的文档中获得可能被抄袭的文档)。第九步骤S9,用于比较待识别文档与检索出的文档,获得待识别文档与检索出的文档之间的相似度。其中,在具体实施例中,优选地,若在检索出的文档的句子中找到待识别文档的原词匹配,则相似度被确定为第一相似度值(例如,β=1);若在检索出的文档的句子中找到待识别文档的一级同义词匹配,则相似度被确定为小于第一相似度值的第二相似度值(例如,β =0.8);若在检索出的文档的句子中找到待识别文档的二级同义词匹配,则相似度记为被确定为小于第二相似度值的第三相似度值(例如,β =0.3);若在检索出的文档的句子中发现待识别文档的多个同义词匹配,则相似度被确定为数值较大的相似度值;若在检索出的文档的句子中没有发现待识别文档的同义词匹配,则相似度被确定为小于第三相似本文档来自技高网...

【技术保护点】
一种基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于包括:第一步骤,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备;第二步骤,用于进行译文特征抽取及数据统计,然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标;第三步骤,用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值;第四步骤,用于判定抄袭值是否超过阈值,而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章,如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。

【技术特征摘要】
1.一种基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于包括: 第一步骤,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备; 第二步骤,用于进行译文特征抽取及数据统计,然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标; 第三步骤,用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值; 第四步骤,用于判定抄袭值是否超过阈值,而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章,如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。2.根据权利要求1所述的基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于,内容的抄袭算法流程包括下述步骤: 第五步骤,用于将待检测文档进行分词处理,并进行词性标注; 第六步骤,用于去除停用词,获得文档的词干向量,根据各个词干在文章中出现的次数词频来决定文档的关键词; 第七步骤,用于将关键词翻译为英语以得到相应的英文关键词; 第八步骤,用于使用英文关键 词利用已词干化的英文文档语料库中进行检索,获得可能是被抄袭的文档; 第九步骤,用于比较待识别文档与检索出的文档,获得待识别文档与检索出的文档之间的相似度; 第十步骤,用于将待识别文档与检索出的文档之间的相似度与预先设定的相似度阈值进行比较,以确定是否抄袭,其中如果待识别文档与检索出的文档之间的相似度大于相似度阈值,则判定本文章为抄袭文章。3.根据权利要求2所述的基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于,在第九步骤中,若在检索出的文档的句子中找到待识别文档的原词匹配,则相似度被确定为第一相似度值;若在检索出的文档...

【专利技术属性】
技术研发人员:刘功申张昊袁松翔孟魁宁蔚
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1