The invention provides a translation based on the features and contents of English in cross language plagiarism identification method, including: a first step for the analysis of lexical and syntactic need for detection of the article, in order to prepare for the feature extraction; second step, for the feature extraction and data statistics, and then follow the words as a benchmark for normalization at the end of treatment, per million words appear specific data index number of each feature; third steps for operation to calculate the value of index data copying decision tree generation has been good and the support vector machine; the fourth step, to determine whether plagiarism value exceeds a threshold value, and, if not more than a predetermined value of plagiarism the threshold is determined, this article is not a copy of the copy, if the value exceeds a predetermined threshold, then processing into the content based Process of plagiarism algorithm.
【技术实现步骤摘要】
本专利技术涉及文本内容处理领域,更具体地说,本专利技术涉及一种。
技术介绍
国内对于复制检测技术的研究已经进行了很长时间,但是这些研究几乎全部集中在中文文章的相互抄袭检测上,而对跨语种的抄袭检测研究较少。在国内现有的一些中英文跨语种抄袭检测技术中,所采用的思路主要是借鉴国外对跨语种抄袭检测所采用的思路即:文翻译成目标语言,然后进行基于关键字的启发式搜索,然后对搜索后的结果进行详细分析,匹配关键词最后判定是否抄袭。但是,这种研究思路首先受限于英文与中文语种差距较大翻译效果不佳,其次忽略了中文作为世界上最复杂的语言所具有的一些特征。所以,现有的一些中英文跨语种抄袭检测技术的检测识别效果并不理想。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种能够有效进行中英文跨语种抄袭检测的。为了实现上述技术目的,根据本专利技术,提供了一种,其包括:第一步骤,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备;第二步骤,用于进行译文特征抽取及数据统计,然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标;第三步骤,用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值;第四步骤,用于判定抄袭值是否超过阈值,而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章,如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。优选地,内容的抄袭算法流程包括下述步骤:第五步骤,用于将待检测文档进行分词处理,并进行词性标注;第六步骤,用于去除停用词,获得文档的词干向量,根据各个 ...
【技术保护点】
一种基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于包括:第一步骤,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备;第二步骤,用于进行译文特征抽取及数据统计,然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标;第三步骤,用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值;第四步骤,用于判定抄袭值是否超过阈值,而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章,如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。
【技术特征摘要】
1.一种基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于包括: 第一步骤,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备; 第二步骤,用于进行译文特征抽取及数据统计,然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标; 第三步骤,用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值; 第四步骤,用于判定抄袭值是否超过阈值,而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章,如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。2.根据权利要求1所述的基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于,内容的抄袭算法流程包括下述步骤: 第五步骤,用于将待检测文档进行分词处理,并进行词性标注; 第六步骤,用于去除停用词,获得文档的词干向量,根据各个词干在文章中出现的次数词频来决定文档的关键词; 第七步骤,用于将关键词翻译为英语以得到相应的英文关键词; 第八步骤,用于使用英文关键 词利用已词干化的英文文档语料库中进行检索,获得可能是被抄袭的文档; 第九步骤,用于比较待识别文档与检索出的文档,获得待识别文档与检索出的文档之间的相似度; 第十步骤,用于将待识别文档与检索出的文档之间的相似度与预先设定的相似度阈值进行比较,以确定是否抄袭,其中如果待识别文档与检索出的文档之间的相似度大于相似度阈值,则判定本文章为抄袭文章。3.根据权利要求2所述的基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于,在第九步骤中,若在检索出的文档的句子中找到待识别文档的原词匹配,则相似度被确定为第一相似度值;若在检索出的文档...
【专利技术属性】
技术研发人员:刘功申,张昊,袁松翔,孟魁,宁蔚,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。