藏汉跨语言论文剽窃检测方法和系统技术方案

技术编号:24207872 阅读:19 留言:0更新日期:2020-05-20 15:28
本发明专利技术提供一种藏汉跨语言论文剽窃检测方法和系统,涉及信息处理技术领域。本发明专利技术通过大规模的藏汉句对语料来训练和优化孪生长短时记忆网络模型,使得训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型准确性好,通过该基于孪生长短时记忆网络的藏汉跨语言相似度计算模型在检测句对相似度时,无需任何先验知识,也无需人工干预,保障了句对相似度值检测结果的准确性,从而保障了以句对相似度值为判定依据的论文剽窃检测的准确性。

Plagiarism detection method and system of Tibetan Chinese cross language papers

【技术实现步骤摘要】
藏汉跨语言论文剽窃检测方法和系统
本专利技术涉及信息处理
,具体涉及一种藏汉跨语言论文剽窃检测方法和系统。
技术介绍
随着互联网中海量数据和跨语言信息的共享给学术论文剽窃、学术造假提供了极大的“便利”,跨语言剽窃检测也逐渐成为自然语言处理领域的一个重要研究内容。论文的跨语言剽窃可以是通过翻译手段形成自己的论文,也可以是通过翻译后进行一定程度的语义改写形成自己的论文,目前,中文、英文单语的论文剽窃检测已取得较好的检测效果,且已有多个商用论文检测系统。但是对于对低资源语言论文剽窃的检测中,以语义改写剽窃和翻译剽窃检测还是存在一定的挑战性。目前,针对翻译剽窃的跨语言检测方法大多是利用机器翻译模型将跨语言文本转换成单语言,然后通过检测文本之间的相似度来判断是否存在剽窃问题。但是,目前的翻译剽窃的跨语言检测方法过于依赖译文的质量,尤其是目前低资源语言机器翻译模型尚未达到高质量的翻译效果,极易出现误差,导致检测结果不准确。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种藏汉跨语言论文剽窃检测方法和系统,解决了目前的翻译剽窃的跨语言检测方法过于依赖译文的质量,导致检测结果不准确的技术问题。(二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:本专利技术提供一种藏汉跨语言论文剽窃检测方法,所述方法由计算机执行,包括:S1、基于数据增强方法生成藏汉句对语料;S2、基于所述藏汉句对语料训练孪生长短时记忆网络模型,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;S3、基于所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。优选的,所述基于数据增强方法生成藏汉句对语料具体为:S101、使用汉语句对训练基于孪生长短时记忆网络汉语单语相似度计算模型,调整模型参数,优化基于孪生长短时记忆网络汉语单语相似度计算模型;S102、将藏汉平行语料中的汉语句对输入到经过优化的基于孪生长短时记忆网络汉语单语相似度计算模型,计算藏汉平行语料中汉语句对之间的相似度值,获得两个汉语句对之间的相似度值,并以该值作为对应的藏文句对之间的相似度值,同时也作为对应的藏汉跨语言句对之间的相似度值,加上两对藏汉平行句对,即可获得四个带有相似度值标签的藏汉跨语言句对,计算公式如下:sim1=similarity(cn1,cn2)similarity(tib1,tib2)=sim1similarity(cn1,tib2)=similarity(cn2,tib1)=sim1similarity(cn1,tib1)=similarity(cn2,tib2)=MAX其中:cn和tib代表藏汉平行语料中的汉语句和藏语句,cn1和cn2是任意两个汉语句子,tib1是cn1的藏汉平行语料中的藏语句,tib2是cn2的藏汉平行语料中的藏语句;sim1是cn1和cn2两个汉语句子之间的相似度,MAX是相似度最大值;所述藏汉平行句对为相似度值为最大值藏汉句对,所述四个带有相似度值标签的藏汉跨语言句对为cn1-tib2、cn2-tib1、cn1-tib1、cn2-tib2;S103、重复步骤S102,获取藏汉句对。优选的,所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型的结构为5层,具体如下:输入层,所述输入层用于输入待检测句对;嵌入层,所述嵌入层用于对输入的句子进行向量表示;隐藏层,所述隐藏层用于挖掘输入句子的深层语义信息;注意力层,所述注意力层用于生成权重向量;输出层,所述输出层用于输出两个句子的相似度值。优选的,所述检测论文是否为剽窃论文的具体方法为:将经过待测的论文中的句子和论文数据库中文章的句子输入到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型输出相对比句子的相似度;统计所述待测的论文中与所述论文数据库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围;如果是,则所述待测的论文为剽窃论文。本专利技术还提供一种藏汉跨语言论文剽窃检测系统,所述系统包括计算机,所述计算机包括:至少一个存储单元;至少一个处理单元;其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:S1、基于数据增强方法生成藏汉句对语料;S2、基于所述藏汉句对语料训练孪生长短时记忆网络模型,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;S3、基于所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。(三)有益效果本专利技术提供了一种藏汉跨语言论文剽窃检测方法和系统。与现有技术相比,具备以下有益效果:本专利技术通过数据增强方法生成大规模的藏汉句对语料,然后通过藏汉句对语料对孪生长短时记忆网络模型进行训练和优化,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型。通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型来检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。本专利技术通过大规模的藏汉句对语料来训练和优化孪生长短时记忆网络模型,使得训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型准确性好,通过本专利技术训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型在检测句对相似度时,无需任何先验知识,也无需人工干预,保障了句对相似度检测结果的准确性,从而保障了以句对相似度值为判定依据的论文剽窃检测的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一种藏汉跨语言论文剽窃检测方法的框图;图2为藏汉跨语言孪生长短时记忆网络网络模型的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请实施例通过提供一种藏汉跨语言论文剽窃检测方法和系统,解决了目前的翻译剽窃的跨语言检测方法过于依赖译文的质量,导致检测结果不准确的问题,实现更加准确的判断论文是否存在剽窃问题。本申请实施例中的技术方案为解决上述技术问题,总体思路如下:本实施例通过数据增强方法生成大规模的藏汉句本文档来自技高网...

【技术保护点】
1.一种藏汉跨语言论文剽窃检测方法,其特征在于,所述方法由计算机执行,包括:/nS1、基于数据增强方法生成藏汉句对语料;/nS2、基于所述藏汉句对语料训练孪生长短时记忆网络模型,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;/nS3、基于所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。/n

【技术特征摘要】
20191024 CN 20191101971461.一种藏汉跨语言论文剽窃检测方法,其特征在于,所述方法由计算机执行,包括:
S1、基于数据增强方法生成藏汉句对语料;
S2、基于所述藏汉句对语料训练孪生长短时记忆网络模型,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;
S3、基于所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。


2.如权利要求1所述的藏汉跨语言论文剽窃检测方法,其特征在于,所述基于数据增强方法生成藏汉句对语料具体为:
S101、使用汉语句对训练基于孪生长短时记忆网络汉语单语相似度计算模型,调整模型参数,优化基于孪生长短时记忆网络汉语单语相似度计算模型;
S102、将藏汉平行语料中的汉语句对输入到经过优化的基于孪生长短时记忆网络汉语单语相似度计算模型,计算藏汉平行语料中汉语句对之间的相似度值,获得两个汉语句对之间的相似度值,并以该值作为对应的藏文句对之间的相似度值,同时也作为对应的藏汉跨语言句对之间的相似度值,加上两对藏汉平行句对,即可获得四个带有相似度值标签的藏汉跨语言句对,计算公式如下:
sim1=similarity(cn1,cn2)
similarity(tib1,tib2)=sim1
similarity(cn1,tib2)=similarity(cn2,tib1)=sim1
similarity(cn1,tib1)=similarity(cn2,tib2)=MAX
其中:
cn和tib代表藏汉平行语料中的汉语句和藏语句,cn1和cn2是任意两个汉语句子,tib1是cn1的藏汉平行语料中的藏语句,tib2是cn2的藏汉平行语料中的藏语句;
sim1是cn1和cn2两个汉语句子之间的相似度,MAX是相似度最大值;
所述藏汉...

【专利技术属性】
技术研发人员:赵小兵鲍薇董建于鑫
申请(专利权)人:中央民族大学中国电子技术标准化研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1