藏文作文抄袭检测原型系统技术方案

技术编号:26846119 阅读:21 留言:0更新日期:2020-12-25 13:08
本发明专利技术提供了一种藏文作文抄袭检测原型系统,涉及现代教育技术领域。本发明专利技术通过最长公共子序列算法,处理藏语高中作文文本中的连续复制型抄袭;采用基于注意力机制的孪生长短时记忆网络模型,训练好的藏文音节向量作为模型输入,训练藏文作文语义改写抄袭检测模型,处理藏文作文中语义改写型抄袭;采用基于注意力机制的孪生长短时记忆网络模型,依靠人工构建的藏汉词典,训练好的藏汉跨语言词向量,进行藏汉跨语言的作文抄袭检测。本发明专利技术的系统面向使用藏文作文的教师和研究人员,能根据单语言、跨语言分别检测,提供上传作文的相似度值以及抄袭句子对比。整个系统操作简单明了、实用高效,为学生日常藏文作文抄袭检测提供了良好的技术支持。

【技术实现步骤摘要】
藏文作文抄袭检测原型系统
本专利技术涉及现代教育
,具体涉及一种藏文作文抄袭检测原型系统。
技术介绍
随着互联网的快速发展,学生抄袭网络资源的现象屡见不鲜。在高等教育领域,已有一些针对学生论文剽窃检测的研究,但在藏文等低资源语言领域,针对学生单语言作文抄袭检测和跨语言作文抄袭检测问题,还存在着大量的研究空白。语文学科中作文部分属于学习的重难点之一。面对写作困难,许多学生会选择互联网上的海量资源作为参考,其中不乏有人使用直接或间接方法进行抄袭,这种抄袭行为既不利于学生写作能力的发展,也给教师作文评判增加了工作量,同时还影响了营造学习的公平性环境。目前已有的抄袭检测系统大多适用于论文抄袭检测,根据文章摘要、参考文献、论文结构等进行检测。学生作文与论文不同,首先它不具备论文所具有的“摘要-正文-参考文献-致谢”文章结构;其次学生的作文内容相较于论文更加口语化、抒情化,且具有“引经据典”的写作手法,这一点在实际教学中不能被认定为抄袭。因此,学生作文抄袭检测和论文抄袭检测之间存在差异。目前,还不存在藏文作文抄袭检测的原型系统。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种藏文作文抄袭检测原型系统,解决了目前藏文教学领域学生抄袭作文难以检测的技术问题。(二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:本专利技术针对藏文作文抄袭情况进行研究,其中抄袭的类型大致可以分为三种:复制型抄袭、语义改写型抄袭和跨语言翻译型抄袭。并根据每一种抄袭类型提出一种检测方式,构建出一个适用于藏文作文抄袭检测的原型系统,所述系统包括:计算机和服务器;所述计算机供用户通过网页界面上传本地存储的藏文作文,并通过网页界面展示所述服务器计算得到的文本相似度检测结果、作文抄袭文章名称、文章相似度值和所有疑似抄袭句子对比;所述服务器对所述计算机上传的藏文作文进行复制型抄袭检测、语义改写型抄袭检测以及跨语言翻译型抄袭检测,得到文本相似度检测结果。可选地,所述服务器为flask服务器,包括第一模块和第二模块;所述第一模块是基于最长公共子序列算法的检测模块,用于检测藏文作文中直接复制或仅有少量改动的抄袭行为;所述第二模块是基于注意力机制的孪生长短时网络模型的检测模块,用于检测藏文作文中语义改写型抄袭和跨语言翻译型抄袭。可选地,所述服务器中的第一模块对所述计算机上传的藏文作文进行复制型抄袭检测的方法具体为:使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,所述藏文句对中的一个藏文句子依次为所述计算机上传的藏文作文中的每一个藏文句子,所述藏文句对中的另一个藏文句子依次为数据库中所有藏文作文的每一个藏文句子;在所述第一模块中,在所述藏文句对之间相似度值超过第一阈值时,直接认定为抄袭句对,在所述藏文句对之间相似度值未超过所述第一阈值时,认定不存在复制型抄袭行为,但有可能存在语义改写型抄袭或跨语言翻译型抄袭行为,将所述藏文句对递交至所述第二模块继续检测。可选地,关于阈值的设定,参考学术不端文献检测系统,该系统认为文字重合率大于等于10%的属于句子抄袭,文字重合率在30%-50%之间的属于段落抄袭,文字重合率大于50%的属于整体抄袭。因此,本系统进行判断时,在所述第一模块中,所述第一阈值设置为0.5。可选地,所述服务器中的第二模块对所述计算机上传的藏文作文进行语义改写型抄袭检测以及跨语言翻译型抄袭检测的方法具体为:采用基于注意力机制的孪生长短时记忆网络模型,分别使用训练好的藏文音节向量和藏汉跨语言词向量,计算藏文句对之间的相似度值,所述藏文句对中的一个藏文句子依次为所述计算机上传的藏文作文中的每一个藏文句子,所述藏文句对中的另一个藏文句子依次为数据库中所有藏文作文的每一个藏文句子;在所述第二模块中,在所述藏文句对之间的相似度值超过第二阈值时,认定存在抄袭行为,在所述藏文句对之间的相似度值未超过所述第二阈值时,认定不存在抄袭行为。可选地,所述第一模块使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,包括:将藏文句子作为基本单位,通过动态规划的思想,寻找所述藏文句对中长度为m的藏文句子与长度为n的藏文句子的最长公共子序列;所述最长公共子序列的长度L,所述藏文句对之间的相似度S计算公式为:可选地,所述第二模块采用基于注意力机制的孪生长短时记忆网络模型,分别使用训练好的藏文音节向量和藏汉跨语言词向量,计算藏文句对之间的相似度值,包括:使用多个评测语料和实验室语料库中的多条藏汉句对作为训练语料,训练基于注意力机制的孪生长短时记忆网络模型,得到改进的基于注意力机制的孪生长短时记忆网络模型;通过所述改进的基于注意力机制的孪生长短时记忆网络模型,在藏文单语言任务和藏汉跨语言任务中,分别使用训练好的藏语音节向量和藏汉跨语言词向量作为模型输入,计算所述藏文句对之间的相似度值。可选地,还包括:收集多篇藏文作文语料,通过语义改写的方式,构造多对抄袭句子和多篇藏文抄袭作文作为测试语料,测试所述改进的基于注意力机制的孪生长短时记忆网络模型。可选地,还包括:通过藏汉翻译的方式,构造多对抄袭句子和多篇藏文抄袭作文作为测试语料,测试所述改进的基于注意力机制的孪生长短时记忆网络模型。本专利技术通过最长公共子序列算法,处理藏语作文中的连续复制型抄袭;采用基于注意力机制的孪生长短时记忆网络模型,训练好的藏文音节向量作为模型输入,训练藏文作文语义改写抄袭检测模型,处理藏文作文中语义改写型抄袭;采用基于注意力机制的孪生长短时记忆网络模型,依靠人工构建的藏汉词典,训练好的藏汉跨语言词向量,进行藏汉跨语言的作文抄袭检测。(三)有益效果本专利技术提供了一种藏文作文抄袭检测原型系统。与现有技术相比,具备以下有益效果:本专利技术提供一种藏文作文抄袭检测原型系统,按照单语言和跨语言两种类型,对计算机上传的藏文作文进行检测。检测原型系统采用最长公共子序列算法和基于注意力机制的孪生长短时记忆网络模型,分别处理复制型抄袭、语义改写型抄袭和跨语言翻译型抄袭。其中,基于注意力机制的孪生长短时记忆网络模型,训练好的藏文音节向量作为模型输入,训练藏文作文语义改写抄袭检测模型;又依靠人工构建的藏汉词典,训练好的藏汉跨语言词向量,进行藏汉跨语言的作文抄袭检测。其中,训练藏文音节向量的过程为:首先对藏文训练语料分句,以藏文音节符“·”作为分割标记,对藏文句子进行音节切分,再使用适合大型数据词向量表征工具训练藏文音节向量。所使用的使用适合大型数据词向量具有高效的训练速度,更考虑了相似性。在训练时,同时考虑n-gram和n-char特征。N-gram特征指藏语文本中音节和音节之间的特征,相当于汉语中的字对字。N-char特征指藏文音节中字母之间的特征。训练过程中设置epoch=100,threa本文档来自技高网...

【技术保护点】
1.一种藏文作文抄袭检测原型系统,其特征在于,所述系统包括:计算机和服务器;/n所述计算机供用户通过网页界面上传本地存储的藏文作文,并通过网页界面展示所述服务器计算得到的文本相似度检测结果、作文抄袭文章名称、文章相似度值和所有疑似抄袭句子对比;/n所述服务器对所述计算机上传的藏文作文进行复制型抄袭检测、语义改写型抄袭检测以及跨语言翻译型抄袭检测,得到文本相似度检测结果。/n

【技术特征摘要】
1.一种藏文作文抄袭检测原型系统,其特征在于,所述系统包括:计算机和服务器;
所述计算机供用户通过网页界面上传本地存储的藏文作文,并通过网页界面展示所述服务器计算得到的文本相似度检测结果、作文抄袭文章名称、文章相似度值和所有疑似抄袭句子对比;
所述服务器对所述计算机上传的藏文作文进行复制型抄袭检测、语义改写型抄袭检测以及跨语言翻译型抄袭检测,得到文本相似度检测结果。


2.如权利要求1所述的藏文作文抄袭检测原型系统,其特征在于,所述服务器为flask服务器,包括第一模块和第二模块;
所述第一模块是基于最长公共子序列算法的检测模块,用于检测藏文作文中直接复制或仅有少量改动的抄袭行为;
所述第二模块是基于注意力机制的孪生长短时网络模型的检测模块,用于检测藏文作文中语义改写型抄袭和跨语言翻译型抄袭。


3.如权利要求2所述的藏文作文抄袭检测原型系统,其特征在于,所述服务器中的第一模块对所述计算机上传的藏文作文进行复制型抄袭检测的方法具体为:
使用最长公共子序列算法,基于动态规划,通过寻找最长公共子序列,计算藏文句对之间的相似度值,所述藏文句对中的一个藏文句子依次为所述计算机上传的藏文作文中的每一个藏文句子,所述藏文句对中的另一个藏文句子依次为数据库中所有藏文作文的每一个藏文句子;
在所述第一模块中,在所述藏文句对之间相似度值超过第一阈值时,直接认定为抄袭句对,在所述藏文句对之间相似度值未超过所述第一阈值时,认定不存在复制型抄袭行为,但有可能存在语义改写型抄袭或跨语言翻译型抄袭行为,将所述藏文句对递交至所述第二模块继续检测。


4.如权利要求2或3所述的藏文作文抄袭检测原型系统,其特征在于,所述藏文句对之间的相似度大于50%的认定为抄袭,在所述第一模块中,所述第一阈值是0.5。


5.如权利要求2所述的藏文作文抄袭检测原型系统,其特征在于,所述服务器中的第二模块对所述计算机上传的藏文作文进行语义改写型抄袭检测以及跨语言翻译型抄袭检测的方法具体为:
采用基于注意力机制的孪生长短时记忆网络模型,分别...

【专利技术属性】
技术研发人员:赵小兵于鑫
申请(专利权)人:中央民族大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1