【技术实现步骤摘要】
基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法
本专利技术涉及到信息检索
,具体涉及互联网的抄袭检测的抄袭源检索技术。
技术介绍
互联网的高速发展,特别是越来越丰富的文献资源库以及搜索引擎、机器翻译的应用,使抄袭变得越来越容易。日益严重的抄袭催生和加速了抄袭检测技术(PlagiarismDetection)的发展。近年来,抄袭检测吸引了学术界和工业领域的广泛关注(Potthastetal.,2012;2013a;2014),成为了热点问题之一。本专利技术关注抄袭检测的源检索问题。源检索的目标是获得可疑文档的抄袭源文档。该任务可以描述为:给定一篇可能包含抄袭文本的可疑文档dplg,源检索在文档集合Dsrc中检索可疑文档dplg可能抄袭的文档dsrc,称dsrc为抄袭源文档,集合Dsrc称为备选抄袭源文档集(Potthastetal.,2013a;2014)。应用信息检索的方法完成源检索任务是现有研究主要采取的思路。这些方法从可疑文档中获取用于表示该文档的关键词,利用这些关键词生成查询 ...
【技术保护点】
1.基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法,其特征在于,所述方法为:/n一、根据待评价的原始可疑文档d
【技术特征摘要】
20200318 CN 20201019354881.基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法,其特征在于,所述方法为:
一、根据待评价的原始可疑文档dplg和待检索源文档集合中D中的原始文档dsrc,构建文本片段的相似度矩阵M1;
二、学习局部匹配模式:将M1作为网络输入,应用卷积神经网学习不同粒度上可疑文档和源文档的匹配模式,构建矩阵
三、获取特征矩阵:对于表达不同粒度匹配关系的特征矩阵,执行k-maxpooling操作,获取语义匹配特征矩阵
四、学习特征的组合关系,识别抄袭源文档:将特征矩阵作为多层感知器MLP的输入,学习特征的组合关系,判断当前原始文档dsrc是否为抄袭源文档。
2.根据权利要求1所述的一种基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法,其特征在于,在构建文本片段的相似度矩阵M1之前,对原始可疑文档dplg和原始文档d进行预处理,所述预处理是指:对原始文档进行去除停用词、去除标点符号、将所有英文单词转换为小写并进行词干提取等操作,然后提取文本片段,如按每个片段30个词项term的大小划分为文本片段。
3.根据权利要求2所述的一种基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法,其特征在于;可疑文档dplg经过预处理之后获得文档dplg={s1,s2,...,si,...,sp},si为可疑文档dplg的文本片段,p为可疑文档dplg的文本片段的数目;待检索源文档集合中D中的原始文档d经过前述预处理之后获得文档d={r1,r2,...,rj,...,rq},rj为文档d的文本片段,q为文档d中文本片段的数目。
4.根据权利要求1所述的一种基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法,其特征在于,所述相似度矩阵M1∈Rm×n,M1中的mij表示可疑文档dplg中的文本片段si和文档d中的文本片段rj的相似度,当p<=m且q<=n时,通过计算si和rj之间的相似度获得mij;当p>m或者q>n时,忽略多余部分的文...
【专利技术属性】
技术研发人员:齐浩亮,孔蕾蕾,赵梓成,韩咏,韩中元,
申请(专利权)人:齐浩亮,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。