当前位置: 首页 > 专利查询>齐浩亮专利>正文

基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法技术

技术编号:26171341 阅读:11 留言:0更新日期:2020-10-31 13:43
基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法,涉及信息检索技术领域。克服了现有抄袭源检索的局部匹配敏感性对源检索的影响。本发明专利技术利用卷积神经网络建模源检索的局部语义匹配,是一种部分匹配建模,其根据可疑文档d

【技术实现步骤摘要】
基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法
本专利技术涉及到信息检索
,具体涉及互联网的抄袭检测的抄袭源检索技术。
技术介绍
互联网的高速发展,特别是越来越丰富的文献资源库以及搜索引擎、机器翻译的应用,使抄袭变得越来越容易。日益严重的抄袭催生和加速了抄袭检测技术(PlagiarismDetection)的发展。近年来,抄袭检测吸引了学术界和工业领域的广泛关注(Potthastetal.,2012;2013a;2014),成为了热点问题之一。本专利技术关注抄袭检测的源检索问题。源检索的目标是获得可疑文档的抄袭源文档。该任务可以描述为:给定一篇可能包含抄袭文本的可疑文档dplg,源检索在文档集合Dsrc中检索可疑文档dplg可能抄袭的文档dsrc,称dsrc为抄袭源文档,集合Dsrc称为备选抄袭源文档集(Potthastetal.,2013a;2014)。应用信息检索的方法完成源检索任务是现有研究主要采取的思路。这些方法从可疑文档中获取用于表示该文档的关键词,利用这些关键词生成查询,然后将查询提交给一个搜索引擎执行检索,最后过滤检索结果,获得可疑文档的抄袭源。现有源检索依赖于信息检索技术,对源检索本质关注不足。一方面,从可疑文档生成查询,再利用搜索引擎检索抄袭源的过程导致可疑文档的大部分信息丢失。另一方面,简单地将信息检索的方法应用在源检索中,没有考虑源检索与信息检索的区别:信息检索的目标是根据用户查询与文档的相关度排序检索结果,而源检索中,可疑文档通常并不是全文抄袭源文档,通常只有部分片段实施了抄袭,这使得源检索的目标是检索到与可疑文档抄袭部分匹配的源文档,而不是寻找与整篇可疑文档匹配的源文档。这个特性决定了抄袭源检索的局部匹配敏感性,导致现有检索模型无法高效完成源检索任务。
技术实现思路
为了克服现有抄袭源检索的局部匹配敏感性对源检索的影响,本专利技术提出了一种根据源检索的局部匹配特性,采用面向源检索的局部匹配卷积神经网络模型(PartialMatchingConvolutionNeuralNetworkModel,简称PM-CNN)实现获得抄袭检测中的源文档检索的方法。本专利技术所述的基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法为:一、根据待评价的原始可疑文档dplg和待检索源文档集合中D中的原始文档dsrc,构建文本片段的相似度矩阵M1;二、学习局部匹配模式:将M1作为网络输入,应用卷积神经网学习不同粒度上可疑文档和源文档的匹配模式,构建矩阵三、获取特征矩阵:对于表达不同粒度匹配关系的特征矩阵,执行k-maxpooling操作(参见图1中的k1-maxpooling和k2-maxpooling),获取语义匹配特征矩阵四、学习特征的组合关系,识别抄袭源文档:将特征矩阵作为多层感知器(Multi-LayerPreception,MLP)的输入,学习特征的组合关系,判断当前原始文档dsrc是否为抄袭源文档。预处理的方法为:上述步骤一中在构建文本片段的相似度矩阵M1之前,对原始可疑文档dplg和原始文档dsrc进行预处理,例如,对于英语文本的预处理包括:对原始文档进行去除停用词、去除标点符号、将所有英文单词转换为小写并进行词干提取的操作,然后按每个片段n(如n=30)个词项(term)的大小划分为文本片段。上述步骤一建文本片段的相似度矩阵M1方法为:经过上述预处理之后,可疑文档dplg经过预处理之后获得文档dplg={s1,s2,...,si,...,sp},si为可疑文档dplg的文本片段,p为可疑文档dplg的文本片段的数目;待检索源文档集合中D中的原始文档dsrc经过前述预处理之后获得文档dsrc={r1,r2,...,rj,...,rq},rj为文档dsrc的文本片段,q为文档d中文本片段的数目。上述相似度矩阵M1∈Rm×n,M1中的mij表示可疑文档dplg中的文本片段si和文档dsrc中的文本片段rj的相似度。上述步骤二学习局部匹配模式方法为:相似度矩阵M1中的mij是可疑文档dplg的文本片段si和文档dsrc中的文本片段rj的相似度,可以通过但不仅限于余弦距离(CosineDistance)计算获得。上述矩阵M2、M3等是应用卷积神经网络学习而得到的可疑文档和源文档的匹配模式:将M1作为网络输入连续使用卷积学习文本的局部匹配模式进而获得M2、M3等。具体为,首先对相似度矩阵M1使用2×2的卷积操作得到矩阵M2,捕获文档dplg和文档dsrc的相邻两个文本片段(si,si+1)、(rj,rj+1)的相似度;然后对矩阵M2进行2×2的卷积操作获得特征矩阵M3。类似地,可以继续进行卷积操作进而得到M4、M5,等等。上述步骤三获取特征矩阵的方法为:首先介绍获取特征矩阵的基本思想,然后,在此基础上描述获取方法。获取特征矩阵的基本思想是:与少量部分匹配的片段相比,源文档和可疑文档中的大部分片段是不匹配的。因此,通过k-max池化操作获得重要的匹配特征矩阵是必要的。对于这个目标,对步骤二获得的局部匹配模式Mi使用两个k-max池化操作来自动提取特征矩阵。获取特征矩阵的方法为:共有2个k-max池化操作。第一个k-max池化操作,扫描Mi的每一行,并根据降序直接返回每一行的顶部前top-k1个值以形成向量Ni。在Ni上,我们继续执行第二个k-max池化操作,并返回每个Ni的顶部前top-k2值以形成向量N′i。进一步说明。对于相似度矩阵M1,按进行最大池化操作得到最显著特征N'1,该最显著特征N'1是可疑文档dplg与文档dsrc的每个文本片段之间相似的最显著特征;对于矩阵M2进行最大池化操作,获取了可疑文档与源文档每两个文本片段相似的最显著特征对于矩阵M3进行最大池化操作,获取了可疑文档与源文档每三个文本片段存在抄袭的最显著特征重复上述操作,可以提取可疑文档与源文档更多文本片段存在抄袭的最显著特征;由此获得特征矩阵上述步骤四获学习特征的组合关系、识别抄袭源文档的方法为:上述步骤四所述的学习特征的组合关系、识别抄袭源文档的方法为:将特征矩阵拼接得到单列向量Z作为多层感知器(Multi-LayerPreception,MLP)的输入向量,学习特征的组合,输出文档dplg与文档dsrc是否存在抄袭的概率,选择概率高于某一阈值的文档dsrc作为评价的可疑文档dplg的抄袭源文档。本专利技术所述的方法是利用卷积神经网络建模源检索的局部语义匹配,针对源检索特点进行文档间的“部分匹配”建模,而不是“完全相关”建模,即:本专利技术所述的方法是在充分的考虑了源检索与信息检索的本质区别,克服了抄袭源检索中的“相关检索”建模问题。实验结果表明,本专利技术所述的抄袭源文档的获得方法与现有方法相比较性能有了具有统计意义的提升。附图说明图1是本专利技术所述的面向源检索的局部语义匹配的卷积神经网络示意图。图2本文档来自技高网
...

【技术保护点】
1.基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法,其特征在于,所述方法为:/n一、根据待评价的原始可疑文档d

【技术特征摘要】
20200318 CN 20201019354881.基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法,其特征在于,所述方法为:
一、根据待评价的原始可疑文档dplg和待检索源文档集合中D中的原始文档dsrc,构建文本片段的相似度矩阵M1;
二、学习局部匹配模式:将M1作为网络输入,应用卷积神经网学习不同粒度上可疑文档和源文档的匹配模式,构建矩阵
三、获取特征矩阵:对于表达不同粒度匹配关系的特征矩阵,执行k-maxpooling操作,获取语义匹配特征矩阵
四、学习特征的组合关系,识别抄袭源文档:将特征矩阵作为多层感知器MLP的输入,学习特征的组合关系,判断当前原始文档dsrc是否为抄袭源文档。


2.根据权利要求1所述的一种基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法,其特征在于,在构建文本片段的相似度矩阵M1之前,对原始可疑文档dplg和原始文档d进行预处理,所述预处理是指:对原始文档进行去除停用词、去除标点符号、将所有英文单词转换为小写并进行词干提取等操作,然后提取文本片段,如按每个片段30个词项term的大小划分为文本片段。


3.根据权利要求2所述的一种基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法,其特征在于;可疑文档dplg经过预处理之后获得文档dplg={s1,s2,...,si,...,sp},si为可疑文档dplg的文本片段,p为可疑文档dplg的文本片段的数目;待检索源文档集合中D中的原始文档d经过前述预处理之后获得文档d={r1,r2,...,rj,...,rq},rj为文档d的文本片段,q为文档d中文本片段的数目。


4.根据权利要求1所述的一种基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法,其特征在于,所述相似度矩阵M1∈Rm×n,M1中的mij表示可疑文档dplg中的文本片段si和文档d中的文本片段rj的相似度,当p<=m且q<=n时,通过计算si和rj之间的相似度获得mij;当p>m或者q>n时,忽略多余部分的文...

【专利技术属性】
技术研发人员:齐浩亮孔蕾蕾赵梓成韩咏韩中元
申请(专利权)人:齐浩亮
类型:发明
国别省市:黑龙江;23

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1