一种作文抄袭检测方法技术

技术编号:39601671 阅读:13 留言:0更新日期:2023-12-03 20:01
本发明专利技术公开了一种作文抄袭检测方法包括:从数据库中获取与待测段落主题一致的文本;基于所述主题一致的文本,获取若干对比句子,并从所述待测段落中获取若干待测句子;基于所述对比句子,判断所述待测句子是否存在抄袭,完成作文抄袭检测

【技术实现步骤摘要】
一种作文抄袭检测方法


[0001]本专利技术属于自然语言处理
,尤其涉及一种作文抄袭检测方法


技术介绍

[0002]作文抄袭是自然语言处理领域的一项重要任务,其目的是使用机器辅助人工完成抄袭检测,让教师及时查看抄袭情况

作文抄袭检测系统在教育领域有着广泛的应用前景,在保证科学

合理的前提下,使用机器进行抄袭检测既可以帮助老师及时发现学生的抄袭情况并进行指导,还有助于培养学生正确的学习观

[0003]目前,作文抄袭检测的判定大多是从句子角度出发

随着深度学习技术的兴起,越来越多的深度学习方法应用于判断句子相似性

胡等提出了一种基于语义相似计算的中文文档抄袭检测方法,将文档以句子为单位切分,利用
word2vec
模型将句子中的词语表示为词向量的形式,作为卷积神经网络的输入,使用卷积神经网络提取和筛选句子的特征,计算句子对之间的差异,输出句子对的相似度,相似度高的句子对视为抄袭
。Shi
等提出了
Siamese

CNN
模型,词语的向量化表示经过三层的卷积层和最大池化层,在经过全连接层,最后通过曼哈顿距离来进行句子相似度计算
。Neculoiu
等用
BiLSTM
模型进行相似度计算,该模型包括正向计算和反向计算,可以从两个输入方向获取信息,以更好地捕获双向特征
。Huang
等首先将文本向量化,然后通过余弦相似度和编辑距离提取特征以及三层
BiLSTM
提取的特征相融合,最后判断文本相似度大小
。Heo
等提出了同时关注全局特征和局部特征的模型,句子经过
BiLSTM
得到全局特征,再经过注意力机制

卷积神经网络和胶囊网络得到局部特征,分别计算相似度,分配不同权重后得到最终的相似度值
。Jiang
等使用孪生网络判断句子是否相似,句子的词嵌入表示分别经过
CNN

BiLSTM
提取句子的特征,对于不同的特征给予不同的权重,结合权重与特征得到最后的句子特征表示,然后通过曼哈顿距离计算出两个句子的相似度
。Yin
等提出了
ABCNN
模型,是对
BCNN
的改进,考虑了两个句子之间的关系,作为
BCNN
的注意力的引入,加入了词句间上下文信息,加权了信息抽取
。Chen
等提出了
esim
模型,它通过链式
LSTM
与注意力结合来进行相似度的计算

使得计算结果更加准确
。Heo
等不仅通过将每个句子分解成语素来嵌入单词,还使用了基于句子的嵌入方法
Sent2Vec
,将词的嵌入表示和句子的嵌入表示相结合表示句子,进而判断两个句子之间语义是否相似
。Moravvej
等提出句子经过
BiLSTM
,得到全局表示后经过注意力机制得到不同词语权重,结合得到句子表示,将得到的句子表示与句子差异化特征结合起来,最后经过全连接层计算相似程度
。Wang
等提出一种多注意
Siamese BiLSTM
模型,词向量表示经过
BiLSTM
,再经过多头注意力,将得到的向量化表示通过曼哈顿距离计算相似度

[0004]现有的作文抄袭从句子的角度出发判断句子是否存在抄袭的情况,将待检测句子与数据库中所有的句子进行匹配查看是否存在抄袭,没有考虑到学生经常会查找主题相同的内容进行抄袭,会匹配很多不需要检测的句子,为此,本专利技术从主题相似性判断和句子相似性判断两个角度结合出发判断抄袭情况

对于现有的句子相似性判断,现有的方法大多从语义的角度出发,没有考虑句子之间的相互影响以及句子结构的问题,因此本专利技术将
Bert、ISA、BiGRU

GCNN

GCNN

BiGRU
结合判断句子是否相似


技术实现思路

[0005]为解决上述技术问题,本专利技术提出了一种作文抄袭检测方法,首先获取与待检测段落主题一致的文本,基于主题一致的文本获取若干句子,然后对待检测段落中的句子以及文本主题一致获取的若干句子在进行句子相似性的判断,在句子相似度判断时综合考虑了相似句子之间的相互影响,同时也考虑了句子的结构,更加准确的判断句子是否相似

[0006]为实现上述目的,本专利技术提供了一种作文抄袭检测方法,包括:
[0007]从数据库中获取与待测段落主题一致的文本;
[0008]基于所述主题一致的文本,获取若干对比句子,并从所述待测段落中获取若干待测句子;
[0009]基于所述对比句子,判断所述待测句子是否存在抄袭,完成作文抄袭检测

[0010]可选的,从数据库中获取与待测段落主题一致的文本包括:
[0011]获取作文中的若干所述待测段落的主题;
[0012]分别获取所述待测段落和所述数据库中文本的向量化主题,判断所述待测段落的向量化主题与所述数据库中文本的向量化主题是否一致,一致,则从数据库中获取与待测段落主题一致的文本,不一致,则继续检测作文中剩余所述待测段落

[0013]可选的,利用
HAN

GC

A
模型判断所述待测段落的向量化主题与所述数据库中的向量化主题是否一致,其中,所述
HAN

GC

A
模型包括:依次连接的
HAN
模型
、BiGRU
模型
、CNN
模型和
Attention
模型

[0014]可选的,判断所述待测段落的向量化主题与所述数据库中的向量化主题是否一致包括:
[0015]通过
HAN
模型,获取所述待测段落与数据库中文本的主题向量化表示;
[0016]通过
BiGRU
模型,获取所述待测段落与数据库中文本主题向量的全局特征;
[0017]基于所述全局特征,通过
CNN
模型获取所述待测段落与数据库中文本主题向量的局部特征;
[0018]基于所述全局特征和所述局部特征,通过
Attention
模型获取所述待测段落与数据库文本的向量化主题;
[0019]基于所述主题向量化表示,通过
softmax
得到主题是否一致的最终结果

[0020]可选的,判断所述待测句子是否存在抄袭包括:
[0021]将所述待测句子进行向量化表示,判本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种作文抄袭检测方法,其特征在于,包括:从数据库中获取与待测段落主题一致的文本;基于所述主题一致的文本,获取若干对比句子,并从所述待测段落中获取若干待测句子;基于所述对比句子,判断所述待测句子是否存在抄袭,完成作文抄袭检测
。2.
根据权利要求1所述的一种作文抄袭检测方法,其特征在于,从数据库中获取与待测段落主题一致的文本包括:获取作文中的若干所述待测段落的主题;分别获取所述待测段落和所述数据库中文本的向量化主题,判断所述待测段落的向量化主题与所述数据库中文本的向量化主题是否一致,一致,则从数据库中获取与待测段落主题一致的文本,不一致,则继续检测作文中剩余所述待测段落
。3.
根据权利要求2所述的一种作文抄袭检测方法,其特征在于,利用
HAN

GC

A
模型判断所述待测段落的向量化主题与所述数据库中的向量化主题是否一致,其中,所述
HAN

GC

A
模型包括:依次连接的
HAN
模型
、BiGRU
模型
、CNN
模型和
Attention
模型
。4.
根据权利要求3所述的一种作文抄袭检测方法,其特征在于,判断所述待测段落的向量化主题与所述数据库中的向量化主题是否一致包括:通过
HAN
模型,获取所述待测段落与数据库中文本的主题向量化表示;通过
BiGRU
模型,获取所述待测段落与数据库中文本主题向量的全局特征;基于所述全局特征,通过
CNN
模型获取所述待测段落与数据库中文本主题向量的局部特征;基于所述全局特征和所述局部特征,通过
Attention
模型获取所述待测段落与数据库文本的向量化主题;基于所述主题向量化表示,通过
softmax
得到主题是否一致的最终结果
。5.
根据权利要求1所述的一种作文抄袭检测方法,其特征在于,判断所述待测句子是否存在抄袭包括:将所述待测句子进行向量化表示,判断所述待测句子的向量化表示与所述数据库中主题一致文本所获取的对比句子的...

【专利技术属性】
技术研发人员:刘杰刘珊珊
申请(专利权)人:北方工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1