一种面向跨场景的英语作文自动评分系统及方法技术方案

技术编号:37991283 阅读:11 留言:0更新日期:2023-06-30 10:05
本发明专利技术提供一种面向跨场景的英语作文自动评分系统及方法,属于自然语言处理及教育技术领域,所述跨场景英语作文自动评分包括作文主题一致性检测模块、作文质量检测模块、作文连贯性检测模块、权重设置模块,作文主题一致性模块用于检测作文主题与作文内容的相似度;作文质量检测模块评判多个维度的作文质量,包括词汇丰富度、用词、作文内容、拼写错误等;作文连贯性检测模块用于评价作文的整体连贯性和句子连贯性;权重设置模块用于对三个模块生成的分数进行权重设置,并得到最终的作文分数;本发明专利技术可应用于多场景下的英语作文自动评分。分。分。

【技术实现步骤摘要】
一种面向跨场景的英语作文自动评分系统及方法


[0001]本专利技术属于自然语言处理技术及教育
,尤其涉及一种面向跨场景的英语作文自动评分方法。

技术介绍

[0002]作文自动评分技术是依赖统计学及自然语言处理技术对作文进行客观地评估。
[0003]随着信息技术的发展,在线教学、在线测验已经成为了一种主流的教学方式,在线教学的模式带来了许多便捷之处,尤其是在作业批改领域;享受便捷的同时也面临着挑战,在英语试卷自动评阅过程中,客观题的评阅功能基于比对学生答案与参考答案是否一致,实现难度较低,而主观题尤其是作文的答案相对开放,系统无法直接基于规则进行评判,因此仍然需要教师进行人工评分,违背了在线教学方便快捷的初衷;随着人工智能技术与自然语言处理技术的快速发展,市面上已经出现了一些英语作文评分系统,为教师减少阅卷时间的同时提高了评分的公平性。
[0004]目前成熟的评分系统主要分为基于机器学习和深度学习两种方式,它们均有各自的优缺点;基于机器学习的评分方法主要通过自然语言处理技术提取相关特征,利用机器学习方法拟合人工评分,为待测作文给出评分,该方法具有一定的可解释性,但人工提取特征的步骤较为繁琐,且很难提取出与作文评分相关度较高的特征,因此只能适用于特定的文章评分,无法适应不同文体或其他场景;随着计算机算力的提升,深度学习在数据科学领域占据了主导地位,它忽略了人工提取特征过程,使用端到端的训练方式,直接为输入的文章进行评分,该方法具有很高的精度,但需要大量带有教师评分标注的数据,且模型的可解释性较差,无法满足如今智能教育对英语写作指导与反馈的需求。

技术实现思路

[0005]本专利技术针对作文自动评分传统技术存在泛化能力差、评分可解释性较低的问题,提供了一种面向跨场景的英语作文自动评分系统。
[0006]在根据本专利技术实施例中,所述一种面向跨场景的英语作文自动评分系统,包括:
[0007]作文主题一致性检测模块,所述的模块能够首先采用Doc2Vec提取作文题目向量与作文内容向量,构造匹配矩阵后利用余弦相似度方法计算作文主题与内容的一致性评分s
t

[0008]作文质量检测模块,其能够人工提取词汇丰富度、拼写错误数量、文章单词数量、不同词性占比四个特征,将作文内容向量化后输入CNN及LSTM神经网络后使用注意力池化得到文章的深层表示,与4个浅层特征组成拼接矩阵并利用注意力机制共享学习到的特征,最终通过sigmoid激活函数得到作文质量评分s
c

[0009]作文连贯性检测模块,其能够检测局部连贯性和全局连贯性,其中局部连贯性检测通过对作文词向量分别进行卷积、注意力池化、全连接、sigmoid激活操作得到局部连贯性评分s1,其中全局连贯性检测通过对作文词向量分别卷积、长短时记忆网络、注意力池
化、全连接、sigmoid激活操作得到整体连贯性评分s2,计算s1与s2的算数平均数从而得到连贯性评分s
g

[0010]权重设置模块,其使得使用者根据不同使用场景输入权重系数,与各模块所得分数相乘后相加,输出最终得分。
[0011]基于上述,本专利技术提供了一种面向跨场景的英语作文自动评分方法,包括作文主题一致性检测,得到主题一致性评分;基于分阶段模型分别提取浅层语义特征及深层语义特征,得到作文质量评分;基于卷积神经网络建立局部连贯性与整体连贯性检测模型,得到作文连贯性评分;最后通过权重设置模块输出最终得分。
附图说明
[0012]图1为本专利技术系统结构图。
具体实施方式
[0013]本实施例公开了一种面向跨场景的英语作文自动评分系统,包括作文主题一致性检测模块、作文质量检测模块、作文连贯性检测模块、权重设置模块。
[0014]其中作文主题一致性模块,用于检测作文主题与作文内容的相似度,在一个优选的实施例当中,采用Doc2Vec模型提取作文题目向量t={w
t1
,w
t2
,

w
tn
}与作文内容向量e={w
e1
,w
e2
,

w
en
},构造一个匹配矩阵M∈R
n
×
n
,矩阵中的每个元素M
i,j
表示作文题目中的词语w
ti
与对应的作文中词w
ej
之间的语义相似度,采用余弦相似度的方法计算,得到作文主题与作文内容间的一致性性评分s
t

[0015][0016]其中作文质量检测模块用于评判作文浅层语义和深层语义丰富程度;首先进行人工特征提取,考虑过多的人工特征费时费力且为适应多种文体,具体提取4种与作文评分相关程度最高的人工特征:
[0017](1)词汇丰富度,词形还原后的单词种类数,记为s
l1

[0018](2)拼写错误数量,包括拼写错误及语法误用,记为s
l2
[0019](3)文章单词数量,记为s
l3

[0020](4)不同词性占比,利用nltk.pos_tag()函数进行词性标注,统计名词、动词、形容词、副词的数量占比,记为s
l4

[0021]使用ASAP作文评分大赛多维度评分数据集,使用带有评分标注的内容、逻辑性、用词特征,分别记为记为s
h1
,s
h2
,s
h3

[0022]对有评分标注的作文分句后利用nltk提取词性嵌入向量x={x1,x2,

,x
n
},通过一维卷积神经网络层,其中W
z
是可训练的权重矩阵,h
w
是卷积窗口的大小,b
z
是一个偏置向量:
[0023][0024]并使用注意力池化机制学习句子级的深层语义,其中W
a
与W
u
分别是权重矩阵和权重向量,b
a
是偏置向量,α
i
与μ
i
分别是第i个单词的注意力向量和权重,s
h
为句子表示:
[0025]a
i
=tanh(W
a
·
z
i
+b
a
)
[0026][0027]s
h
=u
i
·
z
i
[0028]接入m个由长短时记忆网络LSTM构成的任务,将{s
h1
,s
h2
,

s
hT
}作为输入,表示时间步长为t时的隐藏层表示:
[0029][0030]同样使用注意力池化机制得到最终的论文表示o
j
:
[0031][0032]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向跨场景的英语作文自动评分系统,其特征在于,包括:作文主题一致性检测模块,其用于检测作文主题与作文内容的相似度;作文质量检测模块,其评判多个维度的作文质量,并采用分阶段模型输出作文质量得分,所述多个维度包括词汇丰富度、文章单词数量、不同词性占比、用词、作文内容;作文连贯性检测模块,其用于评价作文的整体连贯性和句子连贯性;权重设置模块,其用于对作文主题一致性检测模块、作文质量检测模块、作文连贯性检测模块生成的分数进行权重设置,并得到最终的作文分数。2.根据权利要求1所述的面向跨场景的英语作文自动评分系统,其特征在于,所述作文主题一致性检测模块用于输入作文主题与作文内容,将其预处理后转化为特征矩阵,构建模型计算作文主题与作文内容的相关性,得到作文的合题度得分,从而判断输入作文是否跑题。3.根据权利要求1所述的面向跨场景的英语作文自动评分系统,其特征在于,所述作文质量检测模块能够采用分阶段模型,所述的分阶段模型包括一阶段和二阶段,一阶段首先人工提取多种浅层特征,最终根据斯皮尔曼系数确定词汇丰富度、拼写错误单词数量、文章单词数量、不同词性占比4个特征,二阶段通过神经网络模型提取作文深层语义特征,结合得到最终的作文质量特征,通过激活函数得到作文的质量得分,评判作文质量。4.根据权利要求1所述的基于面向跨场景的英语作文自动评分系统,其特征在于,所述作文连贯性检测模块能够利用自然语言处理技术分别对作文整体连贯性及各句子的局部连贯性进行检测,设置权重后得到作文的连贯性特征,得到作文的连贯性得分。5.根据权利要求1所...

【专利技术属性】
技术研发人员:张万健徐鲁强穆昊飞
申请(专利权)人:西南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1