【技术实现步骤摘要】
一种基于多特征融合的主观题自动评分方法
本专利技术涉及自然语言处理
,更具体的,涉及一种基于多特征融合的主观题自动评分方法。
技术介绍
如今,人工智能时代即将来临,人工智能已经渗透到了各行各业,无论是医疗行业,还是媒体行业,甚至游戏行业也充满了AI的气息,但教育行业却似乎没有跟上人工智能的浪潮似的,显得无动于衷。例如在医疗行业里,医生们可以凭借图像识别技术辅助筛选肿瘤、癌症等病状,大大减轻了医生的工作量。然而在教育行业里,老师们的工作量并没有减少多少,就比如在批改作业、试卷方面,虽然在选择题、填空题等客观题的评分可以由计算机自动评分批改,但简答题、论述题等主观题无法做到完全由计算机自动评分批改,这一方面的技术、产品并不成熟,仍处于探索阶段。现有的主观题评分几乎都是由人工进行评分的,费时费力,无法实时反馈学生的学习成果。最相近似的实现方案:简单提取两个答案的语义,然后计算相似度,这样准确率较低,忽略了深层的语义,无法做到实用。
技术实现思路
本专利技术为克服现有的主观题自动评分方案准确率不高、 ...
【技术保护点】
1.一种基于多特征融合的主观题自动评分方法,其特征在于,包括以下步骤:/nS1:使用中文分词工具分别对考生答案和参考答案进行分词,然后去除停用词、重复词、标点符号和特殊符号,并且让两组序列的长度一致,对应得到序列A1和序列A2;/nS2:使用bert-as-service工具对A1、A2进行向量化处理,对应得到考生答案向量矩阵E1、参考答案向量矩阵E2;/nS3:分别从E1、E2提取考生答案和参考答案的文本特征、关键词特征和情感特征进行相似度特征计算,对应得到文本相似度特征Sim
【技术特征摘要】
1.一种基于多特征融合的主观题自动评分方法,其特征在于,包括以下步骤:
S1:使用中文分词工具分别对考生答案和参考答案进行分词,然后去除停用词、重复词、标点符号和特殊符号,并且让两组序列的长度一致,对应得到序列A1和序列A2;
S2:使用bert-as-service工具对A1、A2进行向量化处理,对应得到考生答案向量矩阵E1、参考答案向量矩阵E2;
S3:分别从E1、E2提取考生答案和参考答案的文本特征、关键词特征和情感特征进行相似度特征计算,对应得到文本相似度特征Sim1、关键词相似度特征Sim2、情感相似度特征Sim3;
S4:计算得出总分,完成自动评分,计算公式为:
Score=(a*Sim1+β*Sim2+γ*Sim3)*MaxScore
其中α、β、γ为特征对应的权重,MaxScore为设置的满分值。
2.根据权利要求1所述的一种基于多特征融合的主观题自动评分方法,其特征在于,S1中通过在长度短的序列的末端填补字符<PAD>,从而使A1和A2长度一致。
3.根据权利要求1所述的一种基于多特征融合的主观题自动评分方法,其特征在于,S3中计算Sim1具体包括以下步骤:
S3.1.1:利用卷积神经网络CNN对E1进行特征提取,其输出向量Ci作为CNN提取的单词级别的特征;
S3.1.2:利用双向长短期记忆网络LSTM对E1进行特征提取,其输出向量hi作为得到LSTM层提取到的单词级别的特征;
S3.1.3:对Ci、hi引入注意力机制,最后分别得到CNN提取的句子级别的语义向量表示Scnn和LSTM提取的句子级别的语义向量表示Slstm;
Scnn的计算公式为:
vi=tanh(WcCi+bc)
αi=softmax(Wαvi)
式中,vi是注意力输出,Wc、bc、Wα是模型参数,αi是CNN层的注意力权重;
Slstm的计算公式为:
ui=tanh(Whhi+bh)
βi=softmax(Wβui)
式中,ui是注意力输出,Wh、bh、Wβ是模型参数,βi是LSTM层的注意力权重;
S3.1.4:将Scnn和Slstm进行拼接,得到考生答案文本的语义表示s1[Scnn,Slstm];
S3.1.5:依照S3.1.1至S3.1.4对E2进行特征提取、引入注意力机制和拼接语义向量表示,从而得到参考答案文本的语义表示s2;
S3.1.6:在语义空间中计算s1和s2的相似度,从而判断两个答案是否语义相同。
4.根据权利要求3所述的一种基于多...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。