适用于司法考试主观题的多任务学习智能阅卷方法及装置制造方法及图纸

技术编号:30367168 阅读:23 留言:0更新日期:2021-10-16 17:38
本发明专利技术公开了一种适用于司法考试主观题的多任务学习智能阅卷方法及装置,其中方法包括:采集司法考试主观题对应的学生作答文本和各标准得分点,拼接后作为预训练语言模型BERT的输入文本,进行隐层语义交互及编码,得到文本隐层语义表示;确定得分点抽取任务,逐字预测学生作答文本中各得分点的开始位置和结束位置;确定得分点评判任务,评判学生作答文本中的各得分点和各得分点的得分信息;采用多任务联合学习框架和BERT语义标识层,对得分点抽取任务和得分点评判任务的联合损失函数进行优化,根据联合优化后的各得分点的得分信息计算总分,以实现智能阅卷。本发明专利技术实现了对法考主观题场景进行有效判分,达到了提升法考学员学习效率的目的。学习效率的目的。学习效率的目的。

【技术实现步骤摘要】
适用于司法考试主观题的多任务学习智能阅卷方法及装置


[0001]本专利技术涉及计算机辅助阅卷领域,具体涉及一种适用于司法考试主观题的多任务学习智能阅卷方法及装置。

技术介绍

[0002]近年来,人工智能技术发展迅速,正逐步融入金融、司法、教育等众多领域,而司法考试(简称法考)作为国家统一法律职业资格考试,近阶段报考热度持续高升,传统人工阅卷方式已难以满足现在的高效需求,为了减轻教师背负的高负荷试卷评阅压力,常常结合计算机人工智能技术进行智能阅卷。
[0003]现有的智能阅卷系统大多侧重于基于OCR技术的文本识别及基础客观题答案比对,未将智能评阅重点聚焦于复杂、灵活、开放的主观题评阅场景;少量面向主观题题型的智能阅卷方案中,也没有面向司法考试主观题场景的智能阅卷方案。
[0004]在相近相关场景中,传统的面向主观题的智能阅卷系统基于关键词的模式匹配策略,采用基于关键词提取及句法分析实现学生答案与标准答案的相似度计算,以实现智能阅卷。然而,这种方法的准确率较大程度上依赖于句法分析算法及关键词抽取算法的性能表现,而其关键词抽取算法则是依赖于无监督的分词与字典匹配,准确率无法保证;并且,该方法停留在浅层模式关键词匹配,未考虑到复杂的深层语义交互,对于文字表征存在差异但语义相同的场景无法有效判分,而司法考试这类逻辑复杂、理论完备的场景更依赖于复杂的深度语义交互。

技术实现思路

[0005]本专利技术的主要目的在于提供一种适用于司法考试主观题的多任务学习智能阅卷方法及装置,以解决现有基于关键词的模式匹配策略无法对法考主观题场景进行有效判分的问题。
[0006]为了实现上述目的,本专利技术的第一方面提供了一种适用于司法考试主观题的多任务学习智能阅卷方法,包括:
[0007]采集司法考试主观题对应的学生作答文本和各标准得分点;
[0008]将所述学生作答文本和各标准得分点拼接后作为预训练语言模型BERT的输入文本,进行隐层语义交互及编码,得到文本隐层语义表示;
[0009]基于片段抽取型机器阅读理解任务确定得分点抽取任务,采用二元分类器逐字预测所述文本隐层语义表示对应的学生作答文本中各得分点的开始位置和结束位置;
[0010]基于文本蕴含任务确定得分点评判任务,利用BERT自注意力机制,评判所述文本隐层语义表示对应的学生作答文本中的各得分点和各得分点的得分信息;
[0011]采用多任务联合学习框架和BERT语义标识层,对所述得分点抽取任务和得分点评判任务的联合损失函数进行优化,得到联合优化后的各得分点的开始位置和结束位置、各得分点和各得分点的得分信息;
[0012]根据联合优化后的各得分点的得分信息计算总分,以实现智能阅卷。
[0013]可选地,所述将所述学生作答文本和各标准得分点拼接后作为预训练语言模型BERT的输入文本,进行隐层语义交互及编码,得到文本隐层语义表示,包括:
[0014]拼接所述学生作答文本和各标准得分点,得到预训练语言模型BERT的输入文本;
[0015]读取BERT词表,以字符为单位,将所述输入文本分别转化为字符对应的768维度隐层向量、段向量和位置编码,将所述字符对应的768维度隐层向量、段向量和位置编码相加,得到输入向量;
[0016]将所述输入向量输入到12层Transformer模块,进行隐层语义交互及编码。
[0017]进一步地,所述将所述输入向量输入到12层Transformer模块,进行隐层语义交互及编码,包括:
[0018]利用BERT自注意力机制,将输入向量投影到h个子空间,其中,h为自注意力机制多头数量;
[0019]采用嵌入变换权重矩阵对输入向量进行点乘映射;
[0020]根据点乘映射的结果,利用BERT自注意力机制,确定自注意力机制单头的输入向量上下文信息交互及加权表示和自注意力机制多头的输入向量上下文信息交互及加权表示;
[0021]采用向量拼接方式将自注意力机制多头的输入向量上下文信息交互及加权表示进行级联,以融合多头并行计算结果;
[0022]将融合多头并行计算结果连接残差连接结构,进行编码,并将编码串行迭代12层,分别得到各层对应的文本表示;
[0023]将各层对应的文本表示进行线性组合,得到文本隐层语义表示。
[0024]可选地,所述基于片段抽取型机器阅读理解任务确定得分点抽取任务,采用二元分类器逐字预测所述文本隐层语义表示对应的学生作答文本中各得分点的开始位置和结束位置,包括:
[0025]将所述学生作答文本作为片段抽取型机器阅读理解任务中的背景材料,并将所述各标准得分点作为片段抽取型机器阅读理解任务中的问题,确定得分点抽取任务,以抽取学生作答文本中各得分点的开始位置和结束位置;
[0026]采用两个二元分类器,分别逐字判断所述文本隐层语义表示对应的学生作答文本中的字符是否为对应得分点的开始位置或结束位置;
[0027]按下式预测学生作答文本中当前第i个字符为对应得分点的开始位置或结束位置的概率P
i

[0028][0029]其中,P
i
∈(0,1),是第i个字符经BERT隐层语义交互及编码后对应的隐层语义表示,W
i
是第i个字符的可训练的权重参数;
[0030]如果P
i
大于位置阈值,则将所述第i个字符作为学生作答文本中对应得分点的开始位置或结束位置;
[0031]如果P
i
小于等于位置阈值,则继续判断学生作答文本中的下一字符是否为对应得分点的开始位置或结束位置。
[0032]可选地,所述基于文本蕴含任务确定得分点评判任务,利用BERT自注意力机制,评判所述文本隐层语义表示对应的学生作答文本中的各得分点和各得分点的得分信息,包括:
[0033]将所述学生作答文本作为文本蕴含任务中的前提,并将所述各标准得分点作为文本蕴含任务中的假说,确定得分点评判任务,以评判学生作答文本中的各得分点和各得分点的得分信息;
[0034]选择起始位置标识作为全句的语义标识,以通过BERT自注意力机制对全句中除起始位置标识对应字符外的其他所有字符对应的向量进行加权合并;
[0035]按下式预测学生作答文本中蕴含对应得分点的概率S:
[0036][0037]其中,<CLS>为起始位置标识,为起始位置标识对应的字符经BERT隐层语义交互及编码后对应的隐层语义表示,W
<CLS>
为全连接层的权重矩阵;
[0038]如果概率S大于得分阈值,则评判所述文本隐层语义表示对应的学生作答文本中蕴含对应得分点,得分;
[0039]如果概率S小于等于得分阈值,则评判所述文本隐层语义表示对应的学生作答文本中没有对应得分点,不得分。
[0040]可选地,所述采用多任务联合学习框架和BERT语义标识层,对所述得分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于司法考试主观题的多任务学习智能阅卷方法,其特征在于,包括:采集司法考试主观题对应的学生作答文本和各标准得分点;将所述学生作答文本和各标准得分点拼接后作为预训练语言模型BERT的输入文本,进行隐层语义交互及编码,得到文本隐层语义表示;基于片段抽取型机器阅读理解任务确定得分点抽取任务,采用二元分类器逐字预测所述文本隐层语义表示对应的学生作答文本中各得分点的开始位置和结束位置;基于文本蕴含任务确定得分点评判任务,利用BERT自注意力机制,评判所述文本隐层语义表示对应的学生作答文本中的各得分点和各得分点的得分信息;采用多任务联合学习框架和BERT语义标识层,对所述得分点抽取任务和得分点评判任务的联合损失函数进行优化,得到联合优化后的各得分点的开始位置和结束位置、各得分点和各得分点的得分信息;根据联合优化后的各得分点的得分信息计算总分,以实现智能阅卷。2.根据权利要求1所述的方法,其特征在于,所述将所述学生作答文本和各标准得分点拼接后作为预训练语言模型BERT的输入文本,进行隐层语义交互及编码,得到文本隐层语义表示,包括:拼接所述学生作答文本和各标准得分点,得到预训练语言模型BERT的输入文本;读取BERT词表,以字符为单位,将所述输入文本分别转化为字符对应的768维度隐层向量、段向量和位置编码,将所述字符对应的768维度隐层向量、段向量和位置编码相加,得到输入向量;将所述输入向量输入到12层Transformer模块,进行隐层语义交互及编码。3.根据权利要求2所述的方法,其特征在于,所述将所述输入向量输入到12层Transformer模块,进行隐层语义交互及编码,包括:利用BERT自注意力机制,将输入向量投影到h个子空间,其中,h为自注意力机制多头数量;采用嵌入变换权重矩阵对输入向量进行点乘映射;根据点乘映射的结果,利用BERT自注意力机制,确定自注意力机制单头的输入向量上下文信息交互及加权表示和自注意力机制多头的输入向量上下文信息交互及加权表示;采用向量拼接方式将自注意力机制多头的输入向量上下文信息交互及加权表示进行级联,以融合多头并行计算结果;将融合多头并行计算结果连接残差连接结构,进行编码,并将编码串行迭代12层,分别得到各层对应的文本表示;将各层对应的文本表示进行线性组合,得到文本隐层语义表示。4.根据权利要求1所述的方法,其特征在于,所述基于片段抽取型机器阅读理解任务确定得分点抽取任务,采用二元分类器逐字预测所述文本隐层语义表示对应的学生作答文本中各得分点的开始位置和结束位置,包括:将所述学生作答文本作为片段抽取型机器阅读理解任务中的背景材料,并将所述各标准得分点作为片段抽取型机器阅读理解任务中的问题,确定得分点抽取任务,以抽取学生作答文本中各得分点的开始位置和结束位置;采用两个二元分类器,分别逐字判断所述文本隐层语义表示对应的学生作答文本中的
字符是否为对应得分点的开始位置或结束位置;按下式预测学生作答文本中当前第i个字符为对应得分点的开始位置或结束位置的概率P
i
:其中,P
i
∈(0,1),是第i个字符经BERT隐层语义交互及编码后对应的隐层语义表示,W
i
是第i个字符的可训练的权重参数;如果P
i
大于位置阈值,则将所述第i个字符作为学生作答文本中对应得分点的开始位置或结束位置;如果P
i
小于等于位置阈值,则继续判断学生作答文本中的下一字符是否为对应得分点的开始位置或结束位置。5.根据权利要求1所述的方法,其特征在于,所述基于文本蕴含任务确定得分点评判任务,利用BERT自注意力机制,评判所述文本隐层语义表示对应的学生作答文本中的各得分点和各得分点的得分信息,包括:将所述学生作答文本作为文本蕴含任务中的前提,并将所述各标准得分点作为文本蕴含任务中的假说,确定得分点评判任务,以评判学生作答文本中的各得分点和各得分点的得分信息;选择起始位置标识作为全句的语义标识,以通过BERT自注意力机制对全句中除起始位置标识对应字符外的其他...

【专利技术属性】
技术研发人员:王加伟杜向阳
申请(专利权)人:上海艾爵斯信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1