适用于司法考试主观题的智能阅卷方法、装置及电子设备制造方法及图纸

技术编号:30367119 阅读:17 留言:0更新日期:2021-10-16 17:38
本发明专利技术公开了一种适用于司法考试主观题的智能阅卷方法及装置,其中方法包括:采集司法考试主观题对应的学生作答文本和各标准得分点,并进行数据清洗;将数据清洗后的学生作答文本和各标准得分点拼接,得到拼接文本;利用预训练语言模型BERT,将拼接文本进行隐层语义交互及编码,得到文本隐层语义表示;基于文本蕴含任务确定得分点评判任务,利用BERT自注意力机制,评判文本隐层语义表示对应的学生作答文本中的各得分点;根据各标准得分点和学生作答文本中的各得分点分别构建全局推理矩阵,并根据全局推理矩阵计算各得分点的总分。本发明专利技术完成单得分点的独立语义评判后,基于全局推理矩阵进行得分汇总,实现了对法考主观题场景的有效判分。的有效判分。的有效判分。

【技术实现步骤摘要】
适用于司法考试主观题的智能阅卷方法、装置及电子设备


[0001]本专利技术涉及计算机辅助阅卷领域,具体涉及一种适用于司法考试主观题的智能阅卷方法、装置及电子设备。

技术介绍

[0002]人工智能技术正逐步融入金融、司法、教育等众多领域,司法考试(简称法考)作为国家统一法律职业资格考试,近阶段报考热度持续高升,传统人工阅卷方式已难以满足现在的高效需求,为了减轻教师背负的高负荷试卷评阅压力,常常结合计算机人工智能技术进行智能阅卷。
[0003]现有的智能阅卷系统大多侧重于基于OCR技术的文本识别及基础客观题答案比对,未将智能评阅重点聚焦于复杂、灵活、开放的主观题评阅场景;少量面向主观题题型的智能阅卷方案中,也没有面向司法考试主观题场景的智能阅卷方案。
[0004]在相近相关场景中,传统的面向主观题的智能阅卷系统基于关键词的模式匹配策略,采用基于关键词提取及句法分析实现学生答案与标准答案的相似度计算,以实现智能阅卷。然而,这种方法的准确率较大程度上依赖于句法分析算法及关键词抽取算法的性能表现,其关键词抽取算法依赖于无监督的分词与字典匹配,准确率无法保证;并且,该方法停留在浅层模式关键词匹配,未考虑到复杂的深层语义交互,对于文字表征存在差异但语义相同的场景无法有效判分,而司法考试这类逻辑复杂、理论完备的场景更依赖于复杂的深度语义交互。

技术实现思路

[0005]本专利技术的主要目的在于提供一种适用于司法考试主观题的智能阅卷方法及装置,以解决现有基于关键词的模式匹配策略无法对法考主观题场景进行有效判分的问题。
[0006]为了实现上述目的,本专利技术的第一方面提供了一种适用于司法考试主观题的智能阅卷方法,包括:
[0007]采集司法考试主观题对应的学生作答文本和各标准得分点,并将所述学生作答文本和各标准得分点进行数据清洗;
[0008]将数据清洗后的学生作答文本和各标准得分点进行拼接,得到拼接文本;
[0009]利用预训练语言模型BERT,将所述拼接文本进行隐层语义交互及编码,得到文本隐层语义表示;
[0010]基于文本蕴含任务确定得分点评判任务,利用BERT自注意力机制,评判所述文本隐层语义表示对应的学生作答文本中的各得分点;
[0011]根据所述各标准得分点和学生作答文本中的各得分点分别构建全局推理矩阵,并根据全局推理矩阵计算各得分点的总分,以实现智能阅卷。
[0012]可选地,所述利用预训练语言模型BERT,将所述拼接文本进行隐层语义交互及编码,得到文本隐层语义表示,包括:
[0013]将所述拼接文本作为预训练语言模型BERT的输入文本;
[0014]读取BERT词表,以字符为单位,将所述输入文本分别转化为当前第i个字符w
i
对应的768维度隐层向量TE(w
i
)、段向量SE(w
i
)和位置编码PE(w
i
),按下式确定输入向量E:
[0015]E=TE(w
i
)+SE(w
i
)+PE(w
i
)
[0016]将输入向量输入到12层Transformer模块,进行隐层语义交互及编码。
[0017]进一步地,所述将所述输入向量输入到12层Transformer模块,进行隐层语义交互及编码,包括:
[0018]利用BERT自注意力机制,将输入向量投影到h个子空间,其中,h为自注意力机制多头数量;
[0019]按下式分别采用嵌入变换权重矩阵W
Q
、W
K
和W
V
对所述输入向量E进行点乘映射,依次得到查询向量Q、键向量K和值向量V:
[0020]Q=E
·
W
Q
[0021]K=E
·
W
K
[0022]V=E
·
W
V
[0023]利用BERT自注意力机制,按下式得到输入向量上下文信息交互及加权表示F:
[0024][0025]其中,d
k
为权重放缩因子;
[0026]采用向量拼接方式将自注意力机制多头的输入向量上下文信息交互及加权表示进行级联,按下式确定融合多头并行计算结果MultiHead(Q,K,V):
[0027]MultiHead(Q,K,V)=concatenate(F1,...,F
h
)
[0028]其中,F1为自注意力机制1头的输入向量上下文信息交互及加权表示,F
h
为自注意力机制h头的输入向量上下文信息交互及加权表示;
[0029]将融合多头并行计算结果MultiHead(Q,K,V)连接残差连接结构,进行编码,并将编码串行迭代12层,分别得到各层对应的文本表示;
[0030]将第1层对应的文本表示L1、第6层对应的文本表示L6和第12层对应的文本表示L
12
进行线性组合,得到文本隐层语义表示L
all

[0031]可选地,所述基于文本蕴含任务确定得分点评判任务,利用BERT自注意力机制,评判所述文本隐层语义表示对应的学生作答文本中的各得分点,包括:
[0032]将所述学生作答文本作为文本蕴含任务中的前提,并将所述各标准得分点作为文本蕴含任务中的假说,确定得分点评判任务,以评判学生作答文本中的各得分点;
[0033]选择起始位置标识作为全句的语义标识,以通过BERT自注意力机制对全句中除起始位置标识对应字符外的其他所有字符对应的向量进行加权合并;
[0034]按下式预测学生作答文本中蕴含对应得分点的概率S:
[0035][0036]其中,<CLS>为起始位置标识,为起始位置标识对应的字符经BERT隐层语义交互及编码后对应的隐层语义表示,W
<CLS>
为全连接层的权重矩阵;
[0037]如果概率S大于得分阈值,则评判所述文本隐层语义表示对应的学生作答文本中蕴含对应得分点;
[0038]如果概率S小于等于得分阈值,则评判所述文本隐层语义表示对应的学生作答文本中没有对应得分点。
[0039]可选地,所述根据各标准得分点和学生作答文本中的各得分点分别构建全局推理矩阵,并根据全局推理矩阵计算各得分点的总分,包括:
[0040]根据各标准得分点之间的推理关系构建标准答案全局推理矩阵;
[0041]根据学生作答文本中的各得分点构建学生作答全局推理矩阵;
[0042]对比所述标准答案全局推理矩阵和学生作答全局推理矩阵;
[0043]根据对比结果计算学生作答文本中各得分点的总分。
[0044]进一步地,所述根据对比结果计算学生作答文本中各得分点的总分,包括:
[0045]根据对比结果确定得分点的所有前提条件得分点是否全部命中;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于司法考试主观题的智能阅卷方法,其特征在于,包括:采集司法考试主观题对应的学生作答文本和各标准得分点,并将所述学生作答文本和各标准得分点进行数据清洗;将数据清洗后的学生作答文本和各标准得分点进行拼接,得到拼接文本;利用预训练语言模型BERT,将所述拼接文本进行隐层语义交互及编码,得到文本隐层语义表示;基于文本蕴含任务确定得分点评判任务,利用BERT自注意力机制,评判所述文本隐层语义表示对应的学生作答文本中的各得分点;根据所述各标准得分点和学生作答文本中的各得分点分别构建全局推理矩阵,并根据全局推理矩阵计算各得分点的总分,以实现智能阅卷。2.根据权利要求1所述的方法,其特征在于,所述利用预训练语言模型BERT,将所述拼接文本进行隐层语义交互及编码,得到文本隐层语义表示,包括:将所述拼接文本作为预训练语言模型BERT的输入文本;读取BERT词表,以字符为单位,将所述输入文本分别转化为当前第i个字符w
i
对应的768维度隐层向量TE(w
i
)、段向量SE(w
i
)和位置编码PE(w
i
),按下式确定输入向量E:E=TE(w
i
)+SE(w
i
)+PE(w
i
)将输入向量输入到12层Transformer模块,进行隐层语义交互及编码。3.根据权利要求2所述的方法,其特征在于,所述将所述输入向量输入到12层Transformer模块,进行隐层语义交互及编码,包括:利用BERT自注意力机制,将输入向量投影到h个子空间,其中,h为自注意力机制多头数量;按下式分别采用嵌入变换权重矩阵W
Q
、W
K
和W
V
对所述输入向量E进行点乘映射,依次得到查询向量Q、键向量K和值向量V:Q=E
·
W
Q
K=E.W
K
V=E.W
V
利用BERT自注意力机制,按下式得到输入向量上下文信息交互及加权表示F:其中,d
k
为权重放缩因子;采用向量拼接方式将自注意力机制多头的输入向量上下文信息交互及加权表示进行级联,按下式确定融合多头并行计算结果MultiHead(Q,K,V):MultiHead(Q,K,V)=concatenate(F1,...,F
h
)其中,F1为自注意力机制1头的输入向量上下文信息交互及加权表示,F
h
为自注意力机制h头的输入向量上下文信息交互及加权表示;将融合多头并行计算结果MultiHead(Q,K,V)连接残差连接结构,进行编码,并将编码串行迭代12层,分别得到各层对应的文本表示;将第1层对应的文本表示L1、第6层对应的文本表示L6和第12层对应的文本表示L
12
进行
线性组合,得到文本隐层语义表示L
all
。4.根据权利要求1所述的方法,其特征在于,所述基于文本蕴含任务确定得分点评判任务,利用BERT自注意力机制,评判所述文本隐层语义表示对应的学生作答文本中的各得分点,包括:将所述学生作答文本作为文本蕴含任务中的前提,并将所述...

【专利技术属性】
技术研发人员:王加伟杜向阳
申请(专利权)人:上海艾爵斯信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1