【技术实现步骤摘要】
单题作答图像识别模型的训练方法及识别方法
[0001]本公开涉及图像识别
,尤其涉及单题作答图像识别模型的训练方法及识别方法。
技术介绍
[0002]OCR(Optical Character Recognition,光学字符识别)在企业中的应用非常广泛,文字识别是OCR应用中的关键技术,它的功能是从输入的图像中提取出图像中的文字信息。
[0003]在手写答题场景中,不同人手工写出来的字体大小、风格、笔迹潦草程度、字体连笔等区别导致手写体文字形式多样,同时,还会书写各种汉字、字母、数字、数学符号、复杂结构的数学公式等混合形式组合。由于手写体的多样性和这些混合形式组合的特殊性,导致利用神经网络模型识别手写文本时识别准确率较低。
技术实现思路
[0004]根据本公开的一方面,提供了一种单题作答图像识别模型的训练方法,包括:
[0005]利用神经网络模型处理同一题目的作答样本图像,获得文本预测结果;
[0006]基于文本预测结果和作答样本图像的标签信息确定损失;
[0007]若损失不满足训练终止条件,更新神经网络模型的模型参数;若损失满足训练终止条件,获得题目的单题作答图像识别模型。
[0008]根据本公开的另一方面,提供了一种单题作答图像的识别方法,包括:
[0009]基于题目信息确定与题目信息匹配的单题作答图像识别模型,单题作答图像识别模型在训练阶段的数据集包括与题目信息匹配的多个作答样本图像和多个作答样本图像的标签信息;
[0010]基于单 ...
【技术保护点】
【技术特征摘要】
1.一种单题作答图像识别模型的训练方法,其特征在于,所述方法包括:利用神经网络模型处理同一题目的作答样本图像,获得文本预测结果;基于所述文本预测结果和所述作答样本图像的标签信息确定损失;若所述损失不满足训练终止条件,更新所述神经网络模型的模型参数;若所述损失满足训练终止条件,获得所述题目的单题作答图像识别模型。2.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括:图像识别单元,用于提取所述作答样本图像的图像特征;文本识别单元,用于基于所述图像特征确定文本预测结果。3.根据权利要求2所述的方法,其特征在于,所述图像识别单元包括:主干网络,用于提取所述作答样本图像的二维图像特征;注意力模块,用于基于所述二维图像特征生成多个文本图像特征。4.根据权利要求3所述的方法,其特征在于,所述文本识别单元包括:语义推理模块,用于基于多个所述文本图像特征获取语义信息;融合解码器,用于基于所述语义信息和多个所述文本图像特征确定所述文本预测结果。5.根据权利要求1~4任一项所述的方法,其特征在于,针对同一所述题目,所述题目的单题作答图像识别模型的数量为多个,多个所述单题作答图像识别模型的架构不同。6.根据权利要求1~4任一项所述的方法,其特征在于,所述作答样本图像为所述单题作答图像识别模型在推理阶段对应题目的题目作答图像,所述作答样本图像对应的标签信息为所述单题作答图像识别模型在推理阶段识别的所述题目作答图像的文本识别结果。7.一种权利要求1~6任一项所述方法训练的单题作答图像识别模型在题目作答图像识别中的应用,所述单题作答图像识别模型对应的题目与所述题目作答图像对应的题目为同一题目。8.一种单题作答图像的识别方法,其特征在于,所述方法包括:基于题目信息确定与所述题目信息匹配的单题作答图像识别模型,所述单题作答图像识别模型在训练阶段的数据集包括与所述题目信息匹配的多个作答样本图像和多个所述作答样本图像的标签信息;基于所述单题作答图像识别模型识别与所述题目信息匹配的题目作答图像,获得文本识别结果。9.根据权利要求8所述的方法,其特征在于,所述题目信息包括:题目标识;和/或,基于通用文本识别模型从所述题目作答图像获取的题目信息。10.根据权利要求8所述的方法,其特征在于,所述基于所述单题作答图像识别模型识别与所述题目信息匹配的题目作答图像,获得文本识别结果后,所述方法还包括:对所述文本识别结果进行结构化,获得结构化文本识别结果;基于结构化文本描述信息与结构化文本的映射关系确定所述结构化文本识别结果的描述信息对应的结构化文本,所述映射关系基于所述题目信息对应的作答文本确定;基于所述结构化文本识别结果的描述信息对应的结构化文本校正所述文本识别结果。11.根据权利要求10所述的方法,其特征在于,所述结构化文本描述信息与结构化文本
的映射关系包括:多级结构化文本描述信息与结构化文本的映射关系,随着所述结构化文本描述信息的级别增加,所...
【专利技术属性】
技术研发人员:斯一鸣,马辉煌,
申请(专利权)人:北京三海教育科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。