单题作答图像识别模型的训练方法及识别方法技术

技术编号:37154329 阅读:12 留言:0更新日期:2023-04-06 22:14
本公开提供一种单题作答图像识别模型的训练方法及识别方法,所述方法包括:利用神经网络模型处理同一题目的作答样本图像,获得文本预测结果;基于文本预测结果和作答样本图像的标签信息确定损失;若损失不满足训练终止条件,更新神经网络模型的模型参数;若损失满足训练终止条件,获得题目的单题作答图像识别模型。该方法针对每道题目单独训练神经网络模型,获得的单题作答图像识别模型不仅具有良好的文本识别准确率,还具有良好的稳定性和鲁棒性。性。性。

【技术实现步骤摘要】
单题作答图像识别模型的训练方法及识别方法


[0001]本公开涉及图像识别
,尤其涉及单题作答图像识别模型的训练方法及识别方法。

技术介绍

[0002]OCR(Optical Character Recognition,光学字符识别)在企业中的应用非常广泛,文字识别是OCR应用中的关键技术,它的功能是从输入的图像中提取出图像中的文字信息。
[0003]在手写答题场景中,不同人手工写出来的字体大小、风格、笔迹潦草程度、字体连笔等区别导致手写体文字形式多样,同时,还会书写各种汉字、字母、数字、数学符号、复杂结构的数学公式等混合形式组合。由于手写体的多样性和这些混合形式组合的特殊性,导致利用神经网络模型识别手写文本时识别准确率较低。

技术实现思路

[0004]根据本公开的一方面,提供了一种单题作答图像识别模型的训练方法,包括:
[0005]利用神经网络模型处理同一题目的作答样本图像,获得文本预测结果;
[0006]基于文本预测结果和作答样本图像的标签信息确定损失;
[0007]若损失不满足训练终止条件,更新神经网络模型的模型参数;若损失满足训练终止条件,获得题目的单题作答图像识别模型。
[0008]根据本公开的另一方面,提供了一种单题作答图像的识别方法,包括:
[0009]基于题目信息确定与题目信息匹配的单题作答图像识别模型,单题作答图像识别模型在训练阶段的数据集包括与题目信息匹配的多个作答样本图像和多个作答样本图像的标签信息;
[0010]基于单题作答图像识别模型识别与题目信息匹配的题目作答图像,获得文本识别结果。
[0011]根据本公开的另一方面,提供了一种单题作答图像识别模型的训练装置,包括:
[0012]处理模块,用于利用神经网络模型处理同一题目的作答样本图像,获得文本预测结果;
[0013]确定模块,用于基于文本预测结果和作答样本图像的标签信息确定损失;
[0014]处理模块还用于若损失不满足训练终止条件,更新神经网络模型的模型参数;若损失满足训练终止条件,获得题目的单题作答图像识别模型。
[0015]根据本公开的另一方面,提供了一种单题作答图像识别模型在题目作答图像识别中的应用,单题作答图像识别模型对应的题目与题目作答图像对应的题目为同一题目。
[0016]根据本公开的另一方面,提供了一种单题作答图像的识别装置,包括:
[0017]确定模块,用于基于题目信息确定与题目信息匹配的单题作答图像识别模型,单题作答图像识别模型在训练阶段的数据集包括与题目信息匹配的多个作答样本图像和多
个作答样本图像的标签信息;
[0018]识别模块,用于基于单题作答图像识别模型识别与题目信息匹配的题目作答图像,获得文本识别结果。
[0019]根据本公开的另一方面,提供了一种电子设备,包括:
[0020]处理器;以及,
[0021]存储程序的存储器;
[0022]其中,程序包括指令,指令在由处理器执行时使处理器执行根据本公开示例性实施例所述的方法。
[0023]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行根据本公开示例性实施例所述的方法。
[0024]本公开示例性实施例中提供的一个或多个技术方案中,以同一题目的作答样本图像为训练集,可以利用神经网络模型处理同一题目的作答样本图像,获得文本预测结果;然后,基于文本预测结果和作答样本图像的标签信息确定损失。若损失不满足训练终止条件,更新神经网络模型的模型参数;若损失满足训练终止条件,获得该题目的单题作答图像识别模型。可见,本公开示例性实施例的方法可以针对每道题目单独训练神经网络模型,获得的单题作答图像识别模型能够结合答题环境,不仅可以将外形特征相同或相近的手写体字符识别成最符合答题环境的字符,还可以提高数学语义组合的识别准确率。因此,本公开示例性实施例获得的单题作答图像识别模型不仅具有良好的文本识别准确率,还具有良好的稳定性和鲁棒性。
附图说明
[0025]在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
[0026]图1A示出了相关技术中第一个题目作答图像的示意图;
[0027]图1B示出了相关技术中第二个题目作答图像的示意图;
[0028]图2示出了根据本公开示例性实施例的可以在其中实施本文描述的各种方法的示例系统的示意图;
[0029]图3示出了本公开示例性实施例的单题作答图像识别模型的训练方法的流程图;
[0030]图4A示出了本公开示例性实施例的第三个题目作答图像的示意图;
[0031]图4B示出了本公开示例性实施例的第四个题目作答图像的示意图;
[0032]图4C示出了本公开示例性实施例的第四个题目作答图像的示例性文本识别结果;
[0033]图5示出了本公开示例性实施例的单题作答图像的识别方法的流程图;
[0034]图6示出了本公开示例性实施例的校正文本识别结果的流程图;
[0035]图7示出了本公开示例性实施例的单题作答图像识别模型的训练装置的模块示意性框图;
[0036]图8示出了本公开示例性实施例的单题作答图像的识别装置的模块示意性框图;
[0037]图9示出了本公开一些实施例的芯片的示意性框图;
[0038]图10示出了能够用于实现本公开一些实施例的电子设备的结构框图。
具体实施方式
[0039]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0040]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0041]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0042]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0043]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单题作答图像识别模型的训练方法,其特征在于,所述方法包括:利用神经网络模型处理同一题目的作答样本图像,获得文本预测结果;基于所述文本预测结果和所述作答样本图像的标签信息确定损失;若所述损失不满足训练终止条件,更新所述神经网络模型的模型参数;若所述损失满足训练终止条件,获得所述题目的单题作答图像识别模型。2.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括:图像识别单元,用于提取所述作答样本图像的图像特征;文本识别单元,用于基于所述图像特征确定文本预测结果。3.根据权利要求2所述的方法,其特征在于,所述图像识别单元包括:主干网络,用于提取所述作答样本图像的二维图像特征;注意力模块,用于基于所述二维图像特征生成多个文本图像特征。4.根据权利要求3所述的方法,其特征在于,所述文本识别单元包括:语义推理模块,用于基于多个所述文本图像特征获取语义信息;融合解码器,用于基于所述语义信息和多个所述文本图像特征确定所述文本预测结果。5.根据权利要求1~4任一项所述的方法,其特征在于,针对同一所述题目,所述题目的单题作答图像识别模型的数量为多个,多个所述单题作答图像识别模型的架构不同。6.根据权利要求1~4任一项所述的方法,其特征在于,所述作答样本图像为所述单题作答图像识别模型在推理阶段对应题目的题目作答图像,所述作答样本图像对应的标签信息为所述单题作答图像识别模型在推理阶段识别的所述题目作答图像的文本识别结果。7.一种权利要求1~6任一项所述方法训练的单题作答图像识别模型在题目作答图像识别中的应用,所述单题作答图像识别模型对应的题目与所述题目作答图像对应的题目为同一题目。8.一种单题作答图像的识别方法,其特征在于,所述方法包括:基于题目信息确定与所述题目信息匹配的单题作答图像识别模型,所述单题作答图像识别模型在训练阶段的数据集包括与所述题目信息匹配的多个作答样本图像和多个所述作答样本图像的标签信息;基于所述单题作答图像识别模型识别与所述题目信息匹配的题目作答图像,获得文本识别结果。9.根据权利要求8所述的方法,其特征在于,所述题目信息包括:题目标识;和/或,基于通用文本识别模型从所述题目作答图像获取的题目信息。10.根据权利要求8所述的方法,其特征在于,所述基于所述单题作答图像识别模型识别与所述题目信息匹配的题目作答图像,获得文本识别结果后,所述方法还包括:对所述文本识别结果进行结构化,获得结构化文本识别结果;基于结构化文本描述信息与结构化文本的映射关系确定所述结构化文本识别结果的描述信息对应的结构化文本,所述映射关系基于所述题目信息对应的作答文本确定;基于所述结构化文本识别结果的描述信息对应的结构化文本校正所述文本识别结果。11.根据权利要求10所述的方法,其特征在于,所述结构化文本描述信息与结构化文本
的映射关系包括:多级结构化文本描述信息与结构化文本的映射关系,随着所述结构化文本描述信息的级别增加,所...

【专利技术属性】
技术研发人员:斯一鸣马辉煌
申请(专利权)人:北京三海教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1