题目识别方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:27937356 阅读:20 留言:0更新日期:2021-04-02 14:17
本申请实施例提供了一种题目识别方法、装置、电子设备及计算机存储介质,该题目识别方法包括:获取包含题目的目标图像;将目标图像输入预先训练完成的检测模型,得到题目的题目区域和题目中的文本区域;通过预先训练完成的编码器模型,对题目区域的图像部分进行编码,获得题目的编码向量,相较于利用题目类型识别模型对题目类型进行识别的方案,基于编码向量与预存的多种题目类型特征向量的匹配结果,获得题目的题目类型信息,提高了题目类型信息的准确性;基于题目中的文本区域进行文本识别,得到文本识别结果;根据题目类型信息和文本识别结果,进行题目构建,获得与目标图像中的题目对应的构建题目,提高了识别效率、降低了识别成本。

【技术实现步骤摘要】
题目识别方法、装置、电子设备及计算机存储介质
本申请实施例涉及计算机
,尤其涉及一种题目识别方法、装置、电子设备及计算机存储介质。
技术介绍
随着在线教育的快速发展,众多教学辅助类产品应运而生。在教学过程中,上述产品可以为老师提供技术支持,减轻老师的工作量,例如:可以实现题目的自动批改、题目搜索等。通过对包含题目的图像进行题目识别,是实现题目批改、题目讲解等的基础。现有技术中在对题目进行题目识别时,利用题目类型识别模型对图像中题目的题型进行区分,将与题型对应的题目用文本框框起来,从而确定题目的题型,然后结合横向文本行检测结果对文本框进行合并,以对题目中的题目内容进行后续处理。然而,在根据题目类型识别模型对题目类型进行识别的方案中,当图像中出现新的题目类型时,需要重新收集新的题目类型相关的训练样本,同时还需要对这些训练样本进行标注,对题目类型识别模型进行重新训练,题目识别效率低下且成本较高。
技术实现思路
有鉴于此,本申请实施例提供一种题目识别方法、装置、电子设备及计算机存储介质,用以克服现有技术中存在的题目识别效率低且成本高的缺陷。第一方面,本申请实施例提供了一种题目识别方法,所述方法包括:获取包含题目的目标图像;将所述目标图像输入预先训练完成的检测模型,得到所述题目的题目区域和所述题目中的文本区域;通过预先训练完成的编码器模型,对所述题目区域的图像部分进行编码,获得所述题目的编码向量,基于所述编码向量与预存的多种题目类型特征向量的匹配结果,获得所述题目的题目类型信息;基于所述题目中的文本区域进行文本识别,得到文本识别结果;根据所述题目类型信息、所述文本识别结果,进行题目构建,获得与所述目标图像中的题目对应的构建题目。第二方面,本申请实施例提供了一种题目识别装置,所述装置包括:获取模块,用于获取包含题目的目标图像;检测模块,用于将所述目标图像输入预先训练完成的检测模型,得到所述题目的题目区域和所述题目中的文本区域;匹配模块,用于通过预先训练完成的编码器模型,对所述题目区域的图像部分进行编码,获得所述题目的编码向量,基于所述编码向量与预存的多种题目类型特征向量的匹配结果,获得所述题目的题目类型信息;识别模块,用于基于所述题目中的文本区域进行文本识别,得到文本识别结果;构建模块,用于根据所述题目类型信息、所述文本识别结果,进行题目构建,获得与所述目标图像中的题目对应的构建题目。第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如第一方面或第一方面的任意一个实施例中所述的题目识别方法对应的操作。第四方面,本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第一方面的任意一个实施例中所述的题目识别方法。本申请实施例提供的题目识别方案,获取包含题目的目标图像;将目标图像输入预先训练完成的检测模型,得到题目的题目区域和题目中的文本区域;通过预先训练完成的编码器模型,对题目区域的图像部分进行编码,获得题目的编码向量,在进行编码时与题目类型信息无关,弱化了题目类型的定义,不管什么题目类型,仅需要对题目区域的图像部分进行编码即可,即使出现新的题目类型,也不需要对编码器模型进行重新训练。进而,基于编码向量与预存的多种题目类型特征向量的匹配结果,获得题目的题目类型信息,相较于根据题目类型识别模型对题目类型进行识别的方案,本申请通过利用编码器模型进行编码,根据编码向量的匹配结果获得题目类型信息,不依赖于题目类型识别模型,提高了题目类型信息的准确性。基于题目中的文本区域进行文本识别,得到文本识别结果;根据题目类型信息和文本识别结果,进行题目构建,获得与目标图像中的题目对应的构建题目。当出现新的题目类型时,本申请实施例题目识别方法无需重新收集新的题目类型相关的训练样本,对这些训练样本进行标注,重新对题目类型识别模型进行训练,提高了识别效率、降低了识别成本。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种题目识别方法的流程图;图2为本申请实施例提供的一种题目类型的示意图;图3为本申请实施例提供的一种文本识别结果的示意图;图4为本申请实施例提供的一种变分自编码器模型的结构示意图;图5为本申请实施例提供的另一种题目识别方法的流程图;图6为本申请实施例提供的一种题目识别装置的结构框图;图7为本申请实施例提供的一种电子设备的结构示意图。具体实施方式为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。需要说明的是,本申请中的目标只是为了表示单数概念,而不用于限制,不是特指某一个,例如,目标图像。本申请中的第一和第二只是为了区分名称,并不代表顺序关系,不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,例如,第一检测分支、第二检测分支、第三检测分支,第一损失值、第二损失值、第三损失值、第四损失值,第一训练图像样本、第二训练图像样本。本申请中多个指两个及两个以上,例如,多个题目相似度。下面结合附图进一步说明本申请实施例具体实现。实施例一、本申请实施例一提供一种题目识别方法,如图1所示,图1为本申请实施例提供的一种题目识别方法的流程图,该题目识别方法包括以下步骤:步骤S101、获取包含题目的目标图像。本申请实施例中的题目识别方法可适用于各种类型题目的识别,例如,数学作业中较为常见的:普通横式计算题、为使计算简便而在计算过程中列一道竖直式子的竖式计算题、把计算过程完整写出来的脱式计算题(也叫递等式计算题)等;又如,较为特殊的:树状计算题、运算变式题等。如图2所示,图2为本申请实施例提供了一种题目类型的示意图,图2中列出了2.1-2.6的示意图,包括了6种不同题目类型的题目。可选地,本申请中的题目可以是逻辑运算题目,包括各种逻辑可批改的常规题型和非常规题型。步骤S102、将目标图像输入预先训练完成的检测模型,得到题目的题目区域和题目中的文本区域。题目的题目区域表示目标图像中整个题目所在的区域,题目区域可以包括组成一道题目的所有题干部分,或者,题目区域可以包括题目中的题干部分以及进行作答之后的答案部分;题目中的文本区域表示目标图像中文本行对应的文本区域。本文档来自技高网...

【技术保护点】
1.一种题目识别方法,其特征在于,所述方法包括:/n获取包含题目的目标图像;/n将所述目标图像输入预先训练完成的检测模型,得到所述题目的题目区域和所述题目中的文本区域;/n通过预先训练完成的编码器模型,对所述题目区域的图像部分进行编码,获得所述题目的编码向量,基于所述编码向量与预存的多种题目类型特征向量的匹配结果,获得所述题目的题目类型信息;/n基于所述题目中的文本区域进行文本识别,得到文本识别结果;/n根据所述题目类型信息和所述文本识别结果,进行题目构建,获得与所述目标图像中的题目对应的构建题目。/n

【技术特征摘要】
1.一种题目识别方法,其特征在于,所述方法包括:
获取包含题目的目标图像;
将所述目标图像输入预先训练完成的检测模型,得到所述题目的题目区域和所述题目中的文本区域;
通过预先训练完成的编码器模型,对所述题目区域的图像部分进行编码,获得所述题目的编码向量,基于所述编码向量与预存的多种题目类型特征向量的匹配结果,获得所述题目的题目类型信息;
基于所述题目中的文本区域进行文本识别,得到文本识别结果;
根据所述题目类型信息和所述文本识别结果,进行题目构建,获得与所述目标图像中的题目对应的构建题目。


2.根据权利要求1所述的方法,其特征在于,所述通过预先训练完成的编码器模型,对所述题目区域的图像部分进行编码,获得所述题目的编码向量,包括:
根据所述题目区域,对所述目标图像进行截图,获得题目区域的图像部分;
将所述题目区域的图像部分输入所述预先训练完成的编码器模型,得到所述题目的编码向量。


3.根据权利要求1所述的方法,其特征在于,基于所述题目的编码向量与预存的多种题目类型特征向量的匹配结果,获得所述题目的题目类型信息,包括:
计算所述题目的编码向量与所述预存的多种题目类型特征向量之间的题目相似度,得到该题目区域对应的多个题目相似度;
若所述多个题目相似度中包括大于预设相似度的题目相似度,则将所述多个题目相似度中最大题目相似度对应的题目类型特征向量的题目类型信息,确定为所述题目的题目类型信息。


4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若多个题目相似度均小于或等于预设相似度,则将所述题目的编码向量加入所述预存的多种题目类型特征向量中。


5.根据权利要求1所述的方法,其特征在于,所述编码器模型通过以下方式进行预先训练:
获取包含样本题目的第一训练图像样本,所述第一训练图像样本中的样本题目属于同一题目类型;
将所述第一训练图像样本输入初始编码器模型,得到所述样本题目的题目预测编码向量;
将所述样本题目的题目预测编码向量输入初始解码器模型,得到所述样本预测题目;
根据所述样本预测题目,采用L1损失函数,获得第一损失值;
根据所述第一损失值,对所述初始编码器模型和所述初始解码器模型进行训练,得到所述编码器模型。


6.根据权利要求5所述的方法,其特征在于,所述获取包含样本题目的第一训练图像样本,包括:
获取训练图像样本集,其中,所述训练图像样本集中的图像样本为对应于多个不同题目类型的图像样本;
从多个不同题目类型中确定一个题目类型,并将该题目类型对应的图像样本确定为所述第一训练图像样本。


7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
将所述第一训练图像样本输入所述预先训练完成的编码器模型,得到所述第一训练图像样本对应的编码向量;
计算所述第一训练图像样本对应的编码向量的平均值;
将所述编码向量的平均值作为所述第一训练图像样本的题目类型特征向量;
根据所述第一训练图像样本的题目类型特征向量确定所述预存的多种题目类型特征向量。


8.根据权利要求1-7任一项所述的方法,其特征在于,所述编码器模型为变分自编码器模型。


9.根据权利要求1所述的方法,其特征在于,将所述目标图像输入预先训练完成的检测模型,得到所述题目的题目区域和所述题目中的文本区域,包括:
将所述目标图像输入预先训练完成的检测模型,通过所述检测模型的第一检测分支得到所述题目的题目区域;通过所述检测模型的第二检测分支得到所述题目中的打印体文本的文本区域;通过所述检测模型的第三检测分支得到所述题目中的手写体文本的文本区域,所述题目中的文本区域包括所述题目中的打印体文本的文本区域和所述题目中的手写体文本的文本区域;
基于所述题目中的文本区域进行文本识别,得到文本识别结果,包括:
通过预先训练完成的识别模型,基于所述打印体文本的文本区域以及所述手写体文本的文本区域,分别进行文本识别,得到对应的打印体文本识别结果和手写体文本识别结果;
其中,所述编码器模型和所述识别模型为并行执行的两个模型。


10.根据权利要求9所述的方法,其特征在于,所述通过预先训练完成的识别模型,基于所述打印体文本的文本区域以及所述手写体文本的文本区域,分别进行文本识别,得到对应的打印体文本识别结果和手写体文本识别结果,包括:
分别根据所述打印体文本的文本区域以及所述手写体文本的文本区域,对所述目标图像进行截图,获得对应的打印体文本区域图像和手写体文本区域图像;
分别将所述打印体文本区域图像和所述手写体文本区域图像输入所述预先训练完成的识别模型,进行文本识别,得...

【专利技术属性】
技术研发人员:秦勇杨家博
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1