【技术实现步骤摘要】
图像处理方法及装置、识别网络的训练方法及装置
[0001]本公开的实施例涉及一种图像处理方法、图像处理装置、识别网络的训练方法、识别网络的训练装置、电子设备以及非瞬时性计算机可读存储介质。
技术介绍
[0002]数理化学科中普遍存在结构复杂的公式,例如高维矩阵、高阶导数、复杂有机化学式等。利用公式识别技术可以识别图片中的公式并转换为可编辑文本格式,例如LaTex序列。例如,公式识别技术可以用于题库录排、智能批改等。在题库录排时,可以直接识别图片中的公式而不需人工录入公式,极大提高题库录排效率;在智能批改中,公式识别技术可以对学生的数理化作业进行自动批改,大大降低授课老师的课后作业批改压力,节省授课老师宝贵时间。
技术实现思路
[0003]本公开至少一实施例提供一种图像处理方法,包括:获取待处理图像,其中,所述待处理图像包括待识别的目标对象,所述目标对象包括多个字符;利用识别网络对所述待处理图像进行处理,以得到所述目标对象对应的文本内容;其中,所述识别网络包括特征提取子网络、编码子网络和解码子网络;所述特征提取 ...
【技术保护点】
【技术特征摘要】
1.一种图像处理方法,包括:获取待处理图像,其中,所述待处理图像包括待识别的目标对象,所述目标对象包括多个字符;利用识别网络对所述待处理图像进行处理,以得到所述目标对象对应的文本内容;其中,所述识别网络包括特征提取子网络、编码子网络和解码子网络;所述特征提取子网络配置为提取所述待处理图像的视觉特征;所述编码子网络配置为基于所述视觉特征,利用自注意力机制提取所述多个字符之间的全局联系,以得到所述待处理图像的语义特征,其中,所述语义特征包括所述多个字符之间的全局联系;所述解码子网络配置为基于所述语义特征,预测所述文本内容。2.根据权利要求1所述的图像处理方法,其中,所述目标对象为公式,所述公式包括多种空间结构。3.根据权利要求2所述的图像处理方法,其中,所述文本内容为可编辑文本序列。4.根据权利要求1
‑
3任一项所述的图像处理方法,其中,所述特征提取子网络包括残差网络,所述特征提取子网络配置为利用所述残差网络,提取所述待处理图像的图像特征并对所述待处理图像进行下采样处理,输出多个特征图,其中,所述视觉特征包括所述多个特征图。5.根据权利要求4所述的图像处理方法,其中,所述残差网络包括卷积层、组归一化层、2个第一卷积模块、3个第二卷积模块以及7个第三卷积模块。6.根据权利要求5所述的图像处理方法,其中,每个特征图的尺寸为2
×
8。7.根据权利要求1
‑
3任一项所述的图像处理方法,其中,所述编码子网络包括块嵌入模块,所述块嵌入模块配置为:根据所述视觉特征,得到所述待处理图像对应的多个标记;为每个标记添加位置信息,以得到所述多个标记分别对应的多个位置信息;将所述多个标记和所述多个位置信息组合为二维矩阵形式,得到编码输入向量。8.根据权利要求7所述的图像处理方法,其中,所述编码子网络还包括编码模块,所述编码模块包括M个编码器,所述M个编码器级联,其中,所述M个编码器中的第一个编码器配置为接收所述编码输入向量,并对所述编码输入向量进行处理,得到处理结果,所述M个编码器中的第i个编码器配置为接收并处理第i
‑
1个编码器输出的处理结果,所述语义特征根据第M个编码器的处理结果得到,其中,M为大于1的正整数,i为正整数且大于1小于等于M。9.根据权利要求8所述的图像处理方法,其中,每个编码器包括第一多头自注意力子模块和第一前馈神经网络子模块,所述第一多头自注意力子模块配置为计算所述多个标记中每两个标记之间的相似度,以得到所述多个标记之间的序列结构信息,其中,所述多个字符之间的全局联系包括所述多个标记之间的序列结构信息;
所述第一前馈神经网络子模块配置为对所述多个标记之间的序列结构信息进行线性变换处理,得到所述编码器的处理结果。10.根据权利要求8所述的图像处理方法,其中,M为4。11.根据权利要求1
‑
3任一项所述的图像处理方法,其中,所述解码子网络包括解码模块,所述解码模块配置为将所述语义特征和已识别的文本内容相结合,逐个预测每个字符对应的字符文本;其中,所述字符文本为所述字符对应的可编辑文本格式,所述已识别的文本内容包括由已预测的字符文本组成的输入序列。12.根据权利要求11所述的图像处理方法,其中,所述解码模块包括N个解码器,所述N个解码器级联,其中,所述N个解码器中的第一个解码器配置为对所述语义特征和所述输入序列进行处理,得到处理结果,所述N个解码器中的第j个解码器配置为对所述语义特征和第j
‑
1个解码器输出的处理结果进行处理,得到处理结果,其中,N为大于1的正整数,j为大于1且小于等于N的正整数。13.根据权利要求12所述的图像处理方法,其中,每个解码器包括第二多头自注意力子模块、多头交互模块以及第二前馈神经网络子模块,所述第二多头自注意力子模块配置为结合掩码机制和所述自注意力机制对接收的输入数据进行处理,以输出第一注意力矩阵,其中,所述输入数据包括所述输入序列,或者级联的上一级解码器输出的处理结果;所述多头交互模块配置为利用所述自注意力机制对所述第一注意力矩阵和所述语义特征进行处理,输出第二注意力矩阵;所述第二前馈神经网络子模块配置为对所述第二注意力矩阵进...
【专利技术属性】
技术研发人员:刘腾龙,马志国,张飞飞,
申请(专利权)人:新东方教育科技集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。