手写公式识别方法、手写公式识别模型的训练方法及装置制造方法及图纸

技术编号:36353158 阅读:63 留言:0更新日期:2023-01-14 18:09
一种手写公式识别方法、手写公式识别模型的训练方法及装置,该手写公式识别方法包括:获取待识别图像,对所述待识别图像的尺寸进行调整;将调整后的所述待识别图像输入编码器,得到所述待识别图像的降采样特征图;初始化解码器的输入,将所述待识别图像的降采样特征图和所述解码器的输入循环输入所述解码器,直到所述解码器识别结束和/或所述解码器达到预设的最大循环次数,每次循环得到的解码器的输出作为下一次循环时所述解码器的输入;将每次循环得到的所述解码器的输出组合成输出序列,将所述输出序列转换为识别结果输出。所述输出序列转换为识别结果输出。所述输出序列转换为识别结果输出。

【技术实现步骤摘要】
手写公式识别方法、手写公式识别模型的训练方法及装置


[0001]本公开实施例涉及但不限于手写识别
,尤其涉及一种手写公式识别方法、手写公式识别模型的训练方法及装置。

技术介绍

[0002]随着科技的发展,将信息以电子文稿或图片方式进行传播的情况越来越广泛,但是在一些学术论文中,包含了大量的公式,对于一些使用者来说,使用电子产品输入复杂的公式较为困难,影响了使用者的使用体验,因此,需要一种将手写体公式转化成书面公式的手写公式识别技术。此外,手写公式识别技术在自动阅卷、拍照搜题、试题数字化等教育领域也具有广泛的应用需求。

技术实现思路

[0003]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0004]本公开实施例提供了一种手写公式识别方法,包括:
[0005]获取待识别图像,对所述待识别图像的尺寸进行调整;
[0006]将调整后的所述待识别图像输入编码器,得到所述待识别图像的降采样特征图;
[0007]初始化解码器的输入,将所述待识别图像的降采样特征图和所述解码器的输入循环输入所述解码器,直到所述解码器识别结束和/或所述解码器达到预设的最大循环次数,每次循环得到的解码器的输出作为下一次循环时所述解码器的输入;
[0008]将每次循环得到的所述解码器的输出组合成输出序列,将所述输出序列转换为识别结果输出。
[0009]本公开实施例还提供了一种手写公式识别装置,包括存储器;和连接至所述存储器的处理器,所述存储器用于存储指令,所述处理器被配置为基于存储在所述存储器中的指令,执行本公开任一实施例所述的手写公式识别方法的步骤。
[0010]本公开实施例还提供了一种非瞬态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开任一实施例所述的手写公式识别方法。
[0011]本公开实施例还提供了一种手写公式识别模型的训练方法,包括:
[0012]构建手写公式识别模型,所述手写公式识别模型包括编码器和解码器,所述编码器包括多个第一卷积层,所述第一卷积层包括至少一个通道,所述解码器包括依次连接的第一门控循环单元、注意力模块、第二门控循环单元和解码单元;
[0013]对所述手写公式识别模型进行训练,得到训练好的第一手写公式识别模型;
[0014]确定所述第一手写公式识别模型的剪枝比例,根据所述剪枝比例确定每个所述第一卷积层的待删减通道;
[0015]构建所述多个第一卷积层之间的依赖图,根据所述依赖图和待删减通道执行剪枝操作。
[0016]本公开实施例还提供了一种手写公式识别模型的训练装置,包括存储器;和连接至所述存储器的处理器,所述存储器用于存储指令,所述处理器被配置为基于存储在所述存储器中的指令,执行本公开任一实施例所述的手写公式识别模型的训练方法的步骤。
[0017]本公开实施例还提供了一种非瞬态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开任一实施例所述的手写公式识别模型的训练方法。
[0018]在阅读理解了附图和详细描述后,可以明白其他方面。
附图说明
[0019]附图用来提供对本公开技术方案的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开的技术方案的限制。附图中各部件的形状和大小不反映真实比例,目的只是示意说明本公开内容。
[0020]图1为本公开示例性实施例提供的一种手写公式识别方法的流程示意图;
[0021]图2为本公开示例性实施例提供的一种公式识别模型整体架构示意图;
[0022]图3为本公开示例性实施例提供的一种解码器结构示意图;
[0023]图4为本公开示例性实施例提供的一种手写公式识别模型的训练方法的流程示意图;
[0024]图5为本公开示例性实施例提供的一种知识蒸馏过程示意图;
[0025]图6为本公开示例性实施例提供的一种手写公式识别装置的结构示意图;
[0026]图7为本公开示例性实施例提供的一种手写公式识别模型的训练装置的结构示意图。
具体实施方式
[0027]为使本公开的目的、技术方案和优点更加清楚明白,下文中将结合附图对本公开的实施例进行详细说明。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互任意组合。
[0028]除非另外定义,本公开实施例公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出该词前面的元件或物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
[0029]如图1所示,本公开实施例提供了一种手写公式识别方法,包括如下步骤:
[0030]步骤101、获取待识别图像,对待识别图像的尺寸进行调整;
[0031]步骤102、将调整后的待识别图像输入编码器,得到待识别图像的降采样特征图;
[0032]步骤103、初始化解码器的输入,将待识别图像的降采样特征图和解码器的输入循环输入解码器,直到解码器识别结束和/或解码器达到预设的最大循环次数,每次循环得到的解码器的输出作为下一次循环时解码器的输入;
[0033]步骤104、将每次循环得到的解码器的输出组合成输出序列,将输出序列转换为识别结果输出。
[0034]本公开实施例的手写公式识别方法,通过获取待识别图像,对待识别图像的尺寸
进行调整;将调整后的待识别图像输入编码器,得到待识别图像的降采样特征图;初始化解码器的输入,将待识别图像的降采样特征图和解码器的输入循环输入解码器,直到解码器识别结束和/或解码器达到预设的最大循环次数,每次循环得到的解码器的输出作为下一次循环时解码器的输入,将每次循环得到的解码器的输出组合成输出序列,将输出序列转换为识别结果输出,能够达到将手写体公式转化成书面公式的识别结果,提升了使用者的使用体验。
[0035]本公开实施例的手写公式识别模型由编码器+解码器构成,在一些示例性实施方式中,编码器包括多个第一卷积层,第一卷积层包括至少一个通道,解码器包括依次连接的第一门控循环单元、注意力模块、第二门控循环单元和解码单元,第一门控循环单元用于结合上一时刻的隐状态与上一时刻预测的输入字符,得到第一门控输出向量;注意力模块用于结合编码器的输出以及第一门控输出向量,得到注意力向量;第二门控循环单元用于结合第一门控输出向量与注意力向量,得到当前时刻的隐状态;解码单元用于结合当前时刻的隐状态、上一时刻预测的输入字符以及注意力向量,得到当前时刻预测的输入字符。
[0036]在一些示例性实施方式中,整体架构如图2所示。用户在触屏设备上书写手写公式,手写公式包括至少一个字符,每个字符包括至少一个笔画,一个笔画为一次落本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种手写公式识别方法,其特征在于,包括:获取待识别图像,对所述待识别图像的尺寸进行调整;将调整后的所述待识别图像输入编码器,得到所述待识别图像的降采样特征图;初始化解码器的输入,将所述待识别图像的降采样特征图和所述解码器的输入循环输入所述解码器,直到所述解码器识别结束和/或所述解码器达到预设的最大循环次数,每次循环得到的所述解码器的输出作为下一次循环时所述解码器的输入;将每次循环得到的所述解码器的输出组合成输出序列,将所述输出序列转换为识别结果输出。2.根据权利要求1所述的手写公式识别方法,其特征在于,所述编码器为密集连接的卷积神经网络。3.根据权利要求1所述的手写公式识别方法,其特征在于,所述解码器包括第一门控循环单元、注意力模块、第二门控循环单元和解码单元,所述解码器的输入包括输入字符、隐藏状态向量、第一权重系数向量以及第二权重系数向量,其中:第k次循环中所述第一门控循环单元的输入包括第k

1次循环中所述解码单元输出的输入字符的词向量以及第k

1次循环中所述第二门控循环单元输出的隐藏状态向量,所述第一门控循环单元的输出为第一门控输出向量;第k次循环中所述注意力模块的输入包括第k

1次循环中所述注意力模块输出的第一权重系数向量以及第k

1次循环中所述注意力模块输出的第二权重系数向量,所述注意力模块的输出还包括注意力向量;第k次循环中所述第二门控循环单元的输入包括第k次循环中所述第一门控循环单元输出的第一门控输出向量与所述注意力模块输出的注意力向量,所述第二门控循环单元的输出为所述隐藏状态向量;第k次循环中所述解码单元的输入包括第k次循环中所述第二门控循环单元输出的隐藏状态向量、所述第k

1次循环所述解码单元输出的输入字符的词向量、第k次循环中所述注意力模块输出的注意力向量,所述解码单元的输出为所述输入字符,k为大于或等于2的自然数。4.根据权利要求3所述的手写公式识别方法,其特征在于,第k次循环中所述解码单元输出的输入字符,通过将第k次循环中所述第二门控循环单元输出的隐藏状态向量、所述第k

1次循环所述解码单元输出的输入字符的词向量、第k次循环中所述注意力模块输出的注意力向量调整至相同维度后相加,并对相加结果进行分类得到。5.根据权利要求3所述的手写公式识别方法,其特征在于,所述注意力模块的输入还包括所述编码器输出的降采样特征图以及所述第一门控输出向量;第k次循环中所述注意力模块输出的注意力向量通过将所述编码器输出的降采样特征图与第k次循环中所述注意力模块输出的第一权重系数向量相乘后在宽高平面求和得到;第k次循环中所述注意力模块输出的第二权重系数向量通过将第k

1次循环中所述注意力模块输出的第一权重系数向量和第k

1次循环中所述注意力模块输出的第二权重系数向量相加后得到;第k次循环中所述注意力模块输出的第一权重系数向量通过...

【专利技术属性】
技术研发人员:石瑞姣
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1