【技术实现步骤摘要】
手写公式识别方法、手写公式识别模型的训练方法及装置
[0001]本公开实施例涉及但不限于手写识别
,尤其涉及一种手写公式识别方法、手写公式识别模型的训练方法及装置。
技术介绍
[0002]随着科技的发展,将信息以电子文稿或图片方式进行传播的情况越来越广泛,但是在一些学术论文中,包含了大量的公式,对于一些使用者来说,使用电子产品输入复杂的公式较为困难,影响了使用者的使用体验,因此,需要一种将手写体公式转化成书面公式的手写公式识别技术。此外,手写公式识别技术在自动阅卷、拍照搜题、试题数字化等教育领域也具有广泛的应用需求。
技术实现思路
[0003]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0004]本公开实施例提供了一种手写公式识别方法,包括:
[0005]获取待识别图像,对所述待识别图像的尺寸进行调整;
[0006]将调整后的所述待识别图像输入编码器,得到所述待识别图像的降采样特征图;
[0007]初始化解码器的输入,将所述待识别图像的降采样特征图和所述解码器的输入循环输入所述解码器,直到所述解码器识别结束和/或所述解码器达到预设的最大循环次数,每次循环得到的解码器的输出作为下一次循环时所述解码器的输入;
[0008]将每次循环得到的所述解码器的输出组合成输出序列,将所述输出序列转换为识别结果输出。
[0009]本公开实施例还提供了一种手写公式识别装置,包括存储器;和连接至所述存储器的处理器,所述存储器用于存储指令 ...
【技术保护点】
【技术特征摘要】
1.一种手写公式识别方法,其特征在于,包括:获取待识别图像,对所述待识别图像的尺寸进行调整;将调整后的所述待识别图像输入编码器,得到所述待识别图像的降采样特征图;初始化解码器的输入,将所述待识别图像的降采样特征图和所述解码器的输入循环输入所述解码器,直到所述解码器识别结束和/或所述解码器达到预设的最大循环次数,每次循环得到的所述解码器的输出作为下一次循环时所述解码器的输入;将每次循环得到的所述解码器的输出组合成输出序列,将所述输出序列转换为识别结果输出。2.根据权利要求1所述的手写公式识别方法,其特征在于,所述编码器为密集连接的卷积神经网络。3.根据权利要求1所述的手写公式识别方法,其特征在于,所述解码器包括第一门控循环单元、注意力模块、第二门控循环单元和解码单元,所述解码器的输入包括输入字符、隐藏状态向量、第一权重系数向量以及第二权重系数向量,其中:第k次循环中所述第一门控循环单元的输入包括第k
‑
1次循环中所述解码单元输出的输入字符的词向量以及第k
‑
1次循环中所述第二门控循环单元输出的隐藏状态向量,所述第一门控循环单元的输出为第一门控输出向量;第k次循环中所述注意力模块的输入包括第k
‑
1次循环中所述注意力模块输出的第一权重系数向量以及第k
‑
1次循环中所述注意力模块输出的第二权重系数向量,所述注意力模块的输出还包括注意力向量;第k次循环中所述第二门控循环单元的输入包括第k次循环中所述第一门控循环单元输出的第一门控输出向量与所述注意力模块输出的注意力向量,所述第二门控循环单元的输出为所述隐藏状态向量;第k次循环中所述解码单元的输入包括第k次循环中所述第二门控循环单元输出的隐藏状态向量、所述第k
‑
1次循环所述解码单元输出的输入字符的词向量、第k次循环中所述注意力模块输出的注意力向量,所述解码单元的输出为所述输入字符,k为大于或等于2的自然数。4.根据权利要求3所述的手写公式识别方法,其特征在于,第k次循环中所述解码单元输出的输入字符,通过将第k次循环中所述第二门控循环单元输出的隐藏状态向量、所述第k
‑
1次循环所述解码单元输出的输入字符的词向量、第k次循环中所述注意力模块输出的注意力向量调整至相同维度后相加,并对相加结果进行分类得到。5.根据权利要求3所述的手写公式识别方法,其特征在于,所述注意力模块的输入还包括所述编码器输出的降采样特征图以及所述第一门控输出向量;第k次循环中所述注意力模块输出的注意力向量通过将所述编码器输出的降采样特征图与第k次循环中所述注意力模块输出的第一权重系数向量相乘后在宽高平面求和得到;第k次循环中所述注意力模块输出的第二权重系数向量通过将第k
‑
1次循环中所述注意力模块输出的第一权重系数向量和第k
‑
1次循环中所述注意力模块输出的第二权重系数向量相加后得到;第k次循环中所述注意力模块输出的第一权重系数向量通过...
【专利技术属性】
技术研发人员:石瑞姣,
申请(专利权)人:京东方科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。