数学公式识别方法及装置、终端设备和可读存储介质制造方法及图纸

技术编号:24757839 阅读:65 留言:0更新日期:2020-07-04 09:32
本发明专利技术提供了一种数学公式识别方法及装置、终端设备和可读存储介质,其中,数学公式识别方法中包括:获取包含有待识别数学公式的图片;采用CNN网络对图片进行特征提取并对提取的特征进行编码;依照编码,依次使用Attention模块和GRU模块对各特征图进行解码,完成对数学公式的识别;其中,Attention模块中通过引入一对齐信息实现coverage机制。其将CNN网络、GRU模块、coverage机制和Attention模块结合为统一模型并进行联合优化,实现对印刷体、手写体混合等数学公式端到端的识别,根据输入的包含有待识别数学公式的图片直接得到最终的Latex文本串,大大简化了算法模型的结构,更加的清晰简单且易于实现。

Mathematical formula identification method and device, terminal equipment and readable storage medium

【技术实现步骤摘要】
数学公式识别方法及装置、终端设备和可读存储介质
本专利技术涉及通信
,尤指一种数学公式识别方法及装置、终端设备和可读存储介质。
技术介绍
数学公式用于表征自然界不同事物之数量之间的或等或不等的联系,常用于教材、科技论文等文档中。与一维结构的文本行不同,数学公式中通常存在上下、左右、包围等二维结构。由于其结构复杂,通过手动的方式进行输入较为繁琐,会浪费大量的时间,是以对数学公式进行识别成为一种需求。数学公式识别是对二维结构的数学公式图片进行识别得到相应latex文本串的过程。一般来说,传统的数学公式识别方法需要经过字符定位分割、字符识别和结构分析3个步骤,其中,字符定位分割用于对公式中字符的进行组合,字符识别用于通过特征提取的方式对字符进行识别,结构分析用于对识别的字符对其进行组合得到公式。虽然上述识别方法能够一定程度上实现目的,但是仍然存在诸多缺点:1)过程复杂难以实现,且存在错误叠加的问题;2)字符定位分割存在困难,粘连字符、存在分离结构的字符(如i、左右结构的汉字等)、字符大小不一、字体不清晰等情况都使得字符的定位和分本文档来自技高网...

【技术保护点】
1.一种数学公式识别方法,其特征在于,包括:/n获取包含有待识别数学公式的图片;/n采用CNN网络对所述图片进行特征提取并对提取的特征进行编码;/n依照编码,依次使用Attention模块和GRU模块对各特征图进行解码,完成对数学公式的识别;其中,所述Attention模块中通过引入一对齐信息实现coverage机制。/n

【技术特征摘要】
1.一种数学公式识别方法,其特征在于,包括:
获取包含有待识别数学公式的图片;
采用CNN网络对所述图片进行特征提取并对提取的特征进行编码;
依照编码,依次使用Attention模块和GRU模块对各特征图进行解码,完成对数学公式的识别;其中,所述Attention模块中通过引入一对齐信息实现coverage机制。


2.如权利要求1所述的数学公式识别方法,其特征在于,在所述采用CNN网络对所述图片进行特征提取并对提取的特征进行编码中,包括:采用DenseNet结构的CNN网络对所述图片进行特征提取及对提取的特征进行编码。


3.如权利要求1或2所述的数学公式识别方法,其特征在于,在所述依次使用Attention模块和GRU模块对各特征图进行解码的一次解码过程中,包括:
MLP模块根据t时刻输入的特征图a、GRU模块中t-1时刻的隐藏状态ht-1及过去时刻的对其信息βt计算得到Attention权重αt,所述t-1时刻为t时刻的前一时刻;
Attention模块根据t时刻输入的特征图a和计算得到的Attention权重αt进一步计算得到上下文向量ct;
GRU模块根据上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1得到t时刻的输出yt和隐藏状态ht。


4.如权利要求3所述的数学公式识别方法,其特征在于,在所述MLP模块根据t时刻输入的特征图a、GRU模块中t-1时刻的隐藏状态ht-1及过去时刻的对其信息βt计算得到Attention权重中,所述Attention权重αt为:






f=Q·βt



其中,n表示时刻,αn表示n时刻的Attention权重;Q、νa、Wa、Ua及Uf均为权重,为MLP模块的可训练参数;k表示特征图a的第k个特征向量,L表示特征图a的大小,且1≤k≤L。


5.如权利要求3所述的数学公式识别方法,其特征在于,在所述Attention模块根据t时刻输入的特征图a和计算得到的Attention权重αt进一步计算得到上下文向量ct中,所述上下文向量ct为:



其中,k表示特征图a的第k个特征向量,L表示特征图a的大小,且1≤k≤L,αtk表示t时刻第k个特征向量的Attention权重。


6.如权利要求3或5所述的数学公式识别方法,其特征在于,在所述GRU模块根据上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1得到t时刻的输出yt和隐藏状态ht中,所述t时刻的输出yt和隐藏状态ht分别为:
yt=argmax(p(yt|a,yt-1))
p(yt|a,y...

【专利技术属性】
技术研发人员:江顺尧邓小兵张春雨
申请(专利权)人:广东小天才科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1