【技术实现步骤摘要】
数学公式识别方法及装置、终端设备和可读存储介质
本专利技术涉及通信
,尤指一种数学公式识别方法及装置、终端设备和可读存储介质。
技术介绍
数学公式用于表征自然界不同事物之数量之间的或等或不等的联系,常用于教材、科技论文等文档中。与一维结构的文本行不同,数学公式中通常存在上下、左右、包围等二维结构。由于其结构复杂,通过手动的方式进行输入较为繁琐,会浪费大量的时间,是以对数学公式进行识别成为一种需求。数学公式识别是对二维结构的数学公式图片进行识别得到相应latex文本串的过程。一般来说,传统的数学公式识别方法需要经过字符定位分割、字符识别和结构分析3个步骤,其中,字符定位分割用于对公式中字符的进行组合,字符识别用于通过特征提取的方式对字符进行识别,结构分析用于对识别的字符对其进行组合得到公式。虽然上述识别方法能够一定程度上实现目的,但是仍然存在诸多缺点:1)过程复杂难以实现,且存在错误叠加的问题;2)字符定位分割存在困难,粘连字符、存在分离结构的字符(如i、左右结构的汉字等)、字符大小不一、字体不清晰等情况 ...
【技术保护点】
1.一种数学公式识别方法,其特征在于,包括:/n获取包含有待识别数学公式的图片;/n采用CNN网络对所述图片进行特征提取并对提取的特征进行编码;/n依照编码,依次使用Attention模块和GRU模块对各特征图进行解码,完成对数学公式的识别;其中,所述Attention模块中通过引入一对齐信息实现coverage机制。/n
【技术特征摘要】
1.一种数学公式识别方法,其特征在于,包括:
获取包含有待识别数学公式的图片;
采用CNN网络对所述图片进行特征提取并对提取的特征进行编码;
依照编码,依次使用Attention模块和GRU模块对各特征图进行解码,完成对数学公式的识别;其中,所述Attention模块中通过引入一对齐信息实现coverage机制。
2.如权利要求1所述的数学公式识别方法,其特征在于,在所述采用CNN网络对所述图片进行特征提取并对提取的特征进行编码中,包括:采用DenseNet结构的CNN网络对所述图片进行特征提取及对提取的特征进行编码。
3.如权利要求1或2所述的数学公式识别方法,其特征在于,在所述依次使用Attention模块和GRU模块对各特征图进行解码的一次解码过程中,包括:
MLP模块根据t时刻输入的特征图a、GRU模块中t-1时刻的隐藏状态ht-1及过去时刻的对其信息βt计算得到Attention权重αt,所述t-1时刻为t时刻的前一时刻;
Attention模块根据t时刻输入的特征图a和计算得到的Attention权重αt进一步计算得到上下文向量ct;
GRU模块根据上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1得到t时刻的输出yt和隐藏状态ht。
4.如权利要求3所述的数学公式识别方法,其特征在于,在所述MLP模块根据t时刻输入的特征图a、GRU模块中t-1时刻的隐藏状态ht-1及过去时刻的对其信息βt计算得到Attention权重中,所述Attention权重αt为:
f=Q·βt
其中,n表示时刻,αn表示n时刻的Attention权重;Q、νa、Wa、Ua及Uf均为权重,为MLP模块的可训练参数;k表示特征图a的第k个特征向量,L表示特征图a的大小,且1≤k≤L。
5.如权利要求3所述的数学公式识别方法,其特征在于,在所述Attention模块根据t时刻输入的特征图a和计算得到的Attention权重αt进一步计算得到上下文向量ct中,所述上下文向量ct为:
其中,k表示特征图a的第k个特征向量,L表示特征图a的大小,且1≤k≤L,αtk表示t时刻第k个特征向量的Attention权重。
6.如权利要求3或5所述的数学公式识别方法,其特征在于,在所述GRU模块根据上下文向量ct、t-1时刻的输出yt-1及隐藏状态ht-1得到t时刻的输出yt和隐藏状态ht中,所述t时刻的输出yt和隐藏状态ht分别为:
yt=argmax(p(yt|a,yt-1))
p(yt|a,y...
【专利技术属性】
技术研发人员:江顺尧,邓小兵,张春雨,
申请(专利权)人:广东小天才科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。