当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于计数聚焦模型的新型文本识别方法技术

技术编号:17913123 阅读:43 留言:0更新日期:2018-05-10 18:41
本发明专利技术涉及一种基于计数聚焦模型的新型文本识别方法,所述计数聚焦模型包括编码器和解码器,所述识别方法包括以下步骤:S1.采用基于卷积神经网络的编码器对输入图像的高层特征进行抽取,得到高层特征图;S2.基于长短期记忆网络和聚焦机制的解码器从高层特征图中按序解码出从左到右的字符。

【技术实现步骤摘要】
一种基于计数聚焦模型的新型文本识别方法
本专利技术属于光学字符识别领域,更具体地,涉及一种基于计数聚焦模型的新型文本识别方法。
技术介绍
OCR单行文本识别是对输入的包含单行文本的图像进行文本内容识别的过程。目前在该任务上使用的主流模型之一是注意力/聚焦模型(AttentionModel),其识别流程是:1)先用卷积神经网络(CNN)抽取输入图像的高层特征图(featuremap);2)使用长短期记忆网络(LSTM)对高层特征图进行多次的“聚焦”(attend),计算出聚焦权重(attentionweights);3)使用聚焦权重对高层特征图进行加权平均,根据得到的特征向量预测当前步数(step)需要输出的文本字符。现有的聚焦模型中,聚焦权重的计算模块所需要的输入一般包括:CNN抽取得到的特征图、上一步的聚焦权重、LSTM上一步的状态向量。现有的聚焦模型并未假设先后聚焦位置的相对位置,因此现有的模型更适合用于比OCR文本识别更加通用的图说(ImageCaption)问题上。图说是对输入的图像进行文本描述的任务,OCR文本识别任务可以视为一种特定的图说任务。但是图说任务中的聚焦位置的先后顺序可以非常灵活,而OCR文本识别中的聚焦位置的先后顺序一般都是有方向性的(从左到右或从上到下)。现有的聚焦模型并未显式地对该方向性进行建模,需要让模型在训练过程中自行学会从左到右或从上到下聚焦。同时,现有的聚焦模型对聚焦权重进行计算的模块的设计过于复杂,对于代码实现的要求比较高。
技术实现思路
本专利技术为解决现有技术未假设先后聚焦位置的相对位置,需要让模型在训练过程中自行学会从左到右或从上到下聚焦导致的训练过程复杂的技术缺陷,以及对聚焦权重进行计算的模块的设计过于复杂的技术缺陷,提供了一种基于聚焦权重的新型文本识别方法。为实现以上专利技术目的,采用的技术方案是:一种基于计数聚焦模型的新型文本识别方法,所述计数聚焦模型包括编码器和解码器,所述识别方法包括以下步骤:S1.采用基于卷积神经网络的编码器对输入图像的高层特征进行抽取,得到高层特征图;S2.基于长短期记忆网络和聚焦机制的解码器从高层特征图中按序解码出从左到右的字符,具体如步骤S21~S30所示:S21.将高层特征图沿着横向维度从左到右进行切分,得到W个内容向量v_1,v_2,…,v_W,其中W为高层特征图的宽度;S22.将内容向量序列分别输入至长LSTM模块中,得到对应的W个状态向量s_1,s_2,…,s_W;S23.将状态向量序列输入至全连接层中,并用线性整流函数保证其数值非负,得到W个计数累加标量c_1,c_2,…,c_W;S24.设置一个初始计数标量k_0;S25.按照从左到右的方向,在计数标量上不断叠加步骤S23获得的累加标量,得到W个计数标量,即k_w=k_{w–1}+c_k,其中1≤w≤W;S26.设置最大解码长度L,代表解码器需要从高层特征图里解码出的字符数目;S27.解码第q个字符,q≤L,将索引q与所有计数标量分别进行比对操作,计算它们的差值的绝对值的反,得到聚焦分数s_w,即:s_w=-|k_w–q|,1≤w≤W;S28.使用softmax函数对W个聚焦分数进行归一化,得到聚焦权重a_w:a_w=e(s_w)/[e(s_1)+e(s_2)+…+e(s_W)];S29.使用聚焦权重对内容向量进行加权求和,得到第q个字符对应的特征向量o_q:o_q=a_1*v_1+a_2*v_2+…+a_W*v_W;S30.利用全连接层从o_q预测出第q个字符的概率分布。与现有技术相比,本专利技术的有益效果是:1)本专利技术在解码阶段对聚焦权重的计算流程抛弃了以往的聚焦模型的通用形式,针对OCR文本识别任务中顺序聚焦的特性进行了简化设计。本专利技术使用一个LSTM模块对计数变量进行累加,再将索引与之一一比对,得到聚焦权重;其计算方式对现有的计算方式做了改进。2)本专利技术中使用线性整流函数保证了计数累加标量非负,使得计数标量递增,从而在模型训练之初就保证了聚焦位置的先后顺序是从左到右,而以往的聚焦模型没有做到这一点,其聚焦位置的先后顺序在训练之初是没有方向性的。3)方法针对OCR单行文本识别这个问题进行了简化设计,对于代码实现的要求更低。附图说明图1为方法的整体示意图。图2为解码器的计算流程图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;以下结合附图和实施例对本专利技术做进一步的阐述。实施例1计数聚焦模型的总体框架与以往的聚焦模型相同,由两个部分构成:基于卷积神经网络(CNN)的编码器(decoder)对输入图像进行高层特征抽取,得到高层特征图(featuremap);基于长短期记忆网络(LSTM)和聚焦机制(AttentionMechanism)的解码器(decoder)从高层特征图按序解码出从左到右的字符。具体如图1所示。编码器采用的是普通的CNN,抽取高层特征得到高层特征图的过程与现有技术相比没有改进的地方,本专利技术提供的识别方法的主要改进点在于解码器的计算流程,如图2所示,解码器的计算流程如下:S21.将高层特征图沿着横向维度从左到右进行切分,得到W个内容向量v_1,v_2,…,v_W,其中W为高层特征图的宽度;S22.将内容向量序列分别输入至长LSTM模块中,得到对应的W个状态向量s_1,s_2,…,s_W;S23.将状态向量序列输入至全连接层中,并用线性整流函数保证其数值非负,得到W个计数累加标量c_1,c_2,…,c_W;S24.设置一个初始计数标量k_0;S25.按照从左到右的方向,在计数标量上不断叠加步骤S23获得的累加标量,得到W个计数标量,即k_w=k_{w–1}+c_k,其中1≤w≤W;S26.设置最大解码长度L,代表解码器需要从高层特征图里解码出的字符数目;S27.解码第q个字符,q≤L,将索引q与所有计数标量分别进行比对操作,计算它们的差值的绝对值的反,得到聚焦分数s_w,即:s_w=-|k_w–q|,1≤w≤W;S28.使用softmax函数对W个聚焦分数进行归一化,得到聚焦权重a_w:a_w=e(s_w)/[e(s_1)+e(s_2)+…+e(s_W)];S29.使用聚焦权重对内容向量进行加权求和,得到第q个字符对应的特征向量o_q:o_q=a_1*v_1+a_2*v_2+…+a_W*v_W;S30.利用全连接层从o_q预测出第q个字符的概率分布。图2中,其中标记为M的模块表示步骤S27中的比对(match)操作。该模型的训练与使用过程与以往的聚焦模型没有区别。显然,本专利技术的上述实施例仅仅是为清楚地说明本专利技术所作的举例,而并非是对本专利技术的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本专利技术的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本专利技术权利要求的保护范围之内。本文档来自技高网...
一种基于计数聚焦模型的新型文本识别方法

【技术保护点】
一种基于计数聚焦模型的新型文本识别方法,所述计数聚焦模型包括编码器和解码器,其特征在于:所述识别方法包括以下步骤:S1.采用基于卷积神经网络的编码器对输入图像的高层特征进行抽取,得到高层特征图;S2.基于长短期记忆网络和聚焦机制的解码器从高层特征图中按序解码出从左到右的字符,具体如步骤S21~S30所示:S21.将高层特征图沿着横向维度从左到右进行切分,得到W个内容向量v_1, v_2, …, v_W,其中W为高层特征图的宽度;S22.将内容向量序列分别输入至长LSTM模块中,得到对应的W个状态向量s_1, s_2, …, s_W;S23.将状态向量序列输入至全连接层中,并用线性整流函数保证其数值非负,得到W个计数累加标量c_1, c_2, …, c_W;S24.设置一个初始计数标量k_0;S25.按照从左到右的方向,在计数标量上不断叠加步骤S23获得的累加标量,得到W个计数标量,即k_w = k_{w–1} + c_k,其中1≤ w ≤ W;S26.设置最大解码长度L,代表解码器需要从高层特征图里解码出的字符数目;S27.解码第q个字符,q≤L,将索引q与所有计数标量分别进行比对操作,计算它们的差值的绝对值的反,得到聚焦分数s_w,即:s_w = ‑ | k_w – q |, 1≤ w ≤ W;S28.使用softmax函数对W个聚焦分数进行归一化,得到聚焦权重a_w:a_w = e...

【技术特征摘要】
1.一种基于计数聚焦模型的新型文本识别方法,所述计数聚焦模型包括编码器和解码器,其特征在于:所述识别方法包括以下步骤:S1.采用基于卷积神经网络的编码器对输入图像的高层特征进行抽取,得到高层特征图;S2.基于长短期记忆网络和聚焦机制的解码器从高层特征图中按序解码出从左到右的字符,具体如步骤S21~S30所示:S21.将高层特征图沿着横向维度从左到右进行切分,得到W个内容向量v_1,v_2,…,v_W,其中W为高层特征图的宽度;S22.将内容向量序列分别输入至长LSTM模块中,得到对应的W个状态向量s_1,s_2,…,s_W;S23.将状态向量序列输入至全连接层中,并用线性整流函数保证其数值非负,得到W个计数累加标量c_1,c_2,…,c_W;S24.设置一个初始计数标量k_0;S25.按照从左到...

【专利技术属性】
技术研发人员:郑华滨潘嵘
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1