一种基于计数聚焦模型的新型文本识别方法技术

技术编号：17913123 阅读：43 留言：0更新日期：2018-05-10 18:41

本发明专利技术涉及一种基于计数聚焦模型的新型文本识别方法，所述计数聚焦模型包括编码器和解码器，所述识别方法包括以下步骤：S1.采用基于卷积神经网络的编码器对输入图像的高层特征进行抽取，得到高层特征图；S2.基于长短期记忆网络和聚焦机制的解码器从高层特征图中按序解码出从左到右的字符。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于计数聚焦模型的新型文本识别方法
本专利技术属于光学字符识别领域，更具体地，涉及一种基于计数聚焦模型的新型文本识别方法。
技术介绍
OCR单行文本识别是对输入的包含单行文本的图像进行文本内容识别的过程。目前在该任务上使用的主流模型之一是注意力/聚焦模型（AttentionModel），其识别流程是：1）先用卷积神经网络（CNN）抽取输入图像的高层特征图（featuremap）；2）使用长短期记忆网络（LSTM）对高层特征图进行多次的“聚焦”（attend），计算出聚焦权重（attentionweights）；3）使用聚焦权重对高层特征图进行加权平均，根据得到的特征向量预测当前步数（step）需要输出的文本字符。现有的聚焦模型中，聚焦权重的计算模块所需要的输入一般包括：CNN抽取得到的特征图、上一步的聚焦权重、LSTM上一步的状态向量。现有的聚焦模型并未假设先后聚焦位置的相对位置，因此现有的模型更适合用于比OCR文本识别更加通用的图说（ImageCaption）问题上。图说是对输入的图像进行文本描述的任务，OCR文本识别任务可以视为一种特定的图说任务。但是图说任务中的聚焦位置的先后顺序可以非常灵活，而OCR文本识别中的聚焦位置的先后顺序一般都是有方向性的（从左到右或从上到下）。现有的聚焦模型并未显式地对该方向性进行建模，需要让模型在训练过程中自行学会从左到右或从上到下聚焦。同时，现有的聚焦模型对聚焦权重进行计算的模块的设计过于复杂，对于代码实现的要求比较高。
技术实现思路
本专利技术为解决现有技术未假设先后聚焦位置的相对位置，需要让模型在训练过程中自行学会...
一种基于计数聚焦模型的新型文本识别方法

【技术保护点】
一种基于计数聚焦模型的新型文本识别方法，所述计数聚焦模型包括编码器和解码器，其特征在于：所述识别方法包括以下步骤：S1.采用基于卷积神经网络的编码器对输入图像的高层特征进行抽取，得到高层特征图；S2.基于长短期记忆网络和聚焦机制的解码器从高层特征图中按序解码出从左到右的字符，具体如步骤S21~S30所示：S21.将高层特征图沿着横向维度从左到右进行切分，得到W个内容向量v_1, v_2, …, v_W，其中W为高层特征图的宽度；S22.将内容向量序列分别输入至长LSTM模块中，得到对应的W个状态向量s_1, s_2, …, s_W；S23.将状态向量序列输入至全连接层中，并用线性整流函数保证其数值非负，得到W个计数累加标量c_1, c_2, …, c_W；S24.设置一个初始计数标量k_0；S25.按照从左到右的方向，在计数标量上不断叠加步骤S23获得的累加标量，得到W个计数标量，即k_w = k_{w–1} + c_k，其中1≤ w ≤ W；S26.设置最大解码长度L，代表解码器需要从高层特征图里解码出的字符数目；S27.解码第q个字符，q≤L，将索引q与所有计数标量分别进行比对操作...

【技术特征摘要】
1.一种基于计数聚焦模型的新型文本识别方法，所述计数聚焦模型包括编码器和解码器，其特征在于：所述识别方法包括以下步骤：S1.采用基于卷积神经网络的编码器对输入图像的高层特征进行抽取，得到高层特征图；S2.基于长短期记忆网络和聚焦机制的解码器从高层特征图中按序解码出从左到右的字符，具体如步骤S21~S30所示：S21.将高层特征图沿着横向维度从左到右进行切分，得到W个内容向量v_1,v_2,…,v_W，其中W为高层特征图的宽度；S22.将内容向量序列分别输入至长LSTM模块中，得到对应的W个状态向量s_1,s_2,…,s_W；S23.将状态向量序列输入至全连接层中，并用线性整流函数保证其数值非负，得到W个计数累加标量c_1,c_2,…,c_W；S24.设置一个初始计数标量k_0；S25.按照从左到...

【专利技术属性】
技术研发人员：郑华滨，潘嵘，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人