基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器技术

技术编号:22659309 阅读:32 留言:0更新日期:2019-11-28 03:37
本发明专利技术涉及一种基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器。本发明专利技术设计了基于深度神经网络的字符检测器,在网络结构中加入注意力模型来对学习到的特征进行加权,充分利用了字符周围的上下文信息来辅助字符特征的学习,并设计了一个受限关系模型来对上下文信息进行编码,考虑了不同上下文信息对当前特征的影响。本发明专利技术使用受限的上下文信息来提升字符检测的结果,通过融入合适的上下文信息,可以在很大程度上提高字符检测器的性能,使其对于复杂环境(光照、遮挡、复杂纹理等)的变化产生较强的抵抗性,能够减少检测过程中的误报和漏报,同时能够提供初步的识别结果。

Character detection network training method, character detection method and character detector based on restricted attention model

The invention relates to a character detection network training method, a character detection method and a character detector based on a limited attention model. The invention designs a character detector based on the depth neural network, adds attention model to the network structure to weigh the learned features, makes full use of the context information around the characters to assist the learning of character features, and designs a limited relationship model to encode the context information, taking into account the influence of different context information on the current features. The invention uses limited context information to improve the result of character detection. By incorporating appropriate context information, the performance of character detector can be improved to a large extent, which can generate strong resistance to changes in complex environment (light, occlusion, complex texture, etc.), reduce false alarms and missed alarms in the detection process, and provide preliminary recognition results Fruit.

【技术实现步骤摘要】
基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
本专利技术属于信息
,具体涉及一种基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器。
技术介绍
从20世纪开始,人们就试图从图像中提取文字,最重要的一个代表就是光学字符识别技术(OpticalCharacterRecognition,OCR)的提出,它针对图像中的印刷体进行处理,以实现像素层次上的特征提取,从而对实现图像对文本的转换过程。进行了文本提取之后,该信息可进一步用于各种实际应用,如图像搜索,即时翻译,机器人导航和工业自动化。随着人们对文本识别要求的提高,传统的OCR已经无法满足目前的需求,人们迫切的需要能够针对自然场景中复杂背景情况下的文本进行检测识别的技术。目前的比较成熟的方法主要依靠于对场景图片进行连通域分析、采用滑动窗口的模式进行单字符识别以及基于锚点(Anchorbox)的检测方法。现有技术主要存在以下缺陷:1.传统的OCR技术只能处理文档图片。与文档中的文字不同,自然场景中的文本表现出更高的多样性和可变性。例如,场景文本的实例可以是不同的语言,颜色,字体,大小,方向和形状。此外,场景文本的宽高比和布局可能会有很大差异。2.基于连通域分析的方法会受到复杂背景图像的干扰。自然场景的背景几乎是不可预测的。可能存在与文本极其相似的模式(例如,树叶,交通标志,砖块,窗户和栅栏),或由异物引起的遮挡,这可能潜在地导致混淆和错误。3.采用滑动窗口以及使用锚点进行检测的方法会受到复杂成像条件以及复杂纹理的干扰。在不受控制的情况下,无法保证文本图像和视频的质量。也就是说,在较差的成像条件下,文本实例可能由于不适当的拍摄距离或角度而具有低分辨率和严重失真,或者由于失焦或抖动而模糊,或者由于低光照水平而发生噪声,或者由于高光或阴影。
技术实现思路
本专利技术的目的在于提高字符检测器的性能,使其对于复杂环境(光照、遮挡、复杂纹理等)的变化产生较强的抵抗性,减少检测过程中的误报和漏报。本专利技术采用的技术方案如下:第一方面,本专利技术提供一种基于受限注意力模型的字符检测网络训练方法,包括以下步骤:1)将训练数据输入骨干网络进行特征提取;2)将提取的特征输入字符RPN和单词RPN,进行第一阶段的回归预测和分类预测,并计算损失函数;3)根据字符RPN的输出,通过注意力网络计算字符之间的关系权重;4)根据字符RPN和单词RPN的输出,计算用于限制字符关系的受限关系矩阵;5)将关系权重与受限关系矩阵按元素对位相乘,得到受限关系权重;6)将受限关系权重与根据字符RPN获得的字符特征进行加权,得到加权字符特征;7)对加权字符特征进行第二阶段的回归预测和分类预测,获得字符检测结果,并计算损失函数;8)迭代步骤1)~7)直到网络收敛,得到训练完成的字符检测网络。进一步地,所述关系权重的计算方法为:其中,wmn表示关系权重,m,n表示字符RoI的索引,WK,WQ表示注意力网络中的权重参数,是提取到的字符特征,是两个字符RoI经过编码之后得到的特征,softmax表示归一化指数函数,dk表示投影之后的特征的维度,即和的维度。进一步地,所述受限关系矩阵的计算步骤包括:a)对单词RoI依据单词RPN模块得到的预测分数Sw进行排序并放入队列,对于队列中的每一项i,计算它与之后的任意一项j之间的交并比,若交并比大于阈值θIoU,则第j项被移除队列;b)对队列中剩下的单词RoI取前K项;c)用p表示步骤b)处理后的单词RoI的数量,q表示字符RoI的数量,新建矩阵其中表示实数域中p×q维的矩阵;d)对于第m个单词RoI以及第n个字符RoI,计算其交并比,如果交并比大于0,则P[m,n]=True;e)对于第k个字符RoI,找到向量P[:,k]为真值的索引r存储到rt中;对于rt中的每一个r,计算M[k,:]为M[k,:]与P[r,:]逐像素逻辑或的结果,最后得到的M即为受限关系矩阵wl。进一步地,所述加权字符特征的计算公式为:其中,表示加权字符特征,wfinal表示受限关系权重,WV是注意力网络中的权重参数,是提取到的字符特征。第二方面,本专利技术提供一种基于受限注意力模型的字符检测方法,包括以下步骤:获取待进行字符检测的数据;将待进行字符检测的数据输入采用上面所述方法训练完成的字符检测网络中,获得字符检测结果。第三方面,本专利技术提供一种基于受限注意力模型的字符检测器,其包括:骨干网络,用于对输入的图片提取特征;字符RPN,连接所述骨干网络,用于根据输入的特征生成字符候选提案;单词RPN,连接所述骨干网络,用于根据输入的特征生成单词候选提案;约束关系模块,连接所述单词RPN和所述字符RPN,用于生成受限关系矩阵;注意力网络模块,连接所述字符RPN,用于生成关系权重;加权字符特征模块,连接所述字符RPN、所述约束关系模块和所述注意力网络模块,用于计算加权字符特征;分类预测模块和回归预测模块,连接所述加权字符特征模块,用于对加权字符特征进行回归预测和分类预测,获得字符检测结果;损失模块,用于在训练过程中计算损失函数的值,以判断网络是否收敛。进一步地,所述注意力网络模块将任意两个候选区域的特征进行加权,从而在检测字符的同时使用全局的信息来辅助当前字符进行检测。进一步地,所述约束关系模块利用字符在空间属性上的关系得到受限关系矩阵,用于对关系权重进行进一步的调整,从而在检测字符的同时考虑了字符之间的关系以及限制。本专利技术的技术关键点在于:1.设计了一个简单的基于深度神经网络的字符检测器;2.在网络结构中加入注意力模型来对学习到的特征进行加权;3.充分利用了字符周围的上下文信息来辅助字符特征的学习;4.设计了一个受限关系模型来对上下文信息进行编码,考虑到不同上下文信息对当前特征的影响。本专利技术的有益效果如下:本专利技术使用受限的上下文信息来提升字符检测的结果,通过融入合适的上下文信息,可以在很大程度上提高字符检测器的性能,使其对于复杂环境(光照、遮挡、复杂纹理等)的变化产生较强的抵抗性,能够减少检测过程中的误报和漏报,同时能够提供初步的识别结果。附图说明图1是对照组(常见的二阶段深度学习字符检测器)的网络结构图。其中,圆角矩形代表模块的输入或者输出,直角矩形代表模块,虚线区域只在检测器的训练过程产生作用。图2是本专利技术的约束关系网络的网络结构图。其中圆角矩形代表模块的输入或者输出,直角矩形代表模块,虚线区域只在检测器的训练过程产生作用。为了使得描述更为简洁,图中RPN的部分结构省略,具体可以参考图1。图3是字符之间的关系示意图,同一个颜色标记的字符之间的关系更加紧密,不同颜色标记的字符基本上是本文档来自技高网
...

【技术保护点】
1.一种基于受限注意力模型的字符检测网络训练方法,其特征在于,包括以下步骤:/n1)将训练数据输入骨干网络进行特征提取;/n2)将提取的特征输入字符RPN和单词RPN,进行第一阶段的回归预测和分类预测,并计算损失函数;/n3)根据字符RPN的输出,通过注意力网络计算字符之间的关系权重;/n4)根据字符RPN和单词RPN的输出,计算用于限制字符关系的受限关系矩阵;/n5)将关系权重与受限关系矩阵按元素对位相乘,得到受限关系权重;/n6)将受限关系权重与根据字符RPN获得的字符特征进行加权,得到加权字符特征;/n7)对加权字符特征进行第二阶段的回归预测和分类预测,获得字符检测结果,并计算损失函数;/n8)迭代步骤1)~7)直到网络收敛,得到训练完成的字符检测网络。/n

【技术特征摘要】
1.一种基于受限注意力模型的字符检测网络训练方法,其特征在于,包括以下步骤:
1)将训练数据输入骨干网络进行特征提取;
2)将提取的特征输入字符RPN和单词RPN,进行第一阶段的回归预测和分类预测,并计算损失函数;
3)根据字符RPN的输出,通过注意力网络计算字符之间的关系权重;
4)根据字符RPN和单词RPN的输出,计算用于限制字符关系的受限关系矩阵;
5)将关系权重与受限关系矩阵按元素对位相乘,得到受限关系权重;
6)将受限关系权重与根据字符RPN获得的字符特征进行加权,得到加权字符特征;
7)对加权字符特征进行第二阶段的回归预测和分类预测,获得字符检测结果,并计算损失函数;
8)迭代步骤1)~7)直到网络收敛,得到训练完成的字符检测网络。


2.根据权利要求1所述的方法,其特征在于,所述字符RPN的输出为字符RoI和字符提案的预测分数Sc,所述单词RPN的输出为单词RoI和单词提案的预测分数Sw。


3.根据权利要求1所述的方法,其特征在于,所述关系权重的计算方法为:



其中,wmn表示关系权重,m,n表示字符RoI的索引,WK,WQ表示注意力网络中的权重参数,是提取到的字符特征,是两个字符RoI经过编码之后得到的特征,sofitmax表示归一化指数函数,dk表示投影之后的特征的维度,即和的维度。


4.根据权利要求1所述的方法,其特征在于,所述受限关系矩阵的计算步骤包括:
a)对单词RoI依据单词RPN模块得到的预测分数Sw进行排序并放入队列,对于队列中的每一项i,计算它与之后的任意一项j之间的交并比,若交并比大于阈值θIoU,则第j项被移除队列;
b)对队列中剩下的单词RoI取前K项;
c)用p表示步骤b)处理后的单词RoI的数量,q表示字符RoI的数量,新建矩阵其中表示实数域中p×q维的矩阵;
d)对于第m个单词RoI以及第n个字符RoI,计算其交并比,如果交并比大于0,则P[m,n]=True;
e)对于第k个字符RoI,找到向量P[:,k]为真值的索引r存储到rt中;对于rt中的每一个r,计...

【专利技术属性】
技术研发人员:王伟平陈语地周宇杨东宝
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1