基于序列变形的场景文字检测方法及系统技术方案

技术编号:28758673 阅读:15 留言:0更新日期:2021-06-09 10:32
本发明专利技术公开一种基于序列变形的场景文字检测方法及系统。所述方法及系统包括:特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x,并发送至序列变形模块;序列变形模块通过对第一特征图x进行迭代采样,得到采样位置对应的特征图,并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m,并发送至辅助字符计数网络;序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图,并发送至目标检测基准网络;目标检测基准网络通过对第三特征图进行文本区域候选框提取,并通过回归拟合得到文本区域预测结果作为场景文字检测结果。果作为场景文字检测结果。果作为场景文字检测结果。

【技术实现步骤摘要】
基于序列变形的场景文字检测方法及系统


[0001]本专利技术涉及信息处理
,属于与图像处理、计算机视觉、机器学习相关的技术子领域,具体来讲,是一种采用深层神经网络设计实现的场景文字检测方法及系统,其中具有序列变形模块和辅助字符计数监督学习机制。

技术介绍

[0002]近年来,基于深层神经网络(又称深度学习)的场景文字检测技术取得了极大的进步,卷积神经网络被广泛地应用于场景文字检测系统中。然而,由于文字在文种、尺度、方向、形状和长宽比等方面变化多样,以及卷积神经网络的感受野对几何变形建模具有内在局限性,非受控条件下的场景文字检测技术仍然是一个开放的问题,特别是对任意形状文本区域进行文字检测具有较大的难度,例如,场景图像中出现弯曲形状的文本。
[0003]已有的深度学习场景文字检测方法大致可分为两类,一类是实例层次检测方法,将文本实例(单词或者文本行)作为一类物体,采用通用物体检测框架,如Faster R-CNN、SSD,但这些方法的性能受限于卷积的固定感受野,因而对较大几何变形的建模能力尚显不足;另一类是组件层次检测方法,着眼于文本组件(例如文本段,字符,笔画或者最细颗粒度的像素)而不是整个文本实例的检测,但需要额外的组件聚合等后处理步骤,比如像素聚合或字符块连接,这些方法的性能也受组件预测错误的影响,并且由于这些方法往往需要较为繁琐的后处理步骤,不便进行端到端的一体式优化训练。
[0004]上述对
技术介绍
的陈述仅是为了方便对本专利技术技术方案(使用的技术手段、解决的技术问题以及产生的技术效果等方面)的深入理解,而不应当被视为承认或以任何形式暗示该消息构成已为本领域技术人员所公知的现有技术。

技术实现思路

[0005]本专利技术旨在至少一定程度上解决上述问题,为此提供一种基于序列变形模块和辅助字符计数监督学习机制的场景文字检测方法及系统,所述方法及系统包括特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络。
[0006]所述特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x,并将第一特征图x发送至序列变形模块;
[0007]所述序列变形模块通过对输入的第一特征图x的每一像素点通过预测偏移量进行迭代采样,得到采样位置对应的特征图,并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m,将第二特征图m发送至辅助字符计数网络;
[0008]所述序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图,并将第三特征图发送至目标检测基准网络;
[0009]所述目标检测基准网络通过对输入的第三特征图进行文本区域候选框提取,并通过回归拟合得到文本区域预测结果,作为场景文字检测结果。
[0010]优选地,在训练阶段,目标检测基准网络采用多种目标函数,利用深层神经网络误差反向传播机制,运用梯度下降法调整神经网络节点参数进行训练,所述多种目标函数包括文本区域分类和文本区域包围框回归的目标函数;在训练阶段,还利用样本真值区域框信息对目标检测基准网络中的文本区域候选框进行选择,将与真值区域框匹配的正候选框的中心位置用于选取第二特征图m上的特征序列,并发送至辅助字符计数网络。
[0011]优选地,所述辅助字符计数网络对第二特征图m上正候选框内的选取的特征序列进行字符序列建模,预测生成内容无关字符序列;所述辅助字符计数网络的目标函数采用深度学习序列建模中常用的负对数似然函数,利用对应文本区域真实文本标签的内容无关字符信息,对内容无关字符序列预测结果构建目标函数,由此形成辅助字符计数监督学习机制;所述辅助字符计数网络的目标函数与目标检测基准网络的目标函数共同参与训练,从而辅助引导序列变形模块适应各种文本区域的变形。
[0012]优选地,所述第一特征图x为大小H
×
W
×
C的矩阵,其中,H为特征图高度,W为特征图宽度,C为特征图通道数。
[0013]优选地,所述序列变形模块由两个单独的序列采样网络和一个卷积核大小为1
×
1、卷积核个数为的卷积层构成;每个序列采样网络由一个双线性采样器,一个循环神经网络和一个线性层构成;两个单独的序列采样网络从第一特征图x上的同一个起始位置p出发,沿两个不同的方向对特征进行采样;在每个时间步t,给定一个序列采样网络,当前位置为第一特征图x上的起始位置p加上当前累积偏移量p
d,t
,双线性采样器对当前位置p+p
d,t
输出采样的特征x(p+p
d,t
);0≤时间步t≤T,T表示预先设定的迭代次数,d表示从起始位置的方向,d=1,2;循环神经网络以采样的特征x(p+p
d,t
)作为输入,生成隐含状态h
d,t
;线性层以隐含状态h
d,t
作为输入,预测相对于当前位置p+p
d,t
的二维向量形式的偏移量Δp
d,t
;新的累积偏移量p
d,t+1
通过将预测偏移量Δp
d,t
加至当前累积偏移量p
d,t
得到;进一步地,以第一特征图x和所有采样特征图拼接得到的第二特征图m,通过在通道数为(2T+1)
·
C的第二特征图m上选取特定位置的特征向量,并改变特征向量的形状得到一个长度为2T+1且通道数为C的特征序列,将选取位置处的特征序列作为所述辅助字符计数网络的输入;对第二特征图m的通道维度上进行特征聚合操作得到第三特征图,特征聚合操作利用一个卷积核大小为1
×
1、卷积核个数为的卷积层实现,卷积核个数为k设为与第二特征图通道数(2T+1)
·
C相同。
[0014]优选地,所述辅助字符计数网络为深度学习中的序列到序列模型所述辅助字符计数网络通过在通道数为(2T+1)
·
C的中间特征图m上选取特定位置的特征向量,并改变特征向量的形状得到一个长度为2T+1且通道数为C的特征序列,构成所述辅助字符计数网络的特征输入。
[0015]优选地,所述辅助字符计数网络采用单层多头的自注意力解码器,其中,所述辅助字符计数网络输入特征序列,并输入起始符号<SOS>或前一时刻预测的符号,从而输出下一个预测的符号,直到网络输出终止符号<EOS>。
[0016]本专利技术采取以上技术方案,利用包括特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络的整个模型在无复杂后处理步骤的情况下,可通过基于深度学习的端到端多任务优化训练进行模型参数的学习,即训练过程中多任务目标函数包括目标检测基准网络的文本区域分类和文本区域包围框回归的目标函数,以及辅助字符计数网络的
内容无关字符序列预测目标函数,最终实现可适应多种文本区域变形的场景文字检测系统。
附图说明
[0017]下文将结合附图对本专利技术的示例性实施例进行更为详本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于序列变形模块和辅助字符计数监督学习机制的场景文字检测方法,其特征在于,包括特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络;所述特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x,并将第一特征图x发送至序列变形模块;所述序列变形模块通过对输入的第一特征图x的每一像素点通过预测偏移量进行迭代采样,得到采样位置对应的特征图,并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m,将第二特征图m发送至辅助字符计数网络;所述序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图,并将第三特征图发送至目标检测基准网络;所述目标检测基准网络通过对输入的第三特征图进行文本区域候选框提取,并通过回归拟合得到文本区域预测结果,作为场景文字检测结果。2.根据权利要求1所述的方法,其特征在于,在训练阶段,目标检测基准网络采用多种目标函数,利用深层神经网络误差反向传播机制,运用梯度下降法调整神经网络节点参数进行训练,所述多种目标函数包括文本区域分类和文本区域包围框回归的目标函数;在训练阶段,还利用样本真值区域框信息对目标检测基准网络中的文本区域候选框进行选择,将与真值区域框匹配的正候选框的中心位置用于选取第二特征图m上的特征序列,并发送至辅助字符计数网络。3.根据权利要求1所述的方法,其特征在于,所述辅助字符计数网络对第二特征图m上正候选框内的选取的特征序列进行字符序列建模,预测生成内容无关字符序列;所述辅助字符计数网络的目标函数采用深度学习序列建模中常用的负对数似然函数,利用对应文本区域真实文本标签的内容无关字符信息,对内容无关字符序列预测结果构建目标函数,由此形成辅助字符计数监督学习机制;所述辅助字符计数网络的目标函数与目标检测基准网络的目标函数共同参与训练,从而辅助引导序列变形模块适应各种文本区域的变形。4.根据权利要求1所述的方法,其特征在于,所述第一特征图x为大小H
×
W
×
C的矩阵,其中,H为特征图高度,W为特征图宽度,C为特征图通道数。5.根据权利要求1所述的方法,其特征在于,所述序列变形模块由两个单独的序列采样网络和一个卷积核大小为1
×
1、卷积核个数为k的卷积层构成;每个序列采样网络由一个双线性采样器,一个循环神经网络和一个线性层构成;两个单独的序...

【专利技术属性】
技术研发人员:彭良瑞肖善誉闫睿劼姚刚王生进闵载植石宗烨
申请(专利权)人:现代自动车株式会社起亚自动车株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1