基于序列变形的场景文字检测方法及系统技术方案

技术编号：28758673 阅读：15 留言：0更新日期：2021-06-09 10:32

本发明专利技术公开一种基于序列变形的场景文字检测方法及系统。所述方法及系统包括：特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x，并发送至序列变形模块；序列变形模块通过对第一特征图x进行迭代采样，得到采样位置对应的特征图，并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m，并发送至辅助字符计数网络；序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图，并发送至目标检测基准网络；目标检测基准网络通过对第三特征图进行文本区域候选框提取，并通过回归拟合得到文本区域预测结果作为场景文字检测结果。果作为场景文字检测结果。果作为场景文字检测结果。

全部详细技术资料下载

【技术实现步骤摘要】
基于序列变形的场景文字检测方法及系统

[0001]本专利技术涉及信息处理
，属于与图像处理、计算机视觉、机器学习相关的技术子领域，具体来讲，是一种采用深层神经网络设计实现的场景文字检测方法及系统，其中具有序列变形模块和辅助字符计数监督学习机制。

技术介绍

[0002]近年来，基于深层神经网络(又称深度学习)的场景文字检测技术取得了极大的进步，卷积神经网络被广泛地应用于场景文字检测系统中。然而，由于文字在文种、尺度、方向、形状和长宽比等方面变化多样，以及卷积神经网络的感受野对几何变形建模具有内在局限性，非受控条件下的场景文字检测技术仍然是一个开放的问题，特别是对任意形状文本区域进行文字检测具有较大的难度，例如，场景图像中出现弯曲形状的文本。
[0003]已有的深度学习场景文字检测方法大致可分为两类，一类是实例层次检测方法，将文本实例(单词或者文本行)作为一类物体，采用通用物体检测框架，如Faster R-CNN、SSD，但这些方法的性能受限于卷积的固定感受野，因而对较大几何变形的建模能力尚显不足；另一类是组件层次检测方法，着眼于文本组件(例如文本段，字符，笔画或者最细颗粒度的像素)而不是整个文本实例的检测，但需要额外的组件聚合等后处理步骤，比如像素聚合或字符块连接，这些方法的性能也受组件预测错误的影响，并且由于这些方法往往需要较为繁琐的后处理步骤，不便进行端到端的一体式优化训练。
[0004]上述对
技术介绍
的陈述仅是为了方便对本专利技术技术方案(使用的技术手段、解决的技术问题以及产生的技术效果等方...

【技术保护点】

【技术特征摘要】
1.一种基于序列变形模块和辅助字符计数监督学习机制的场景文字检测方法，其特征在于，包括特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络；所述特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x，并将第一特征图x发送至序列变形模块；所述序列变形模块通过对输入的第一特征图x的每一像素点通过预测偏移量进行迭代采样，得到采样位置对应的特征图，并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m，将第二特征图m发送至辅助字符计数网络；所述序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图，并将第三特征图发送至目标检测基准网络；所述目标检测基准网络通过对输入的第三特征图进行文本区域候选框提取，并通过回归拟合得到文本区域预测结果，作为场景文字检测结果。2.根据权利要求1所述的方法，其特征在于，在训练阶段，目标检测基准网络采用多种目标函数，利用深层神经网络误差反向传播机制，运用梯度下降法调整神经网络节点参数进行训练，所述多种目标函数包括文本区域分类和文本区域包围框回归的目标函数；在训练阶段，还利用样本真值区域框信息对目标检测基准网络中的文本区域候选框进行选择，将与真值区域框匹配的正候选框的中心位置用于选取第二特征图m上的特征序列，并发送至辅助字符计数网络。3.根据权利要求1所述的方法，其特征在于，所述辅助字符计数网络对第二特征图m上正候选框内的选取的特征序列进行字符序列建模，预测生成内容无关字符序列；所述辅助字符计数网络的目标函数采用深度学习序列建模中常用的负对数似然函数，利用对应文本区域真实文本标签的内容无关字符信息，对内容无关字符序列预测结果构建目标函数，由此形成辅助字符计数监督学习机制；所述辅助字符计数网络的目标函数与目标检测基准网络的目标函数共同参与训练，从而辅助引导序列变形模块适应各种文本区域的变形。4.根据权利要求1所述的方法，其特征在于，所述第一特征图x为大小H
×
W
×
C的矩阵，其中，H为特征图高度，W为特征图宽度，C为特征图通道数。5.根据权利要求1所述的方法，其特征在于，所述序列变形模块由两个单独的序列采样网络和一个卷积核大小为1
×
1、卷积核个数为k的卷积层构成；每个序列采样网络由一个双线性采样器，一个循环神经网络和一个线性层构成；两个单独的序...

【专利技术属性】
技术研发人员：彭良瑞，肖善誉，闫睿劼，姚刚，王生进，闵载植，石宗烨，
申请(专利权)人：现代自动车株式会社起亚自动车株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人