基于多尺度特征聚合的场景图像文字检测方法技术

技术编号:37271475 阅读:8 留言:0更新日期:2023-04-20 23:40
本发明专利技术公开了一种基于多尺度特征聚合的场景图像文字检测方法;其包括:提取不同尺度文本图像特征表示,同时获取文字嵌入表示;将多尺度文本图像特征表示聚合后输入堆叠的基于Transformer结构的编码器中,获得加强的多尺度图像特征表示;利用加强的多尺度图像特征表示进行文字嵌入表示的更新;初始化一组查询向量,将加强的多尺度图像特征表示恢复到二维图像特征,将查询向量、二维图像特征和更新的文字嵌入表示同输入解码器中,得到更新的查询向量,再对更新的查询向量与文字嵌入表示进行计算得到文字掩码,最后后处理得到文字检测结果。本发明专利技术方法用于场景文本检测准确度高,后处理简单,检测性能优越。检测性能优越。检测性能优越。

【技术实现步骤摘要】
基于多尺度特征聚合的场景图像文字检测方法


[0001]本专利技术涉及场景文本内容理解过程中的文字检测
,尤其涉及一种基于多尺度特征聚合的场景图像文字检测方法。

技术介绍

[0002]场景图像文字检测,是指对场景文本图片上的文字进行检测定位,获取到文字在图像中的具体位置。其中,自然场景的图片是指生活中的各种各样的场景图像,比如商品包装、门店招牌、菜单、车辆、屏幕和海报。场景文字检测是文字信息提取的第一步,在文字内容理解领域有着广泛的应用和研究前景。
[0003]受到通用的目标检测方法的启发,现有的场景文本检测器通过修改通用目标检测器的区域提议和边界框回归模块来直接定位文本实例。例如,TextBoxes文本检测方法使用一阶段的通用目标检测方法SSD,把默认框更改为适应文本的具有不同宽高比的四边形;RRPN模型将旋转因素并入经典区域候选网络,将一个文本区域表示为具有5元组(x,y,h,w,θ)的旋转边框,其中(x,y)表示边框的几何中心,h表示边框的短边,w为长边,θ是长边的方向。相比于通用物体,文本行长度、长宽比例变化范围很大。当文本图像中存在弯曲,定向或长文本时,模型的性能较差。此外,该类方法以单尺度图像作为输入,受限于感受野的大小,不能很好的检测出小字的位置区域。
[0004]目前基于分割的方法在场景文本检测领域很流行,基于分割的方法先在像素层面做分类,判别每一个像素点是否属于一个文本目标,再将相邻像素结果整合为一个文本框,该方法可以较好的适应弯曲的文本。但基于分割的方法需要复杂的后处理将像素级别的结果组合成文字行,在预测时开销往往很大。此外,该类方法需要额外设计相邻文字间的操作,否则容易出现文字黏连的现象。
[0005]现阶段也有文本检测方法采用了特征聚合的策略来提升文字检测模型的性能。一种策略对文本图像进行不同尺度的缩放,之后利用独立的检测模型对文字进行检测,将每个尺度的检测结果进行合并得到最后的文字检测结果。另一种策略如图1所示,特征提取模型从场景文本图像中获取多尺度的特征,最后对多尺度特征进行操作得到最终的文本检测结果。策略1提及的文本检测方法需要独立的检测模型得到每一个尺度的检测结果,最后对结果进行聚合,模型参数较大,比较冗余;策略2的方法,图像特征来自于同一尺度的文本图像,特征比较单一,检测结果比较容易遗漏部分文字。

技术实现思路

[0006]本专利技术提出了一种基于多尺度特征聚合的场景文字检测方法,主要缓解现阶段场景文本检测方法不能很好的处理弯曲文字,容易遗漏小字,后处理操作繁琐以及文字黏连的问题。
[0007]本专利技术的技术方案具体介绍如下。
[0008]本专利技术提供一种基于多尺度特征聚合的场景文字检测方法,其基于场景文字检测
模型进行检测,所述场景文字检测模型包括特征提取模块、堆叠的基于Transformer的编码器和基于Transformer的解码器;具体步骤如下:
[0009](1)对原始场景文本图像进行不同尺度的缩放;
[0010](2)利用特征提取模块对不同尺度的图像进行特征表示的提取,同时从最大尺度的图像中获取文字嵌入表示;
[0011](3)将不同尺度的图像特征表示连同位置编码一起输入堆叠的基于Transformer的编码器中,输出得到加强的多尺度图像特征表示;
[0012](4)将文字嵌入表示与加强的多尺度图像特征表示进行可变注意力计算,更新得到具有更丰富特征的文字嵌入表示;
[0013](5)初始化一组查询向量,同时将加强的多尺度图像特征表示恢复到二维图像特征,之后将查询向量、二维图像特征以及更新的文字嵌入表示一起输入基于Transformer的解码器中,输出得到更新的具有文字特征表示的查询向量;
[0014](6)基于更新的查询向量与更新的文字嵌入表示计算得到文字掩码,再经过后处理操作得到检测结果。
[0015]本专利技术中,步骤(2)中,特征提取模块由ViT模块,多个卷积层或者多个残差卷积块实现。
[0016]本专利技术中,步骤(3)中,每个Transformer的编码器单元包含一个多尺度可变形注意力模块和一个前向计算模块。
[0017]本专利技术中,步骤(6)中,文字掩码计算公式如下:
[0018][0019]其中,M
t
(i,j)表示通过第t个查询向量得到的位于(i,j)位置的文字掩码的值,sigmoid指sigmoid激活函数,MLP则用来增强查询向量Q
t
的非线性能力,E(i,j)表示更新后的文字嵌入表示中位于(i,j)位置的值。
[0020]本专利技术中,步骤(6)中,后处理操作具体为:利用非极大抑制算法过滤重复的文字掩码以及区域太小的掩码。
[0021]本专利技术中,场景文字检测模型训练时,损失函数L由掩码损失函数L
mask
和分类损失函数L
cls
两部分组成;其中,L
mask
是文本实例的掩码二值化损失,由bce损失和dice损失组成,而L
cls
是文本与非文本分类预测的损失;损失函数的表示为:L=L
mask

cls
L
cls
,其中,将当类别预测为文字时λ
cls
=0.4,预测为非文字时λ
cls
=0.02;
[0022]各个损失计算如下:
[0023][0024][0025]其中,N和K是查询向量的数量和采样的位置,和分别表示预测的值和真实的值;
[0026][0027]其中l
t
和p
t
分别表示查询向量Q
t
的类别的真实值和类别预测的概率值。
[0028]和现有技术相比,本专利技术的有益效果在于:多尺度的场景图像可以提供丰富的特征表示,相比于传统的基于单尺度的图像文本检测方法能够提升对小字的检测性能;设计了文字嵌入表示更新策略,能够更好的表示图像文本特征,进一步提升检测模型的性能;查询向量与更新的文字嵌入表示计算得到一系列的文本掩码,能够缓解文字黏连问题;相比于传统的文本检测方法需要对检测结果进行额外的计算处理,本专利技术仅仅需要过滤重复的文字掩码以及区域太小的掩码,后处理简单。
附图说明
[0029]图1:特征聚合策略2。
[0030]图2:场景图像文字检测结果图。
[0031]图3:基于多尺度特征聚合的场景文字检测方法。
[0032]图4:多尺度图像特征表示的加强与文字嵌入表示的更新流程图。
[0033]图5:解码过程图。
[0034]图6:最终结果获取过程。
具体实施方式
[0035]下面结合附图和实施例对本专利技术的技术方案进行详细介绍。
[0036]本专利技术中,基于场景文字检测模型对场景文字检测,场景文字检测模型包括特征提取模块、基于Transformer结构的编码器和解码器。
[0037]具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度特征聚合的场景文字检测方法,其特征在于,其基于场景文字检测模型进行检测,所述场景文字检测模型包括特征提取模块、堆叠的基于Transformer的编码器和基于Transformer的解码器;具体步骤如下:(1)对原始场景文本图像进行不同尺度的缩放;(2)利用特征提取模块对不同尺度的图像进行特征表示的提取,同时从最大尺度的图像中获取文字嵌入表示;(3)将不同尺度的图像特征表示连同位置编码一起输入堆叠的基于Transformer的编码器中,输出得到加强的多尺度图像特征表示;(4)将文字嵌入表示与加强的多尺度图像特征表示进行可变注意力计算,更新得到具有更丰富特征的文字嵌入表示;(5)初始化一组查询向量,同时将加强的多尺度图像特征表示恢复到二维图像特征,之后将查询向量、二维图像特征以及更新的文字嵌入表示一起输入基于Transformer的解码器中,输出得到更新的具有文字特征表示的查询向量;(6)基于最后更新得到的查询向量与更新的文字嵌入表示计算得到文字掩码,再经过后处理操作得到检测结果。2.根据权利要求1所述的场景文字检测方法,其特征在于,步骤(2)中,特征提取模块由ViT模块,多个卷积层或者多个残差卷积块实现。3.根据权利要求1所述的场景文字检测方法,其特征在于,步骤(3)中,每个Transformer的编码器单元包含一个多尺度可变形注意力模块和一个前向计算模块;不同尺度的图像特征表示连同位置编码输入基于Transformer的编码器中,多尺度可变形注意力模块对图像特征进行可变性注意力计算,将计算输出的结果与输入的多尺度图像特征进行相加和归一化操作,之后对相加归一化的结果输入前向计算模块,最后对前向计算模块的输入与输出进行相加与归一化操作,得到加强的多尺度图像特征表示。4.根据...

【专利技术属性】
技术研发人员:杜响成周钊郑莹斌金城
申请(专利权)人:上海兑观信息科技技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1