基于多尺度特征聚合的场景图像文字检测方法技术

技术编号：37271475 阅读：8 留言：0更新日期：2023-04-20 23:40

本发明专利技术公开了一种基于多尺度特征聚合的场景图像文字检测方法；其包括：提取不同尺度文本图像特征表示，同时获取文字嵌入表示；将多尺度文本图像特征表示聚合后输入堆叠的基于Transformer结构的编码器中，获得加强的多尺度图像特征表示；利用加强的多尺度图像特征表示进行文字嵌入表示的更新；初始化一组查询向量，将加强的多尺度图像特征表示恢复到二维图像特征，将查询向量、二维图像特征和更新的文字嵌入表示同输入解码器中，得到更新的查询向量，再对更新的查询向量与文字嵌入表示进行计算得到文字掩码，最后后处理得到文字检测结果。本发明专利技术方法用于场景文本检测准确度高，后处理简单，检测性能优越。检测性能优越。检测性能优越。

全部详细技术资料下载

【技术实现步骤摘要】
基于多尺度特征聚合的场景图像文字检测方法

[0001]本专利技术涉及场景文本内容理解过程中的文字检测
，尤其涉及一种基于多尺度特征聚合的场景图像文字检测方法。

技术介绍

[0002]场景图像文字检测，是指对场景文本图片上的文字进行检测定位，获取到文字在图像中的具体位置。其中，自然场景的图片是指生活中的各种各样的场景图像，比如商品包装、门店招牌、菜单、车辆、屏幕和海报。场景文字检测是文字信息提取的第一步，在文字内容理解领域有着广泛的应用和研究前景。
[0003]受到通用的目标检测方法的启发，现有的场景文本检测器通过修改通用目标检测器的区域提议和边界框回归模块来直接定位文本实例。例如，TextBoxes文本检测方法使用一阶段的通用目标检测方法SSD，把默认框更改为适应文本的具有不同宽高比的四边形；RRPN模型将旋转因素并入经典区域候选网络，将一个文本区域表示为具有5元组(x,y,h,w,θ)的旋转边框，其中(x,y)表示边框的几何中心,h表示边框的短边，w为长边，θ是长边的方向。相比于通用物体，文本行长度、长宽比例变化范围很大。当文本图像中存在弯曲，定向或长文本时，模型的性能较差。此外，该类方法以单尺度图像作为输入，受限于感受野的大小，不能很好的检测出小字的位置区域。
[0004]目前基于分割的方法在场景文本检测领域很流行，基于分割的方法先在像素层面做分类，判别每一个像素点是否属于一个文本目标，再将相邻像素结果整合为一个文本框，该方法可以较好的适应弯曲的文本。但基于分割的方法需要复杂的后处理将像素级...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度特征聚合的场景文字检测方法，其特征在于，其基于场景文字检测模型进行检测，所述场景文字检测模型包括特征提取模块、堆叠的基于Transformer的编码器和基于Transformer的解码器；具体步骤如下：(1)对原始场景文本图像进行不同尺度的缩放；(2)利用特征提取模块对不同尺度的图像进行特征表示的提取，同时从最大尺度的图像中获取文字嵌入表示；(3)将不同尺度的图像特征表示连同位置编码一起输入堆叠的基于Transformer的编码器中，输出得到加强的多尺度图像特征表示；(4)将文字嵌入表示与加强的多尺度图像特征表示进行可变注意力计算，更新得到具有更丰富特征的文字嵌入表示；(5)初始化一组查询向量，同时将加强的多尺度图像特征表示恢复到二维图像特征，之后将查询向量、二维图像特征以及更新的文字嵌入表示一起输入基于Transformer的解码器中，输出得到更新的具有文字特征表示的查询向量；(6)基于最后更新得到的查询向量与更新的文字嵌入表示计算得到文字掩码，再经过后处理操作得到检测结果。2.根据权利要求1所述的场景文字检测方法，其特征在于，步骤(2)中，特征提取模块由ViT模块，多个卷积层或者多个残差卷积块实现。3.根据权利要求1所述的场景文字检测方法，其特征在于，步骤(3)中，每个Transformer的编码器单元包含一个多尺度可变形注意力模块和一个前向计算模块；不同尺度的图像特征表示连同位置编码输入基于Transformer的编码器中，多尺度可变形注意力模块对图像特征进行可变性注意力计算，将计算输出的结果与输入的多尺度图像特征进行相加和归一化操作，之后对相加归一化的结果输入前向计算模块，最后对前向计算模块的输入与输出进行相加与归一化操作，得到加强的多尺度图像特征表示。4.根据...

【专利技术属性】
技术研发人员：杜响成，周钊，郑莹斌，金城，
申请(专利权)人：上海兑观信息科技技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人