一种引入注意力机制的自然场景文本检测方法技术

技术编号：22565664 阅读：56 留言：0更新日期：2019-11-16 12:16

本发明专利技术公开了一种引入注意力机制的自然场景文本检测方法，该方法为：在利用PVANet网络进行下图像采样的过程中，利用中间的文本特征信息的空间关系生成空间注意力模块，空间注意力模块用来捕捉二维空间中对于目标区判定的重要性信息，每次卷积生成的特征信息为I∈R

A text detection method of natural scene with attention mechanism

The invention discloses a text detection method of natural scene which introduces attention mechanism. The method is: in the process of image sampling by using pvanet network, the spatial attention module is generated by using the spatial relationship of the middle text feature information, the spatial attention module is used to capture the importance information of target area determination in two-dimensional space, and the feature generated by each convolution Information is I \u2208 R

全部详细技术资料下载

【技术实现步骤摘要】
一种引入注意力机制的自然场景文本检测方法
本专利技术涉及一种引入注意力机制的自然场景文本检测方法，属于文本检测方法

技术介绍
基于原始检测目标的分类策略主要有基于角色的检测算法，其过程为首先检测单个字符或文本的一部分，然后将其分组成一个单词。基于字的检测方法：它是与一般物体检测类似的方式直接提取文本。基于文本行的检测算法：该方法首先检测文本行，然后再分逐个分成单词。基于目标边界框形状的分类策略的检测方法可以分为两类，第一类为水平或接近水平的检测方法，这类方法专注于检测图像中的水平或接近水平的文本。第二类为多方向的检测方法，与水平或接近水平检测方法相比，多方向的文本检测更加稳健，因为自然场景下的文本可以在图像中处于任意方向，这类的主要研究方法有利用检测多方向文本的旋转不变特征，首先在特征计算之前估计检测目标的中心、比例、方向信息，然后根据尺寸变化、颜色自相似性和结构自相似性进行链级特征。而EAST算法中提出了一种快速、准确的场景文本检测流水线，该流水线只有两个阶段。管道采用完全卷积网络(FCN)模型，直接生成字或文本行级别的预测，不包括冗余和缓慢的中间步骤。生成的文本预测，可以是旋转的矩形或四边形，发送到非最大抑制以产生最终结果，如图2所示，该方法存在提取长文本受限，长文本的检测效果差。
技术实现思路
本专利技术要解决的技术问题是：提供一种引入注意力机制的自然场景文本检测方法，以解决上述现有技术中存在的问题。本专利技术采取的技术方案为：一种引入注意力机制的自然场景文本检测方...

【技术保护点】
1.一种引入注意力机制的自然场景文本检测方法，其特征在于：该方法为：在利用PVANet网络进行下图像采样的过程中，利用中间的文本特征信息的空间关系生成空间注意力模块，空间注意力模块用来捕捉二维空间中对于目标区判定的重要性信息，每次卷积生成的特征信息为I∈R

【技术特征摘要】
1.一种引入注意力机制的自然场景文本检测方法，其特征在于：该方法为：在利用PVANet网络进行下图像采样的过程中，利用中间的文本特征信息的空间关系生成空间注意力模块，空间注意力模块用来捕捉二维空间中对于目标区判定的重要性信息，每次卷积生成的特征信息为I∈R1×H×W，并经过sgmod函数激活，其表达式为：
WS(I)＝σf7×7Pool(I)(4)
其中f7×7为卷积操作，卷积核为7×7的卷积层，在图像采样的过程中通过unpool池化的方式提取特征用于对目标位特征的逼近生...

【专利技术属性】
技术研发人员：牛作东，李捍东，
申请(专利权)人：贵州大学，
类型：发明
国别省市：贵州;52

全部详细技术资料下载我是这个专利的主人