当前位置: 首页 > 专利查询>贵州大学专利>正文

一种引入注意力机制的自然场景文本检测方法技术

技术编号:22565664 阅读:56 留言:0更新日期:2019-11-16 12:16
本发明专利技术公开了一种引入注意力机制的自然场景文本检测方法,该方法为:在利用PVANet网络进行下图像采样的过程中,利用中间的文本特征信息的空间关系生成空间注意力模块,空间注意力模块用来捕捉二维空间中对于目标区判定的重要性信息,每次卷积生成的特征信息为I∈R

A text detection method of natural scene with attention mechanism

The invention discloses a text detection method of natural scene which introduces attention mechanism. The method is: in the process of image sampling by using pvanet network, the spatial attention module is generated by using the spatial relationship of the middle text feature information, the spatial attention module is used to capture the importance information of target area determination in two-dimensional space, and the feature generated by each convolution Information is I \u2208 R

【技术实现步骤摘要】
一种引入注意力机制的自然场景文本检测方法
本专利技术涉及一种引入注意力机制的自然场景文本检测方法,属于文本检测方法

技术介绍
基于原始检测目标的分类策略主要有基于角色的检测算法,其过程为首先检测单个字符或文本的一部分,然后将其分组成一个单词。基于字的检测方法:它是与一般物体检测类似的方式直接提取文本。基于文本行的检测算法:该方法首先检测文本行,然后再分逐个分成单词。基于目标边界框形状的分类策略的检测方法可以分为两类,第一类为水平或接近水平的检测方法,这类方法专注于检测图像中的水平或接近水平的文本。第二类为多方向的检测方法,与水平或接近水平检测方法相比,多方向的文本检测更加稳健,因为自然场景下的文本可以在图像中处于任意方向,这类的主要研究方法有利用检测多方向文本的旋转不变特征,首先在特征计算之前估计检测目标的中心、比例、方向信息,然后根据尺寸变化、颜色自相似性和结构自相似性进行链级特征。而EAST算法中提出了一种快速、准确的场景文本检测流水线,该流水线只有两个阶段。管道采用完全卷积网络(FCN)模型,直接生成字或文本行级别的预测,不包括冗余和缓慢的中间步骤。生成的文本预测,可以是旋转的矩形或四边形,发送到非最大抑制以产生最终结果,如图2所示,该方法存在提取长文本受限,长文本的检测效果差。
技术实现思路
本专利技术要解决的技术问题是:提供一种引入注意力机制的自然场景文本检测方法,以解决上述现有技术中存在的问题。本专利技术采取的技术方案为:一种引入注意力机制的自然场景文本检测方法,该方法为:在利用PVANet网络进行下图像采样的过程中,利用中间的文本特征信息的空间关系生成空间注意力模块,空间注意力模块用来捕捉二维空间中对于目标区判定的重要性信息,每次卷积生成的特征信息为I∈R1×H×W,并经过sgmod函数激活,其表达式为:WS(I)=σf7×7Pool(I)(4)其中f7×7为卷积操作,卷积核为7×7的卷积层,在图像采样的过程中通过unpool池化的方式提取特征用于对目标位特征的逼近生成通道注意力模块,然后经过共享网络MLP进行调整,其表达式为:WC(I′)=σMLP(unpool(I))=σW1W0I′(5)式中σ为singmod激活函数,W0∈RC/r×C和W1∈RC×C/r分别为MLP的权重,最后在特征融合的过程中,将通道注意力权重和空间注意力权重构成整个分支注意力模型,其过程表示为:I′=(WS(I)+1)⊙I(6)I″=(WC(I′)+1)⊙I′(7)式中⊙为对应矩阵元素相乘,由于每个模块最后都需要使用sigmod函数来激活,使注意力通道每个元素值在[0,1]之间,达到注意力模块强化有用图像信息和抑制无用信息的效果。本专利技术的有益效果:与现有技术相比,本专利技术针对EAST算法在对于文本方向特征提取时视野受限的问题,通过在主干网络PVANet中引入注意力机制,获得一种Attention-EAST检测方法,使得训练模型在提取文本目标特征时更加关注有用信息和抑制无用信息,实验证明该方法有效提升了EAST算法检测长文本的能力,在没有损失检测效率的同时提升了检测精度。附图说明图1是目标检测算法基本流程图;图2是EAST算法结构图;图3是Attention-EAST算法结构图;图4是EAST算法长文本检测效果图;图5是Attention-EAST算法长文本检测效果图。具体实施方式下面结合附图及具体的实施例对本专利技术进行进一步介绍。视觉注意的可行性主要归功于合理的假设,即人类视觉不会立即整体处理整个图像;相反,人们只在需要的时间和地点专注于整个视觉空间的选择性部分。具体而言,注意力不是将图像编码成静态矢量,而是允许图像特征从手边的句子上下文演化,从而导致对杂乱图像的更丰富和更长的描述。通过这种方式,视觉注意力可以被视为一种动态特征提取机制,它随着时间的推移结合了上下文定位。当在描述图像中检测目标的特征和信息的图像处理任务中加入注意力机制,注意力模块需要处理的特征信息包含明确的序列项a={a1,a2,a3,…,aL},ai∈RD,其中L代表特征向量的个数,D代表的是空间维度。因此所采用的注意力机制需要计算出当前时刻t每个特征向量ai的权重αt,i,公式如下:eti=fatt(ai,ht-1)(1)其中,fatt()代表多层感知机,eti代表中间变量,ht-1代表的是上个时刻的隐含状态,k代表特征向量的下标。计算出权重后,模型就可以对输入的序列a进行筛选,得到筛选后的序列项为:最终收函数μ来决定该注意机制是硬注意力还是软注意力。实施例1:如图3-图5所示,一种引入注意力机制的自然场景文本检测方法,该方法为:在利用PVANet网络进行下图像采样的过程中,利用中间的文本特征信息的空间关系生成空间注意力模块,空间注意力模块用来捕捉二维空间中对于目标区判定的重要性信息,每次卷积生成的特征信息为I∈R1×H×W,并经过sgmod函数激活,其表达式为:WS(I)=σf7×7Pool(I)(4)其中f7×7为卷积操作,卷积核为7×7的卷积层,在图像采样的过程中通过unpool池化的方式提取特征用于对目标位特征的逼近生成通道注意力模块,然后经过共享网络MLP进行调整,其表达式为:WC(I′)=σMLP(unpool(I))=σW1W0I′(5)式中σ为singmod激活函数,W0∈RC/r×C和W1∈RC×C/r分别为MLP的权重,最后在特征融合的过程中,将通道注意力权重和空间注意力权重构成整个分支注意力模型,其过程表示为:I′=(WS(I)+1)⊙I(6)I″=(WC(I′)+1)⊙I′(7)式中⊙为对应矩阵元素相乘,由于每个模块最后都需要使用sigmod函数来激活,使注意力通道每个元素值在[0,1]之间,达到注意力模块强化有用图像信息和抑制无用信息的效果。本专利技术的文件检测方法中损失函数为:L=Ls+λgLg(8)其中,Ls和Lg分别表示分数图和几何图形的损失,而λg表示两个损失之间的重要性。在专利技术中,将λg设为1,为了简化训练过程,本专利技术引入的类平衡交叉熵:其中是分数图的预测值,Y*是基本的真实值。参数β是正负样本之间的平衡因子,由下式得出:为了使大文本区域和小文本区域生成精确的几何预测,保持回归损失尺度不变,旋转矩形框RBox回归部分采用IoU损失函数,因为它对不同尺度的对象是固定,其表达式为:其中表示为预测的几何形状,R*是其对应的真实形状,相交矩形的宽度和高度分别为:其中d1,d2,d3和d4分别表示像素到其对应矩形的上、右、下和左边界的距离。联合区由以下公式给出:由此计算交叉或者联合区域,旋转角损失计算如下:式中,是对旋转角度的预测,θ*表示实际值。最本文档来自技高网...

【技术保护点】
1.一种引入注意力机制的自然场景文本检测方法,其特征在于:该方法为:在利用PVANet网络进行下图像采样的过程中,利用中间的文本特征信息的空间关系生成空间注意力模块,空间注意力模块用来捕捉二维空间中对于目标区判定的重要性信息,每次卷积生成的特征信息为I∈R

【技术特征摘要】
1.一种引入注意力机制的自然场景文本检测方法,其特征在于:该方法为:在利用PVANet网络进行下图像采样的过程中,利用中间的文本特征信息的空间关系生成空间注意力模块,空间注意力模块用来捕捉二维空间中对于目标区判定的重要性信息,每次卷积生成的特征信息为I∈R1×H×W,并经过sgmod函数激活,其表达式为:
WS(I)=σf7×7Pool(I)(4)
其中f7×7为卷积操作,卷积核为7×7的卷积层,在图像采样的过程中通过unpool池化的方式提取特征用于对目标位特征的逼近生...

【专利技术属性】
技术研发人员:牛作东李捍东
申请(专利权)人:贵州大学
类型:发明
国别省市:贵州;52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1