基于多重极坐标的自然场景下任意形状文本的检测方法技术

技术编号:27582702 阅读:19 留言:0更新日期:2021-03-09 22:40
本发明专利技术提供了一种基于多重极坐标的自然场景下任意形状文本的检测方法。首先,通过多重数据增强模块对训练样本和标签进行数据增强,并将增强后的图像输入至多尺度图像特征提取网络得到对应的语义特征图像;然后,将语义特征图像输入到文本中心线掩膜生成模块,得到文本中心线掩膜图像,再通过文本中心点提取模块从文本中心线掩膜图像中提取出文本中心点;接着,利用文本中心点与文本轮廓间距预测模块计算得到其在不同方向上之间的距离;最后,利用文本轮廓生成模块对文本中心点进行位置移动、连接移动后所有像素点,得到最终的文本轮廓。本发明专利技术能够在较低的硬件需求环境下,以较快的速度实现对自然场景下任意形状文本的高精度检测。精度检测。精度检测。

【技术实现步骤摘要】
基于多重极坐标的自然场景下任意形状文本的检测方法


[0001]本专利技术属计算机视觉、图形处理
,具体涉及一种基于多重极坐标的自然场景下任意形状文本的检测方法。

技术介绍

[0002]目前的文本检测方法主要分为两大类型:基于检测框架的方法和基于分割框架的方法。前者多集中在解决平行四边形文本的检测问题,其优点是检测速度相较于后者会比较快,硬件需求低,然而,实际生活中往往会碰到许多不规则形状的文本,此时基于检测框架的方法对这些不规则形状的文本实施检测时,则会产生较大的误差,无法真正的满足人类日常需求。后者的优势则在于可以对任意形状的文本进行检测,但这种方法在对任意形状文本进行检测时,通常将其视为像素级别的分类问题,在照片像素极高的今天,这类方法进行检测时所需的硬件内存较大,导致无法在一些轻量级的硬件设备上安装,而且执行速度慢,导致难以适用于实时性要求较高的应用场景。除此之外,这类方法在检测两个或多个距离比较近的文本时,容易将它们视为同一个文本,极容易导致文本粘连问题的产生。

技术实现思路

[0003]为了克服现有技术的不足,本专利技术提供一种基于多重极坐标的自然场景下任意形状文本的检测方法。首先,通过多重数据增强模块对训练样本和标签进行数据增强;接着,将增强后的图像输入至多尺度图像特征提取网络得到对应的语义特征图像,再将语义特征图像输入文本中心线掩膜生成模块,得到图像中所有的文本中心线掩膜;通过文本中心点提取模块从各个文本中心线掩膜中提取出对应的K个文本中心点,并根据文本中心点坐标位置从语义特征图像中提取出对应的像素位置特征值,输入到文本中心点与文本轮廓间距预测模块,得到文本中心点与文本轮廓分别在上、下、左、右、左上、右上、左下、右下8个方向上的距离;最后,将文本中心点坐标以及文本中心点与文本轮廓分别在上、下、左、右、左上、右上、左下、右下8个方向上的距离同时输入到文本轮廓生成模块中,得到最后的文本轮廓。本专利技术结合了基于检测框架和基于分割框架两种文本检测方法的优势,将自然场景下任意形状文本的检测问题建模为多目标回归问题,基于多重极坐标对文本轮廓点进行预测,完成自然场景下任意形状的文本检测。
[0004]一种基于多重极坐标的自然场景下任意形状文本的检测方法,其特征在于步骤如下:
[0005]步骤1:利用多重数据增强模块对输入图像、文本中心点坐标、文本中心点与文本轮廓之间在上、下、左、右、左上、右上、左下、右下8个方向上的距离分别进行数据增强处理,其中,以增强后的输入图像作为训练神经网络的样本,以增强后的文本中心点坐标、文本中心点与文本轮廓之间在上、下、左、右、左上、右上、左下、右下8个方向上的距离作为样本的标签;
[0006]步骤2:将增强后的图像输入到多尺度图像特征提取网络,得到语义特征图像;其
中所述的多尺度特征提取网络由ResNet网络后接FPN构成;
[0007]步骤3:将语义特征图像输入到文本中心线掩膜分割模块,输出得到图像中所有文本中心线掩膜,其中,文本中心线掩膜分割模块包括文本中心线掩膜分割网络和后处理模块两部分,将语义特征图像输入到文本中心线掩膜分割网络中,输出为预测的文本中心线掩膜图像,文本中心线掩膜图像输入到后处理模块,得到文本中心线掩膜;
[0008]所述的文本中心线掩膜分割网络由三个子层网络组成,第一子层网络由卷积层、BN层和ReLU层组成,第二子层网络为一个输出通道为1的卷积层,第三子层为激活函数Sigmoid层,第一子层网络对输入的语义特征图像进行平滑处理,接着通过第二子层网络得到文本中心线掩膜图像中每个像素是否属于文本像素的得分,最后通过第三子层将得分归一化至0~1区间内,得到所有像素是否属于文本像素的概率值;
[0009]所述的后处理模块的具体处理过程为:选择文本中心线掩膜图像中像素值大于0.5的像素构成文本中心线掩膜像素集合,提取集合中像素组成的各个连通区域,即得到图像中各个文本的中心线掩膜;
[0010]步骤4:利用文本中心点提取模块对各个文本中心线掩膜进行处理,得到各个文本的中心点,具体包括:
[0011]对于每个文本中心线掩膜,首先计算出所有像素之中横坐标的最大值与横坐标的最小值之间的差值,记为Lx,以及所有像素之中纵坐标的最大值与纵坐标的最小值之间的差值,记为Ly,如果Lx>Ly,按照计算得到该文本中心线掩膜的第k个中心点横坐标x
k
,在文本中心线掩膜上找到该横坐标对应像素的纵坐标y
k
,否则,按照计算得到该文本中心线掩膜的第k个中心点纵坐标y
k
,在文本中心线掩膜上找到该纵坐标对应像素的横坐标x
k
,(x
k
,y
k
)即为该文本中心线掩膜的第k个文本中心点坐标,其中,x
min
表示文本中心线掩膜所有像素横坐标的最小值,y
min
表示每个文本中心线掩膜所有像素纵坐标的最小值,k=1,2,

,K,K为设定的中心点个数,取值范围为[1,num
pts
],num
pts
为组成文本中心线掩膜所有像素点的个数;
[0012]步骤5:提取步骤2得到的语义特征图像中每个文本中心线掩膜中的K个文本中心点坐标位置处的像素点特征值,并将像素值输入到文本中心点与文本轮廓间距预测模块,得到每个文本中心点分别在上、下、左、右、左上、右上、左下、右下8个方向上与文本轮廓之间的比例距离,记为d1,d2,

,d8,并按照计算得到每个文本中心点与文本轮廓之间在8个方向上的真实距离,其中,k=1,2,

,8,h表示输入图像的高,w表示输入图像的宽;
[0013]所述的文本中心点与文本轮廓间距预测模块由三个子层网络构成,第一层子网络由主由卷积层、BN层和ReLU层组成,第二层子网络为一个输出通道为8的卷积层,第三层子网络为激活函数Sigmoid层;第一子层网络对从语义特征图像中提取出文本中心点对应坐标位置的像素点特征值进行平滑处理,接着通过第二子层网络得到每个文本中心点与文本轮廓之间分别在8个方向上的比例距离得分,最后通过第三子层将比例距离得分归一化至0~1区间内,从而得到每个文本中心点与文本轮廓之间分别在8个方向上的比例距离;
[0014]步骤6:利用文本轮廓生成模块对文本中心点与文本轮廓分别在上、下、左、右、左
上、右上、左下、右下8个方向上的真实距离进行处理,得到各个文本的轮廓,具体包括:
[0015]将每个文本中心线掩膜中的K个文本中心点分别由其坐标位置沿上、下、左、右、左上、右上、左下、右下8个方向移动步骤5所得到的相应的真实距离,每个文本中心点移动后得到8个新的像素点坐标,所有文本中心点均按此操作后得到的所有新的像素点坐标对应的像素即构成了文本的轮廓点集合,将这些轮廓点分别按照顺时针方向进行连接,得到文本轮廓。
[0016]本专利技术的有益效果:由于利用多重数据增强模块对样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多重极坐标的自然场景下任意形状文本的检测方法,其特征在于步骤如下:步骤1:利用多重数据增强模块对输入图像、文本中心点坐标、文本中心点与文本轮廓之间在上、下、左、右、左上、右上、左下、右下8个方向上的距离分别进行数据增强处理,其中,以增强后的输入图像作为训练神经网络的样本,以增强后的文本中心点坐标、文本中心点与文本轮廓之间在上、下、左、右、左上、右上、左下、右下8个方向上的距离作为样本的标签;步骤2:将增强后的图像输入到多尺度图像特征提取网络,得到语义特征图像;其中所述的多尺度特征提取网络由ResNet网络后接FPN构成;步骤3:将语义特征图像输入到文本中心线掩膜分割模块,输出得到图像中所有文本中心线掩膜,其中,文本中心线掩膜分割模块包括文本中心线掩膜分割网络和后处理模块两部分,将语义特征图像输入到文本中心线掩膜分割网络中,输出为预测的文本中心线掩膜图像,文本中心线掩膜图像输入到后处理模块,得到文本中心线掩膜;所述的文本中心线掩膜分割网络由三个子层网络组成,第一子层网络由卷积层、BN层和ReLU层组成,第二子层网络为一个输出通道为1的卷积层,第三子层为激活函数Sigmoid层,第一子层网络对输入的语义特征图像进行平滑处理,接着通过第二子层网络得到文本中心线掩膜图像中每个像素是否属于文本像素的得分,最后通过第三子层将得分归一化至0~1区间内,得到所有像素是否属于文本像素的概率值;所述的后处理模块的具体处理过程为:选择文本中心线掩膜图像中像素值大于0.5的像素构成文本中心线掩膜像素集合,提取集合中像素组成的各个连通区域,即得到图像中各个文本的中心线掩膜;步骤4:利用文本中心点提取模块对各个文本中心线掩膜进行处理,得到各个文本的中心点,具体包括:对于每个文本中心线掩膜,首先计算出所有像素之中横坐标的最大值与横坐标的最小值之间的差值,记为Lx,以及所有像素之中纵坐标的最大值与纵坐标的最小值之间的差值,记为Ly,如果Lx>Ly,按照计算得到该文本中心线掩膜的第k个中心点横坐标x
k
,在文本中心线掩膜上找到该横坐标对应像素的纵坐标y
k
,否则,按照计算得到该文本中心线掩膜的第k个中心点纵坐标y
k
,在文本中心线掩膜上找到该纵坐标对应像素的横坐标x<...

【专利技术属性】
技术研发人员:王琦杨创李学龙
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1