基于多重极坐标的自然场景下任意形状文本的检测方法技术

技术编号：27582702 阅读：19 留言：0更新日期：2021-03-09 22:40

本发明专利技术提供了一种基于多重极坐标的自然场景下任意形状文本的检测方法。首先,通过多重数据增强模块对训练样本和标签进行数据增强，并将增强后的图像输入至多尺度图像特征提取网络得到对应的语义特征图像；然后，将语义特征图像输入到文本中心线掩膜生成模块，得到文本中心线掩膜图像，再通过文本中心点提取模块从文本中心线掩膜图像中提取出文本中心点；接着，利用文本中心点与文本轮廓间距预测模块计算得到其在不同方向上之间的距离；最后，利用文本轮廓生成模块对文本中心点进行位置移动、连接移动后所有像素点，得到最终的文本轮廓。本发明专利技术能够在较低的硬件需求环境下，以较快的速度实现对自然场景下任意形状文本的高精度检测。精度检测。精度检测。

全部详细技术资料下载

【技术实现步骤摘要】
基于多重极坐标的自然场景下任意形状文本的检测方法

[0001]本专利技术属计算机视觉、图形处理
，具体涉及一种基于多重极坐标的自然场景下任意形状文本的检测方法。

技术介绍

[0002]目前的文本检测方法主要分为两大类型：基于检测框架的方法和基于分割框架的方法。前者多集中在解决平行四边形文本的检测问题，其优点是检测速度相较于后者会比较快，硬件需求低，然而，实际生活中往往会碰到许多不规则形状的文本，此时基于检测框架的方法对这些不规则形状的文本实施检测时，则会产生较大的误差，无法真正的满足人类日常需求。后者的优势则在于可以对任意形状的文本进行检测，但这种方法在对任意形状文本进行检测时，通常将其视为像素级别的分类问题，在照片像素极高的今天，这类方法进行检测时所需的硬件内存较大，导致无法在一些轻量级的硬件设备上安装，而且执行速度慢，导致难以适用于实时性要求较高的应用场景。除此之外，这类方法在检测两个或多个距离比较近的文本时，容易将它们视为同一个文本，极容易导致文本粘连问题的产生。

技术实现思路

[0003]为了克服现有技术的不足，本专利技术提供一种基于多重极坐标的自然场景下任意形状文本的检测方法。首先，通过多重数据增强模块对训练样本和标签进行数据增强；接着，将增强后的图像输入至多尺度图像特征提取网络得到对应的语义特征图像，再将语义特征图像输入文本中心线掩膜生成模块，得到图像中所有的文本中心线掩膜；通过文本中心点提取模块从各个文本中心线掩膜中提取出对应的K个文本中心点，并根据文本中心点坐标位置从语义特征图像...

【技术保护点】

【技术特征摘要】
1.一种基于多重极坐标的自然场景下任意形状文本的检测方法，其特征在于步骤如下：步骤1：利用多重数据增强模块对输入图像、文本中心点坐标、文本中心点与文本轮廓之间在上、下、左、右、左上、右上、左下、右下8个方向上的距离分别进行数据增强处理，其中，以增强后的输入图像作为训练神经网络的样本，以增强后的文本中心点坐标、文本中心点与文本轮廓之间在上、下、左、右、左上、右上、左下、右下8个方向上的距离作为样本的标签；步骤2：将增强后的图像输入到多尺度图像特征提取网络，得到语义特征图像；其中所述的多尺度特征提取网络由ResNet网络后接FPN构成；步骤3：将语义特征图像输入到文本中心线掩膜分割模块，输出得到图像中所有文本中心线掩膜，其中，文本中心线掩膜分割模块包括文本中心线掩膜分割网络和后处理模块两部分，将语义特征图像输入到文本中心线掩膜分割网络中，输出为预测的文本中心线掩膜图像，文本中心线掩膜图像输入到后处理模块，得到文本中心线掩膜；所述的文本中心线掩膜分割网络由三个子层网络组成，第一子层网络由卷积层、BN层和ReLU层组成，第二子层网络为一个输出通道为1的卷积层，第三子层为激活函数Sigmoid层，第一子层网络对输入的语义特征图像进行平滑处理，接着通过第二子层网络得到文本中心线掩膜图像中每个像素是否属于文本像素的得分，最后通过第三子层将得分归一化至0～1区间内，得到所有像素是否属于文本像素的概率值；所述的后处理模块的具体处理过程为：选择文本中心线掩膜图像中像素值大于0.5的像素构成文本中心线掩膜像素集合，提取集合中像素组成的各个连通区域，即得到图像中各个文本的中心线掩膜；步骤4：利用文本中心点提取模块对各个文本中心线掩膜进行处理，得到各个文本的中心点，具体包括：对于每个文本中心线掩膜，首先计算出所有像素之中横坐标的最大值与横坐标的最小值之间的差值，记为Lx，以及所有像素之中纵坐标的最大值与纵坐标的最小值之间的差值，记为Ly，如果Lx＞Ly，按照计算得到该文本中心线掩膜的第k个中心点横坐标x
k
，在文本中心线掩膜上找到该横坐标对应像素的纵坐标y
k
，否则，按照计算得到该文本中心线掩膜的第k个中心点纵坐标y
k
，在文本中心线掩膜上找到该纵坐标对应像素的横坐标x<...

【专利技术属性】
技术研发人员：王琦，杨创，李学龙，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人