一种基于字符区域感知的场景文本检测方法技术

技术编号:25309713 阅读:22 留言:0更新日期:2020-08-18 22:28
本发明专利技术公开一种基于字符区域感知的场景文本检测方法,包括S1、构建全卷积的神经网络模型,所述全卷积的神经网络模型最终输出两个通道:一个是用来定位图像中单个字符区域的region score;另一个是用来把每一个字符进行分组并关联到一个完整实例中的affinity score;S2、基于弱监督学习方法训练所述全卷积的神经网络模型,使用弱监督学习框架拟合真实的字符级别标注GT等3个步骤,本发明专利技术针对自然场景下任意复杂形状的文本实例的文本检测问题,提出了一种基于字符区域感知,并创造性地提出利用弱监督方法进行学习以精准定位单个字符区域,文本检测准确度高、速度快、泛化能力强、鲁棒性强。

【技术实现步骤摘要】
一种基于字符区域感知的场景文本检测方法
本专利技术涉及计算机视觉
,尤其涉及一种基于字符区域感知的场景文本检测方法。
技术介绍
随着场景文本检测的在众多领域的应用,例如即时翻译、图像检索、场景解析、地理位置等等,使其在计算机视觉领域引起了很大的关注。近来,一些基于深度学习的场景文本检测方法成为焦点,这些方法主要通过定位单词级别边界框来训练他们的网络。但因此对检测单词的范围的定义也就非常重要,例如单词可以通过含义、空格、颜色等等各种标准分割,可见单词边界不能被严格定义,故用这些方法经常会遇到一些棘手的情况,比如弯曲,变形或极长的文本,很难使用单个边框检测到。另外,利用自下而上的方式来连接连续的字符以处理任意形状的文本时,字符级别区域感知具有许多优点。但对于深度学习网络的训练,是需要大量带标签的数据的,而目前大多数现有文本数据集都没有提供字符级别的注释标签,且常规方法获得字符级别标签所需的工作成本也很高。
技术实现思路
针对上述问题,本专利技术提出一种基于字符区域感知的场景文本检测方法,主要解决
技术介绍
中的问题。本专利技术提出一种基于字符区域感知的场景文本检测方法,包括以下步骤:S1、构建全卷积的神经网络模型,所述全卷积的神经网络模型最终输出两个通道:一个是用来定位图像中单个字符区域的区域得分regionscore;另一个是用来把每一个字符进行分组并关联到一个完整实例中的亲和力得分affinityscore;S2、基于弱监督学习方法训练所述全卷积的神经网络模型,使用弱监督学习框架拟合真实的字符级别标注GT;S3、将前面得到的像素级字符标签合成文本边框以实现任意形状的文本检测,通过预设的阈值来过滤分数图scoremap,进行二值化;并在得到的二值化图上接一个连通域分析;将单独预测的字符区域连接起来并在这些字符区域上使用最小包围矩形框进而得到一个带角度的矩形框检测结果QuadBox。进一步改进在于,步骤S1中所述神经网络模型是一个基于VGG16骨干的全卷积神经网络,属于标准的分割模型,其中解码部分采用分割模型常用的网络结构,通过上采样的反卷积来实现,最终在两个输出通道下得到原图大小1/2的预测图。进一步改进在于,所述步骤S2具体包括:S21、生成原始训练标签区域得分字符级别标注regionscoreGT和亲和力得分字符级别标注affinityscoreGT;S22、字符级标签弱监督学习,包括两种数据,一种是合成数据,这些数据的标签是准确的;另一种是真实数据,这些数据的标签是文本行级别的,真实数据的训练步骤具体为:①根据真实数据的标签,将文本行裁剪出来;②训练网络得到结果图,具体是区域得分图regionscoremap和亲和力得分图affinityscoremap;③根据网络输出的结果图分割出单个字符;④根据上一步的结果生成字符标签。进一步改进在于,所述步骤S21还包括:引入单词级标签的文本长度作为约束得到置信度,若文本长度与模型得到的结果是一样的,那么置信度就高,反之则低;将检测的文本区域与其单词级长度定义为R(w)、l(w),预测的字符长度为lc(w),则其置信度sconf(w)可以描述为:则对于整张图Sc的置信度可以用下面的关系计算得到:则区域R(w)中的像素p其损失函数可以描述为:其中,分别代表弱监督学习到的字符区域与关联置信度。Sr(p)、Sa(p)表示训练得到的预测结果。进一步改进在于,将单词级别的字符区域从原始图像中抠出,然后使用训练的神经网络模型去预测字符区域置信度,再使用分水岭算法对每个字符区域进行分割,最后利用第一步操作的逆变换将其映射到原图上去即得我们的最终字符分割结果。进一步改进在于,所述步骤S3具体包括:S31、沿扫描方向找到字符区域的局部最大值线,局部最大线的长度被同时设置为最大长度,以防止最终的多边形结果变得不均匀;S32、连接局部最大线的中点作中心线;S33、旋转局部最大线以垂直于中心线,通过局部最大线与中心线来反映字符的倾斜角度反映字符的倾斜角度;S34、将局部最大值线的端点作为文本多边形控制点的候选点,最终将其一一连起来即形成最终的文本实例检测框。与现有技术相比,本专利技术的有益效果为:1、准确度高:本专利技术针对自然场景下任意复杂形状的文本实例的文本检测问题,提出了一种基于字符区域感知,并创造性地提出利用弱监督方法进行学习以精准定位单个字符区域,文本检测准确度高。2、速度快:本专利技术不需要任何进一步的后处理,如非极大值抑制等等,故操作步骤简单,计算量相对较小,文本检测速度快。3、泛化能力强:本专利技术提出一个基于字符区域感知的场景文本检测模型,模型无需额外的微调便能捕获不同文本图像的一般特征,由此可见本方法具有很强的泛化能力。4、鲁棒性强:本专利技术定位单个字符而并非整个文本,故用相对较小的感受野足以覆盖大图像中的单个字符,这使得本方法在文本尺度和形状的变化时具有很强的鲁棒性。附图说明附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。图1为本专利技术一实施方式的整体流程示意图;图2为本专利技术一实施方式的神经网络模型结构示意图;图3为本专利技术一实施方式的基于弱监督学习的神经网络模型训练示意图;图4为本专利技术一实施方式的标签生成示意图;图5为本专利技术一实施方式的生成带角度的矩形框检测结果示意图。具体实施方式在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以是通过中间媒介间接连接,可以说两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术的具体含义。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。与现有技术相比,本专利技术的有益效果为:1、准确度高:本专利技术针对自然场景下任意复杂形状的文本实例的文本检测问题,提出了一种基于字符区域感知,并创造性地提出利用弱监督方法进行学习以精准定位单个字符区域,文本检测准确度高。2、速度快:本专利技术不需要任何进一步的后处理,如非极大值抑制等等,故操作步骤简单,计算量相对较小,文本检测速度快。3、泛化能力强:本专利技术提出一个基于字符区域感知的场景文本检测模型,模型无需额外的微调便能捕获不同文本图像的一般特征,由此可见本方法具有很强的泛化能力。4、鲁棒性强:本专利技术定位单个字符而并非整个文本,故用相对较小的感受野足以覆盖大图像中的单个字符,这使得本方法在文本尺度和形状的变化时具有很强的鲁棒性。一种基于字符区域感知的场景文本本文档来自技高网...

【技术保护点】
1.一种基于字符区域感知的场景文本检测方法,其特征在于,包括以下步骤:/nS1、构建全卷积的神经网络模型,所述全卷积的神经网络模型最终输出两个通道:一个是用来定位图像中单个字符区域的区域得分;另一个是用来把每一个字符进行分组并关联到一个完整实例中的亲和力得分;/nS2、基于弱监督学习方法训练所述全卷积的神经网络模型,使用弱监督学习框架拟合真实的字符级别标注;/nS3、将前面得到的像素级字符标签合成文本边框以实现任意形状的文本检测,通过预设的阈值来过滤分数图,进行二值化;并在得到的二值化图上接一个连通域分析;将单独预测的字符区域连接起来并在这些字符区域上使用最小包围矩形框进而得到一个带角度的矩形框检测结果。/n

【技术特征摘要】
1.一种基于字符区域感知的场景文本检测方法,其特征在于,包括以下步骤:
S1、构建全卷积的神经网络模型,所述全卷积的神经网络模型最终输出两个通道:一个是用来定位图像中单个字符区域的区域得分;另一个是用来把每一个字符进行分组并关联到一个完整实例中的亲和力得分;
S2、基于弱监督学习方法训练所述全卷积的神经网络模型,使用弱监督学习框架拟合真实的字符级别标注;
S3、将前面得到的像素级字符标签合成文本边框以实现任意形状的文本检测,通过预设的阈值来过滤分数图,进行二值化;并在得到的二值化图上接一个连通域分析;将单独预测的字符区域连接起来并在这些字符区域上使用最小包围矩形框进而得到一个带角度的矩形框检测结果。


2.根据权利要求1所述的一种基于字符区域感知的场景文本检测方法,其特征在于,步骤S1中所述神经网络模型是一个基于VGG16骨干的全卷积神经网络,属于标准的分割模型,其中解码部分采用分割模型常用的网络结构,通过上采样的反卷积来实现,最终在两个输出通道下得到原图大小1/2的预测图。


3.根据权利要求1所述的一种基于字符区域感知的场景文本检测方法,其特征在于,所述步骤S2具体包括:
S21、生成原始训练标签区域得分字符级别标注和亲和力得分字符级别标注;
S22、字符级标签弱监督学习,包括两种数据,一种是合成数据,这些数据的标签是准确的;另一种是真实数据,这些数据的标签是文本行级别的,真实数据的训练步骤具体为:
①根据真实数据的标签,将文本行裁剪出来;
②训练网络得到结果图,具体是区域得分图和亲和力得分图;
③根据网络输出的结果图分割出单个字符;
④根...

【专利技术属性】
技术研发人员:杨海东黄坤山罗哲彭文瑜林玉山
申请(专利权)人:佛山市南海区广工大数控装备协同创新研究院佛山市广工大数控装备技术发展有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1