当前位置: 首页 > 专利查询>佛山市南海区广工大数控装备协同创新研究院专利>正文

一种基于字符区域感知的场景文本检测方法技术

技术编号：25309713 阅读：31 留言：0更新日期：2020-08-18 22:28

本发明专利技术公开一种基于字符区域感知的场景文本检测方法，包括S1、构建全卷积的神经网络模型，所述全卷积的神经网络模型最终输出两个通道：一个是用来定位图像中单个字符区域的region score；另一个是用来把每一个字符进行分组并关联到一个完整实例中的affinity score；S2、基于弱监督学习方法训练所述全卷积的神经网络模型，使用弱监督学习框架拟合真实的字符级别标注GT等3个步骤，本发明专利技术针对自然场景下任意复杂形状的文本实例的文本检测问题，提出了一种基于字符区域感知，并创造性地提出利用弱监督方法进行学习以精准定位单个字符区域，文本检测准确度高、速度快、泛化能力强、鲁棒性强。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于字符区域感知的场景文本检测方法
本专利技术涉及计算机视觉
，尤其涉及一种基于字符区域感知的场景文本检测方法。
技术介绍
随着场景文本检测的在众多领域的应用，例如即时翻译、图像检索、场景解析、地理位置等等，使其在计算机视觉领域引起了很大的关注。近来，一些基于深度学习的场景文本检测方法成为焦点，这些方法主要通过定位单词级别边界框来训练他们的网络。但因此对检测单词的范围的定义也就非常重要，例如单词可以通过含义、空格、颜色等等各种标准分割，可见单词边界不能被严格定义，故用这些方法经常会遇到一些棘手的情况，比如弯曲，变形或极长的文本，很难使用单个边框检测到。另外，利用自下而上的方式来连接连续的字符以处理任意形状的文本时，字符级别区域感知具有许多优点。但对于深度学习网络的训练，是需要大量带标签的数据的，而目前大多数现有文本数据集都没有提供字符级别的注释标签，且常规方法获得字符级别标签所需的工作成本也很高。
技术实现思路
针对上述问题，本专利技术提出一种基于字符区域感知的场景文本检测方法，主要解决
技术介绍
...

【技术保护点】
1.一种基于字符区域感知的场景文本检测方法，其特征在于，包括以下步骤：/nS1、构建全卷积的神经网络模型，所述全卷积的神经网络模型最终输出两个通道：一个是用来定位图像中单个字符区域的区域得分；另一个是用来把每一个字符进行分组并关联到一个完整实例中的亲和力得分；/nS2、基于弱监督学习方法训练所述全卷积的神经网络模型，使用弱监督学习框架拟合真实的字符级别标注；/nS3、将前面得到的像素级字符标签合成文本边框以实现任意形状的文本检测，通过预设的阈值来过滤分数图，进行二值化；并在得到的二值化图上接一个连通域分析；将单独预测的字符区域连接起来并在这些字符区域上使用最小包围矩形框进而得到一个带角度的矩形...

【技术特征摘要】
1.一种基于字符区域感知的场景文本检测方法，其特征在于，包括以下步骤：
S1、构建全卷积的神经网络模型，所述全卷积的神经网络模型最终输出两个通道：一个是用来定位图像中单个字符区域的区域得分；另一个是用来把每一个字符进行分组并关联到一个完整实例中的亲和力得分；
S2、基于弱监督学习方法训练所述全卷积的神经网络模型，使用弱监督学习框架拟合真实的字符级别标注；
S3、将前面得到的像素级字符标签合成文本边框以实现任意形状的文本检测，通过预设的阈值来过滤分数图，进行二值化；并在得到的二值化图上接一个连通域分析；将单独预测的字符区域连接起来并在这些字符区域上使用最小包围矩形框进而得到一个带角度的矩形框检测结果。

2.根据权利要求1所述的一种基于字符区域感知的场景文本检测方法，其特征在于，步骤S1中所述神经网络模型是一个基于VGG16骨干的全卷积神经网络，属于标准的分割模型，其中解码部分采用分割模型常用的网络结构，通过上采样的反卷积来实现，最终在两个输出通道下得到原图大小1/2的预测图。

3.根据权利要求1所述的一种基于字符区域感知的场景文本检测方法，其特征在于，所述步骤S2具体包括：
S21、生成原始训练标签区域得分字符级别标注和亲和力得分字符级别标注；
S22、字符级标签弱监督学习，包括两种数据，一种是合成数据，这些数据的标签是准确的；另一种是真实数据，这些数据的标签是文本行级别的，真实数据的训练步骤具体为：
①根据真实数据的标签，将文本行裁剪出来；
②训练网络得到结果图，具体是区域得分图和亲和力得分图；
③根据网络输出的结果图分割出单个字符；
④根...

【专利技术属性】
技术研发人员：杨海东，黄坤山，罗哲，彭文瑜，林玉山，
申请(专利权)人：佛山市南海区广工大数控装备协同创新研究院，佛山市广工大数控装备技术发展有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人