一种基于改进CharNet的形状鲁棒性文本检测方法及其系统技术方案

技术编号：38390505 阅读：12 留言：0更新日期：2023-08-05 17:43

本发明专利技术提供一种基于改进CharNet的形状鲁棒性文本检测方法及其系统。步骤1，向CharNet网络输入待检测图像；步骤2，将待检测图像进行骨干网络特征提取后形成特征图；步骤3，将特征图分别输入CharNet网络的两个并行分支，所述两个并行分支包括单字符检测与识别的字符分支和预测文本实例外接框的文本实例检测分支；步骤4，基于单字符检测与识别的字符分支得到字符识别信息；步骤5，基于预测文本实例外接框的文本实例检测分支得到字符位置信息；步骤6，将字符识别信息和字符位置信息进行整合后，得到文本识别结果。用以解决了文本识别中难以辨识的极长文本与任意形状文本问题。识的极长文本与任意形状文本问题。识的极长文本与任意形状文本问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进CharNet的形状鲁棒性文本检测方法及其系统

[0001]本专利技术属于文字识别领域，具体涉及一种基于改进CharNet的形状鲁棒性文本检测方法及其系统。

技术介绍

[0002]场景文本识别因在自动化办公、场景理解、自动驾驶等领域无处不在的应用引起了研究学者的重视。近来随着深度学习技术的兴起，通用的目标检测技术得到飞速的发展。然而文本任务的对象与一般检测对象存在显著差异，大多数现有的检测算法仅能在具有规则形状、纵横比受控的环境中获得良好的效果。自然图像文本识别一直被认为是两个连续但独立的问题：文字检测和文字识别。由于深度神经网络的成功，这两个任务都取得了很大的进展。文字检测的目的是对每一个文本实例预测一个文本框。当前最好的文字检测方法都是从目标检测或分割框架扩展而来。基于文字检测的结果，文字识别的目标是从被抠出来的文本图片中识别出一连串字符。一般来说，文字识别被转换为一个序列标记问题，通常用基于卷积神经网络(CNNs)特征的递归神经网络(RNNs)来解决。这种解决方案目前是最好的。然而，通过这样两阶段的方法实现文本识别通常有很多限制。首先，独立地学习这两个任务是一个次优的问题，因为这样很难完全利用文本本身的性质。比如说，联合的文字检测和识别可以提供丰富的上下文信息并且两个任务可以实现互补。最近的工作已经证明这样的联合学习可以提升两者的准确率。第二，两阶段的方法通常需要多个连续的步骤，这样使整个系统变得复杂，并且使得识别结果很大程度上依赖于检测性能的好坏。
[0003]近来已经有很多方法尝试去开发...

【技术保护点】

【技术特征摘要】
1.一种基于改进CharNet的形状鲁棒性文本检测方法，其特征在于，所述检测方法包括以下步骤：步骤1，向CharNet网络输入待检测图像；步骤2，将待检测图像进行骨干网络特征提取后形成特征图；步骤3，将步骤2的特征图分别输入CharNet网络的两个并行分支，所述两个并行分支包括单字符检测与识别的字符分支和预测文本实例外接框的文本实例检测分支；步骤4，基于步骤3的单字符检测与识别的字符分支得到字符识别信息；步骤5，基于步骤3的预测文本实例外接框的文本实例检测分支得到字符位置信息；步骤6，将步骤4的字符识别信息和步骤5的字符位置信息进行整合后，得到文本识别结果。2.根据权利要求1所述一种基于改进CharNet的形状鲁棒性文本检测方法，其特征在于，所述步骤2对骨干网络特征提取中的ResNet网络与Hourglass网络进行改进具体为，；所述ResNet网络的改进包括以下步骤：步骤R2.1，将特征图进行分割，将残差内部的特征进行拆分与复用；步骤R2.2，采用不同的卷积核进行计算，获得比单一卷积核更大的感受野。3.根据权利要求2所述一种基于改进CharNet的形状鲁棒性文本检测方法，其特征在于，在经过ResNet的1*1卷积核后，将得到的特征图均分为若干部分，以4等分为例按照图2所示的路线进行数据融合，其中x1直接送入y1，x2经历一个3*3卷积核后送入y2,x3与y2合并后经过3*3卷积核送入y3，x4与y3融合后经过3*3卷积核送入y4，最后将y1、y2、y3、y4进行组合，形成新的特征图送入下一轮卷积运算。4.根据权利要求3所述一种基于改进CharNet的形状鲁棒性文本检测方法，其特征在于，假设x
i
为输入数据，K
i
()表示3*3卷积运算，则y
i
可表示为：Res2Net的模块的输出包含不同感受野大小的组合，Res2Net在深度、宽度、基数维度的基础上提出了基于尺度因素对网络的影响，在不增加计算负载的前提下进一步优化网络性能。5.根据权利要求2所述一种基于改进CharNet的形状鲁棒性文本检测方法，其特征在于，所述Hourglass网络的改进包括以下步骤：步骤H2.1，采用步长为2、尺寸为1*1的卷积学习pooling所能提供的非线性，实现特征降维；步骤H2.2，将Hourg...

【专利技术属性】
技术研发人员：张媛媛，马迪，胡嘉铭，李金拓，索东楠，
申请(专利权)人：中国大唐集团科学技术研究总院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人