一种基于改进CharNet的形状鲁棒性文本检测方法及其系统技术方案

技术编号:38390505 阅读:12 留言:0更新日期:2023-08-05 17:43
本发明专利技术提供一种基于改进CharNet的形状鲁棒性文本检测方法及其系统。步骤1,向CharNet网络输入待检测图像;步骤2,将待检测图像进行骨干网络特征提取后形成特征图;步骤3,将特征图分别输入CharNet网络的两个并行分支,所述两个并行分支包括单字符检测与识别的字符分支和预测文本实例外接框的文本实例检测分支;步骤4,基于单字符检测与识别的字符分支得到字符识别信息;步骤5,基于预测文本实例外接框的文本实例检测分支得到字符位置信息;步骤6,将字符识别信息和字符位置信息进行整合后,得到文本识别结果。用以解决了文本识别中难以辨识的极长文本与任意形状文本问题。识的极长文本与任意形状文本问题。识的极长文本与任意形状文本问题。

【技术实现步骤摘要】
一种基于改进CharNet的形状鲁棒性文本检测方法及其系统


[0001]本专利技术属于文字识别领域,具体涉及一种基于改进CharNet的形状鲁棒性文本检测方法及其系统。

技术介绍

[0002]场景文本识别因在自动化办公、场景理解、自动驾驶等领域无处不在的应用引起了研究学者的重视。近来随着深度学习技术的兴起,通用的目标检测技术得到飞速的发展。然而文本任务的对象与一般检测对象存在显著差异,大多数现有的检测算法仅能在具有规则形状、纵横比受控的环境中获得良好的效果。自然图像文本识别一直被认为是两个连续但独立的问题:文字检测和文字识别。由于深度神经网络的成功,这两个任务都取得了很大的进展。文字检测的目的是对每一个文本实例预测一个文本框。当前最好的文字检测方法都是从目标检测或分割框架扩展而来。基于文字检测的结果,文字识别的目标是从被抠出来的文本图片中识别出一连串字符。一般来说,文字识别被转换为一个序列标记问题,通常用基于卷积神经网络(CNNs)特征的递归神经网络(RNNs)来解决。这种解决方案目前是最好的。然而,通过这样两阶段的方法实现文本识别通常有很多限制。首先,独立地学习这两个任务是一个次优的问题,因为这样很难完全利用文本本身的性质。比如说,联合的文字检测和识别可以提供丰富的上下文信息并且两个任务可以实现互补。最近的工作已经证明这样的联合学习可以提升两者的准确率。第二,两阶段的方法通常需要多个连续的步骤,这样使整个系统变得复杂,并且使得识别结果很大程度上依赖于检测性能的好坏。
[0003]近来已经有很多方法尝试去开发一个统一的文字检测与识别框架(端到端检测),通过添加一个RNN的分支到文字检测模型来实现端到端识别,并且取得了很好的性能。但其本质仍未脱离两阶段检测框架受到的RoI Pooling与RNN的限制,这不可避免的影响了识别的性能。

技术实现思路

[0004]本专利技术提供一种基于改进CharNet的形状鲁棒性文本检测方法,用以解决了文本识别中难以辨识的极长文本与任意形状文本问题。
[0005]本专利技术提供一种基于改进CharNet的形状鲁棒性文本检测系统,用以解决了文本识别中难以辨识的极长文本与任意形状文本问题。
[0006]本专利技术提供一种电子设备。
[0007]本专利技术提供一种计算机可读存储介质。
[0008]本专利技术通过以下技术方案实现:
[0009]一种基于改进CharNet的形状鲁棒性文本检测方法,所述检测方法包括以下步骤:
[0010]步骤1,向CharNet网络输入待检测图像;
[0011]步骤2,将待检测图像进行骨干网络特征提取后形成特征图;
[0012]步骤3,将步骤2的特征图分别输入CharNet网络的两个并行分支,所述两个并行分
支包括单字符检测与识别的字符分支和预测文本实例外接框的文本实例检测分支;;
[0013]步骤4,基于步骤3的单字符检测与识别的字符分支得到字符识别信息;
[0014]步骤5,基于步骤3的预测文本实例外接框的文本实例检测分支得到字符位置信息;
[0015]步骤6,将步骤4的字符识别信息和步骤5的字符位置信息进行整合后,得到文本识别结果。
[0016]一种基于改进CharNet的形状鲁棒性文本检测方法,所述步骤2对骨干网络特征提取中的ResNet网络与Hourglass网络进行改进具体为,;
[0017]所述ResNet网络的改进包括以下步骤:
[0018]步骤R2.1,将特征图进行分割,将残差内部的特征进行拆分与复用;
[0019]步骤R2.2,采用不同的卷积核进行计算,获得比单一卷积核更大的感受野。
[0020]一种基于改进CharNet的形状鲁棒性文本检测方法,在经过ResNet的1*1卷积核后,将得到的特征图均分为若干部分,以4等分为例按照图2所示的路线进行数据融合,其中x1直接送入y1,x2经历一个3*3卷积核后送入y2,x3与y2合并后经过3*3卷积核送入y3,x4与y3融合后经过3*3卷积核送入y4,最后将y1、y2、y3、y4进行组合,形成新的特征图送入下一轮卷积运算。
[0021]一种基于改进CharNet的形状鲁棒性文本检测方法,假设x
i
为输入数据,K
i
()表示3*3卷积运算,则y
i
可表示为:
[0022][0023]Res2Net的模块的输出包含不同感受野大小的组合,Res2Net在深度、宽度、基数维度的基础上提出了基于尺度因素对网络的影响,在不增加计算负载的前提下进一步优化网络性能。
[0024]一种基于改进CharNet的形状鲁棒性文本检测方法,所述Hourglass网络的改进包括以下步骤:
[0025]步骤H2.1,采用步长为2、尺寸为1*1的卷积学习pooling所能提供的非线性,实现特征降维;
[0026]步骤H2.2,将Hourglass主干的对称式结构改进为非对称式结构。
[0027]一种基于改进CharNet的形状鲁棒性文本检测方法,所述步骤H2.1具体为,Hourglass通过捕捉多尺度特征信息与多个中间监督的结构来提高特征的精细度;网络采用两层结构,上层在原尺度上采用残差模块进行特征采集,下层采用max pooling进行下采样后送入残差模块最终采用升采样获得与上层同样尺寸的特征图进行特征合成;
[0028]Hourglass在多尺度上对输入的特征映射进行高阶语义信息提取;但是为了获取不同尺度的特征,Hourglass采用下采样的方式进行特征降维;下采样在特征降维的过程中,会造成大量的特征损失,降低网络对特征的提取与感知能力;当网络层数较浅时pooling提供的非线性变化可以满足网络的需求,但是随着网络层数增加固定的非线性变
化难以满足网络的需求,因此采用步长为2、尺寸为1*1的卷积学习pooling所能提供的非线性,甚至能根据训练集学到比pooling更好的非线性;Hourglass相比于pooling可以保留更多的细节信息。
[0029]一种基于改进CharNet的形状鲁棒性文本检测方法,所述步骤H2.2具体为,将Hourglass主干的对称式结构改进为非对称式先将特征图抽象缩小以增强表达能力,再融合放大以得到物体更精确的坐标信息。
[0030]一种基于改进CharNet的形状鲁棒性文本检测系统,所述形状鲁棒性文本检测系统包括输入模块、CharNet提取模块和结果融合模块
[0031]试试输入模块,向CharNet网络输入待检测图像;
[0032]所述CharNet提取模块,将待检测图像进行骨干网络特征提取后形成特征图;
[0033]将特征图分别输入CharNet网络的两个并行分支,所述两个并行分支包括单字符检测与识别的字符分支和预测文本实例外接框的文本实例检测分支,其中对字符内容进行,预测文本实例外接框的文本实例检测分支对字符位置信息进行识别;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进CharNet的形状鲁棒性文本检测方法,其特征在于,所述检测方法包括以下步骤:步骤1,向CharNet网络输入待检测图像;步骤2,将待检测图像进行骨干网络特征提取后形成特征图;步骤3,将步骤2的特征图分别输入CharNet网络的两个并行分支,所述两个并行分支包括单字符检测与识别的字符分支和预测文本实例外接框的文本实例检测分支;步骤4,基于步骤3的单字符检测与识别的字符分支得到字符识别信息;步骤5,基于步骤3的预测文本实例外接框的文本实例检测分支得到字符位置信息;步骤6,将步骤4的字符识别信息和步骤5的字符位置信息进行整合后,得到文本识别结果。2.根据权利要求1所述一种基于改进CharNet的形状鲁棒性文本检测方法,其特征在于,所述步骤2对骨干网络特征提取中的ResNet网络与Hourglass网络进行改进具体为,;所述ResNet网络的改进包括以下步骤:步骤R2.1,将特征图进行分割,将残差内部的特征进行拆分与复用;步骤R2.2,采用不同的卷积核进行计算,获得比单一卷积核更大的感受野。3.根据权利要求2所述一种基于改进CharNet的形状鲁棒性文本检测方法,其特征在于,在经过ResNet的1*1卷积核后,将得到的特征图均分为若干部分,以4等分为例按照图2所示的路线进行数据融合,其中x1直接送入y1,x2经历一个3*3卷积核后送入y2,x3与y2合并后经过3*3卷积核送入y3,x4与y3融合后经过3*3卷积核送入y4,最后将y1、y2、y3、y4进行组合,形成新的特征图送入下一轮卷积运算。4.根据权利要求3所述一种基于改进CharNet的形状鲁棒性文本检测方法,其特征在于,假设x
i
为输入数据,K
i
()表示3*3卷积运算,则y
i
可表示为:Res2Net的模块的输出包含不同感受野大小的组合,Res2Net在深度、宽度、基数维度的基础上提出了基于尺度因素对网络的影响,在不增加计算负载的前提下进一步优化网络性能。5.根据权利要求2所述一种基于改进CharNet的形状鲁棒性文本检测方法,其特征在于,所述Hourglass网络的改进包括以下步骤:步骤H2.1,采用步长为2、尺寸为1*1的卷积学习pooling所能提供的非线性,实现特征降维;步骤H2.2,将Hourg...

【专利技术属性】
技术研发人员:张媛媛马迪胡嘉铭李金拓索东楠
申请(专利权)人:中国大唐集团科学技术研究总院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1