基于语义分割的多尺度文本检测方法、装置及电子设备制造方法及图纸

技术编号:28873003 阅读:23 留言:0更新日期:2021-06-15 23:06
本发明专利技术涉及深度学习以及计算机视觉领域,具体涉及一种基于语义分割的多尺度文本检测方法、装置及电子设备;所述方法包括采集字符图像,并对所述字符图像进行预处理;所述字符图像包括训练字符图像和待测字符图像;将预处理后的字符图像输入到语义分割的字符检测网络中,输出字符图像的文本边界区域标签和文本中心区域标签;将字符图像所对应的文本边界区域与文本中心区域进行二值化融合,得到分割融合后的字符图像;将所述分割融合后的字符图像进行后处理,确定出字符区域,即字符的坐标位置;本发明专利技术通过双标签进行监督学习,充分利用了高级语义特征,降低了潜在的语义特征学习。

【技术实现步骤摘要】
基于语义分割的多尺度文本检测方法、装置及电子设备
本专利技术涉及深度学习以及计算机视觉领域,具体涉及一种基于语义分割的多尺度文本检测方法、装置及电子设备。
技术介绍
随着计算设备的计算力的增强,深度学习算法不断出现在各类应用;特别在计算机视觉方面,由于便携设备的计算能力不断增强,拥有摄像头的移动设备也越来越普及,由此产生了大量的图像。在待处理的图像中不可避免地会涉及到其他不相关的背景,这些背景对后续的字符内容处理会带来很大的干扰。在自然场景下,利用手机等摄像设备对于字符内容进行拍摄,不可能避免地会受到自然场景下的许多因素干扰,这些干扰会影响后续的进行字符检测处理结果的准确度,因此需要一种具有适合较复杂条件下的字符定位技术帮助准确定位到字符位置,以达到减少自然条件下所带外界噪声对于文本内容分析的干扰目的。而在自然场景下对于字符定位技术方面的研究依旧较少,急需进一步探索与研究。在计算机视觉领域,通常检测字符使用的是形态学操作方法,利用计算机视觉中的图像形态学操作,包括膨胀、腐蚀等基本操作,即可实现简单场景的文字检测,例如检测书籍拍照图像中的文字区域位置。然而这些方式有着无法避免的缺点,传统的检测方法一般都是扫描整张图像,这样就会引入许多自然场景的干扰像素,例如存在许多类似字符的符号或者物体,导致加大了人工特征寻找目标的难度。除此之外,传统检测的方法大多都需要人工设置阈值来调整检测灵敏度,阈值过高会导致检测过多干扰因素从而无法进行人工特征匹配,而阈值过低会导致无法检测到所需字符。在公开号为CN107563377A的中国专利中披露了通过传统边缘检测和文字区域的证件关键区域检测定位方法检测字符。但该方法是针对证件等简单应用场景字符检测,文字区域较为固定,抗干扰能力弱,可扩展性性弱。而基于深度学习的字符检测算法在过去几年里受到了较为重视的研究,随着人工智能的发展以及一些基于深度卷积神经网络(ConvolutionalNeuralNetworks)网络的字符算法的发展,例如,经典字符检测网络CTPN。基于深度学习的检测方法已经取得了较好的效果,并且随着深度卷积神经网络架构性能的提升,其检测性能也会越来越好;然而,基于深度学习的字符检测网络输出图像字符区域存在边界定位不够准确,并且字符尺度变化较大造成的漏检,背景干扰等在内的许多问题。
技术实现思路
基于现有技术存在的问题,本专利技术提出了一种基于语义分割的多尺度文本检测方法、装置及电子设备,设计了基于语义分割的字符检测网络,通过利用图像分割任务,将图像分割任务中丰富的语义信息最大限度的融合进分割的过程,这能够得到更加准确的字符区域边界,同时使用图像增强方法提高模型的泛化能力。除此之外,还利用多尺度的注意力机制以及对尺度不敏感的损失函数缓解字符的尺度变化剧烈导致字符漏检的问题。在本专利技术的第一方面,本专利技术提供了一种基于语义分割的多尺度文本检测方法,所述方法包括:采集字符图像,并对所述字符图像进行预处理;所述字符图像包括训练字符图像和待测字符图像;将预处理后的字符图像输入到语义分割的字符检测网络中,输出字符图像的文本边界区域标签和文本中心区域标签;将字符图像所对应的文本边界区域与文本中心区域进行二值化融合,得到分割融合后的字符图像;将所述分割融合后的字符图像进行后处理,确定出字符区域,即字符的坐标位置。进一步的,所述训练字符图像中包括制作出文本中心区域标签和文本边界区域标签,即按照字符图像中各个文本长宽比例确定出自适应大小的文本中心区域标注框,并作为文本中心区域标签;按照字符图像中各个文本长宽比确定出自适应大小的收缩边界,将收缩边界与字符图像原边界所形成的中间区域标注框作为文本边界区域标签。其中,所述语义分割的字符检测网络包括将训练字符图像或待测字符图像输入到语义分割的字符检测网络中提取出多尺度的语义信息特征和各层细节特征;将提取到的语义信息特征进行图像分割,并由文本边界区域标签和文本中心区域标签进行监督学习得到文本边界区域特征;将提取到的各层细节特征进行图像分割,并由文本中心区域标签进行监督学习得到文本中心区域特征;将图像分割后的文本边界区域特征和文本中心区域特征进行融合。进一步的,所述将训练字符图像输入到语义分割的字符检测网络中时,利用迁移学习的方式,采用人工合成图像数据集对所述语义分割的字符检测网络进行预训练,再采用公开字符图像数据集对所述语义分割的字符检测网络进行微调训练。进一步的,所述提取出语义信息特征和各层细节特征的过程包括在语义分割的字符检测网络的图像分割通道中,使用一系列反卷积或者上采样将主干网络提取的图像特征还原到原始字符图像的1/4大小;在主干网络中的第三层卷积层采用混合膨胀卷积操作,在主干网络的第四层卷积层进行注意力膨胀卷积操作;采用注意力机制对第四层卷积层各通道所对应的膨胀率赋予一个可学习权重,通过该可学习权重学习出各通道的重要程度,并按照该重要程度去提升或抑制相应通道的特征,通过主干网络各层卷积层的卷积操作,输出各层细节特征;在主干网络的输出层中进行像素级别和类级别的分类,确定出语义特征信息。进一步的,所述像素级别的分类产生的分割损失采用Dice损失函数,所述类级别的分类产生的分割损失采用二元交叉熵。进一步的,所述将图像分割后的文本边界区域特征和文本中心区域特征进行融合所产生的融合损失采用双标签融合损失表示,具体表示为:LS=Lfusion(f(Fseg,Fshape|X;W))其中,LS表示双标签融合损失;Fseg为文本边界区域特征,Fregion为文本中心区域特征,f(*|W)表示特征图融合操作,X表示标签图像,即带有文本边界区域标签或/和文本中心区域标签的字符图像;W表示其中卷积操作的参数;Lfusion(F)表示融合模块操作,融合之后的输出再采用的二值化操作,表述为:其中,Pi,j为特征图中的(ij)坐标处的像素的字符概率值;0,1分别表示二值化之后的像素值大小,t为图像二值化的阈值。进一步的,将所述分割融合后的字符图像进行后处理包括提取出字符图像的连通域轮廓,并确定该轮廓的外接多边形;利用多边形裁剪算法,对外接多边形的区域面积进行膨胀;将膨胀后的区域面积与膨胀后的外接多边形的周长的比值作为偏移量,利用所述偏移量计算出字符区域,即字符的坐标位置。在本专利技术的第二方面,本专利技术还提供了一种基于语义分割的多尺度文本检测装置,所述装置包括:图像采集单元,用于采集字符图像,并对所述字符图像进行预处理;图像处理单元,用于将预处理后的字符图像输入到语义分割的字符检测网络中,输出字符图像的文本边界区域标签和文本中心区域标签;图像融合单元,用于将字符图像所对应的文本边界区域与文本中心区域进行二值化融合,得到分割融合后的字符图像;图像检测单元,用于将所述分割融合后的字符图像进行后处理,确定出字符区域,即字符的坐标位置。在本专利技术的第三方面,本专利技术还提供了一种电子设备,包括存储器、处理器及存储在本文档来自技高网
...

【技术保护点】
1.一种基于语义分割的多尺度文本检测方法,其特征在于,所述方法包括:/n采集字符图像,并对所述字符图像进行预处理;所述字符图像包括训练字符图像和待测字符图像;/n将预处理后的字符图像输入到语义分割的字符检测网络中,输出字符图像的文本边界区域标签和文本中心区域标签;/n将字符图像所对应的文本边界区域与文本中心区域进行二值化融合,得到分割融合后的字符图像;/n将所述分割融合后的字符图像进行后处理,确定出字符区域,即字符的坐标位置。/n

【技术特征摘要】
1.一种基于语义分割的多尺度文本检测方法,其特征在于,所述方法包括:
采集字符图像,并对所述字符图像进行预处理;所述字符图像包括训练字符图像和待测字符图像;
将预处理后的字符图像输入到语义分割的字符检测网络中,输出字符图像的文本边界区域标签和文本中心区域标签;
将字符图像所对应的文本边界区域与文本中心区域进行二值化融合,得到分割融合后的字符图像;
将所述分割融合后的字符图像进行后处理,确定出字符区域,即字符的坐标位置。


2.根据权利要求1所述的一种基于语义分割的多尺度文本检测方法,其特征在于,所述训练字符图像中包括制作出文本中心区域标签和文本边界区域标签,即按照字符图像中各个文本长宽比例确定出自适应大小的文本中心区域标注框,并作为文本中心区域标签;按照字符图像中各个文本长宽比确定出自适应大小的收缩边界,将收缩边界与字符图像原边界所形成的中间区域标注框作为文本边界区域标签。


3.根据权利要求1所述的一种基于语义分割的多尺度文本检测方法,其特征在于,所述语义分割的字符检测网络包括将训练字符图像或待测字符图像输入到语义分割的字符检测网络中提取出多尺度的语义信息特征和各层细节特征;将提取到的语义信息特征进行图像分割,并由文本边界区域标签和文本中心区域标签进行监督学习得到文本边界区域特征;将提取到的各层细节特征进行图像分割,并由文本中心区域标签进行监督学习得到文本中心区域特征;将图像分割后的文本边界区域特征和文本中心区域特征进行融合。


4.根据权利要求3所述的一种基于语义分割的多尺度文本检测方法,其特征在于,所述将训练字符图像输入到语义分割的字符检测网络中时,利用迁移学习的方式,采用人工合成图像数据集对所述语义分割的字符检测网络进行预训练,再采用公开字符图像数据集对所述语义分割的字符检测网络进行微调训练。


5.根据权利要求3所述的一种基于语义分割的多尺度文本检测方法,其特征在于,所述提取出语义信息特征和各层细节特征的过程包括在语义分割的字符检测网络的图像分割通道中,使用一系列反卷积或者上采样将主干网络提取的图像特征还原到原始字符图像的1/4大小;在主干网络中的第三层卷积层采用混合膨胀卷积操作,在主干网络的第四层卷积层进行注意力膨胀卷积操作;采用注意力机制对第四层卷积层各通道所对应的膨胀率赋予一个可学习权重,通过该可学习权重学习出各通道的重要程度,并按照该重要程度去提升或抑制相应通道的特征,通过主干网络各层卷积层的卷积操作,输出...

【专利技术属性】
技术研发人员:张盛峰付川
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1