基于语义分割的多尺度文本检测方法、装置及电子设备制造方法及图纸

技术编号：28873003 阅读：23 留言：0更新日期：2021-06-15 23:06

本发明专利技术涉及深度学习以及计算机视觉领域，具体涉及一种基于语义分割的多尺度文本检测方法、装置及电子设备；所述方法包括采集字符图像，并对所述字符图像进行预处理；所述字符图像包括训练字符图像和待测字符图像；将预处理后的字符图像输入到语义分割的字符检测网络中，输出字符图像的文本边界区域标签和文本中心区域标签；将字符图像所对应的文本边界区域与文本中心区域进行二值化融合，得到分割融合后的字符图像；将所述分割融合后的字符图像进行后处理，确定出字符区域，即字符的坐标位置；本发明专利技术通过双标签进行监督学习，充分利用了高级语义特征，降低了潜在的语义特征学习。

全部详细技术资料下载

【技术实现步骤摘要】
基于语义分割的多尺度文本检测方法、装置及电子设备
本专利技术涉及深度学习以及计算机视觉领域，具体涉及一种基于语义分割的多尺度文本检测方法、装置及电子设备。
技术介绍
随着计算设备的计算力的增强，深度学习算法不断出现在各类应用；特别在计算机视觉方面，由于便携设备的计算能力不断增强，拥有摄像头的移动设备也越来越普及，由此产生了大量的图像。在待处理的图像中不可避免地会涉及到其他不相关的背景，这些背景对后续的字符内容处理会带来很大的干扰。在自然场景下，利用手机等摄像设备对于字符内容进行拍摄，不可能避免地会受到自然场景下的许多因素干扰，这些干扰会影响后续的进行字符检测处理结果的准确度，因此需要一种具有适合较复杂条件下的字符定位技术帮助准确定位到字符位置，以达到减少自然条件下所带外界噪声对于文本内容分析的干扰目的。而在自然场景下对于字符定位技术方面的研究依旧较少，急需进一步探索与研究。在计算机视觉领域，通常检测字符使用的是形态学操作方法，利用计算机视觉中的图像形态学操作，包括膨胀、腐蚀等基本操作，即可实现简单场景的文字检测，例如检测书籍拍照图像中的文字区域位置。然而这些方式有着无法避免的缺点，传统的检测方法一般都是扫描整张图像，这样就会引入许多自然场景的干扰像素，例如存在许多类似字符的符号或者物体，导致加大了人工特征寻找目标的难度。除此之外，传统检测的方法大多都需要人工设置阈值来调整检测灵敏度，阈值过高会导致检测过多干扰因素从而无法进行人工特征匹配，而阈值过低会导致无法检测到所需字符。在公开号为CN107...

【技术保护点】
1.一种基于语义分割的多尺度文本检测方法，其特征在于，所述方法包括：/n采集字符图像，并对所述字符图像进行预处理；所述字符图像包括训练字符图像和待测字符图像；/n将预处理后的字符图像输入到语义分割的字符检测网络中，输出字符图像的文本边界区域标签和文本中心区域标签；/n将字符图像所对应的文本边界区域与文本中心区域进行二值化融合，得到分割融合后的字符图像；/n将所述分割融合后的字符图像进行后处理，确定出字符区域，即字符的坐标位置。/n

【技术特征摘要】
1.一种基于语义分割的多尺度文本检测方法，其特征在于，所述方法包括：
采集字符图像，并对所述字符图像进行预处理；所述字符图像包括训练字符图像和待测字符图像；
将预处理后的字符图像输入到语义分割的字符检测网络中，输出字符图像的文本边界区域标签和文本中心区域标签；
将字符图像所对应的文本边界区域与文本中心区域进行二值化融合，得到分割融合后的字符图像；
将所述分割融合后的字符图像进行后处理，确定出字符区域，即字符的坐标位置。

2.根据权利要求1所述的一种基于语义分割的多尺度文本检测方法，其特征在于，所述训练字符图像中包括制作出文本中心区域标签和文本边界区域标签，即按照字符图像中各个文本长宽比例确定出自适应大小的文本中心区域标注框，并作为文本中心区域标签；按照字符图像中各个文本长宽比确定出自适应大小的收缩边界，将收缩边界与字符图像原边界所形成的中间区域标注框作为文本边界区域标签。

3.根据权利要求1所述的一种基于语义分割的多尺度文本检测方法，其特征在于，所述语义分割的字符检测网络包括将训练字符图像或待测字符图像输入到语义分割的字符检测网络中提取出多尺度的语义信息特征和各层细节特征；将提取到的语义信息特征进行图像分割，并由文本边界区域标签和文本中心区域标签进行监督学习得到文本边界区域特征；将提取到的各层细节特征进行图像分割，并由文本中心区域标签进行监督学习得到文本中心区域特征；将图像分割后的文本边界区域特征和文本中心区域特征进行融合。

4.根据权利要求3所述的一种基于语义分割的多尺度文本检测方法，其特征在于，所述将训练字符图像输入到语义分割的字符检测网络中时，利用迁移学习的方式，采用人工合成图像数据集对所述语义分割的字符检测网络进行预训练，再采用公开字符图像数据集对所述语义分割的字符检测网络进行微调训练。

5.根据权利要求3所述的一种基于语义分割的多尺度文本检测方法，其特征在于，所述提取出语义信息特征和各层细节特征的过程包括在语义分割的字符检测网络的图像分割通道中，使用一系列反卷积或者上采样将主干网络提取的图像特征还原到原始字符图像的1/4大小；在主干网络中的第三层卷积层采用混合膨胀卷积操作，在主干网络的第四层卷积层进行注意力膨胀卷积操作；采用注意力机制对第四层卷积层各通道所对应的膨胀率赋予一个可学习权重，通过该可学习权重学习出各通道的重要程度，并按照该重要程度去提升或抑制相应通道的特征，通过主干网络各层卷积层的卷积操作，输出...

【专利技术属性】
技术研发人员：张盛峰，付川，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人