一种双流场景文本图像分割方法、装置及存储介质制造方法及图纸

技术编号：38196100 阅读：13 留言：0更新日期：2023-07-21 16:32

本发明专利技术公开了一种双流场景文本图像分割方法、装置及存储介质，其中方法包括：获取场景文本图像以及对应的二值化图像进行分割标注，获得输入图像；构建双流文本分割网络，提取输入图像的全局注意力特征和局部细节特征，并将提取的两种特征融合为文本分割特征；采用文本语义信息来引导双流文本分割网络关注文本所在区域，以增强文本分割特征；将经过增强的文本分割特征动态地上采样，得到输出二值化分割图像；计算输出二值化分割图像和标注的二值化图像之间的损失，根据计算的损失训练整个神经网络。本发明专利技术能够解决场景文本在图片中分布不均和尺度、形状变化多样的问题，提高文本图像分割性能，可广泛应用于模式识别与人工智能技术领域。术领域。术领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种双流场景文本图像分割方法、装置及存储介质

[0001]本专利技术涉及模式识别与人工智能
，尤其涉及一种双流场景文本图像分割方法、装置及存储介质。

技术介绍

[0002]随着深度神经网络的发展，光学字符识别等文本相关任务已经取得重大突破。特别是在场景文本中，街景、招牌等拍照图像中的文字可以被快速准确地定位识别，从而高效便捷地进行数字化处理。然而，由于背景噪声复杂的原因，给光学字符识别系统带来极大的干扰，有时无法取得可靠的结果。而且，最近出现的很多细粒度的文本任务，比如：文本编辑、文本擦除等，都需要二值化的分割掩码图片作为辅助信息。基于深度学习的语义分割方法在分割性能和对各种通用场景的鲁棒性上都取得了很大的进步，但场景文本具有其特殊难点。大部分文本都出现在复杂的背景中，有时它们的纹理甚至十分接近；场景文本在图片中的位置分布是不均匀的，一些小文本容易被忽略；非凸的场景文本的尺度变化十分剧烈，形状变化多样。前述深度学习语义分割方法在场景文本上往往表现不佳。

技术实现思路

[0003]为至少一定程度上解决现有技术中存在的技术问题之一，本专利技术的目的在于：
[0004]本专利技术所采用的技术方案是：
[0005]一种双流场景文本图像分割方法，包括以下步骤：
[0006]获取场景文本图像以及对应的二值化图像进行分割标注，获得输入图像；
[0007]构建基于Transformer和密集空洞卷积的双流文本分割网络，提取输入图像的全局注意力特征和局部细节特征，并将提取的两种特征...

【技术保护点】

【技术特征摘要】
1.一种双流场景文本图像分割方法，其特征在于，包括以下步骤：获取场景文本图像以及对应的二值化图像进行分割标注，获得输入图像；构建基于Transformer和密集空洞卷积的双流文本分割网络，提取输入图像的全局注意力特征和局部细节特征，并将提取的两种特征融合为文本分割特征；设计识别增强网络，采用文本语义信息来引导双流文本分割网络关注文本所在区域，以增强所述文本分割特征；将经过增强的文本分割特征动态地上采样，得到输出二值化分割图像；计算输出二值化分割图像和标注的二值化图像之间的损失，根据损失训练整个神经网络。2.根据权利要求1所述的一种双流场景文本图像分割方法，其特征在于，所述双流文本分割网络包括全局网络和局部网络；所述提取输入图像的全局注意力特征和局部细节特征，并将提取的两种特征融合为文本分割特征，包括：全局网络使用Swin Transformer网络提取输入图像的全局注意力特征；局部网络使用ResNet卷积网络提取输入图像的局部细节特征；将全局注意力特征与局部细节特征相结合，作为文本分割特征。3.根据权利要求2所述的一种双流场景文本图像分割方法，其特征在于，所述局部网络使用ResNet卷积网络提取输入图像的局部细节特征，包括：设计横纵双向的密集链接空洞卷积模块，以适应多尺度的场景文本；其中密集连接的空洞卷积层，在水平和竖直方向上分别进行空洞率为d的空洞卷积，在保持分辨率的条件下，增加感受野尺寸R为：R＝(d
‑
1)
×
(K
‑
1)+K式中，K为等效卷积核；在级联n个空洞卷积层后，获得多种长宽比的局部感受野，以更贴近尺度变化多样的局部细节特征F
L
。4.根据权利要求1所述的一种双流场景文本图像分割方法，其特征在于，所述设计识别增强网络，采用文本语义信息来引导双流文本分割网络关注文本所在区域，以增强所述文本分割特征，包括：根据标注中的坐标位置从场景文本图像中切分出文本行图像；使用预训练好的识别器处理文本行图像，得到文本行注意力热图；按照原坐标将获得的文本行注意力热图放到全零的特征图中，得到整幅图像的文本注意力热图；对融合得到的文本分割特征和整幅图像的文本注意力热图进行多头注意力机制计算，以引导双流文本分割网络关注文本注意力热图中的文本区域特征，获得增强后的文本分割特征。5.根据权利要求4所述的一种双流场景文本图像分割方法，其特征在于，经过高级文本语义信息增强的文本分割特征的计算公式如下：其中，W
K
...

【专利技术属性】
技术研发人员：金连文，任峪瑾，曲晨帆，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人