一种表面压印字符图像的无监督分割方法技术

技术编号：30764730 阅读：24 留言：0更新日期：2021-11-10 12:21

本发明专利技术公开了一种表面压印字符图像的无监督分割方法。为解决全监督语义分割网络需要大量手工标定的标签作为训练样本的问题，本发明专利技术以改进型循环式生成对抗网络为基础框架，利用其无监督训练的特性，再结合传统图像分割算法，实现了表面压印字符图像无监督分割。CycleGAN广泛应用于图像风格迁移等领域。本发明专利技术针对CycleGAN难以对两域间特征差异过大的图像进行风格迁移进而实现语义分割的问题，通过对CycleGAN的生成器和判别器进行改进，使之适应语义分割任务实际需要，实现了表面压印字符图像无监督分割。改进型循环式生成对抗网络的生成器中设计了多尺度特征融合模块，并引入了注意力机制提升网络性能。同时，本发明专利技术提出一种U型判别器，可为生成器提供更加精确的反馈，实现了高精度的表面压印字符图像无监督语义分割。义分割。义分割。

全部详细技术资料下载

【技术实现步骤摘要】
一种表面压印字符图像的无监督分割方法

[0001]本专利技术涉及图像语义分割
，尤其涉及一种表面压印字符图像的无监督分割方法。

技术介绍

[0002]当今，图像语义分割在工业、农业、医疗以及服务业等领域都有广泛的应用。在工业方面，图像语义分割可以帮助工业机器人进行目标定位。在农业方面，图像语义分割可以进行农作物种类识别。在医疗方面，图像语义分割可以帮助医生确定病变种类及区域，精确识别病变边界。在服务业，图像语义分割已广泛应用于人像抠图、字符识别和自动驾驶等领域。图像语义分割的应用已经涵盖了各个领域。二分类语义分割的目的在于根据图像语义信息将图像内容区分为前景和背景。表面压印字符图像分割既是二分类语义分割的一个现实应用场景，也是字符识别最重要的步骤。基于深度学习的图像分割算法可以解决复杂光线条件下表面压印字符图像难以进行固定阈值分割的问题，具有传统算法无可比拟的优点。尽管基于深度学习的语义分割方法已经在各个领域取得了较为良好的效果，然而绝大部分图像分割算法均采用全监督的方式进行训练，需要大量手工标记的标签作为训练样本。消耗了大量的人力物力资源，部分大型数据集的构建甚至需要数月之久。因此，无监督语义分割具有广阔的应用前景和重要的现实意义。图像语义分割任务常用的评价指标有像素精度、平均像素精度、平均交并比、频率权重交并比等。
[0003]近年来，众多研究者提出了一系列全监督语义分割算法。2014 年提出的FCN首次将神经网络的最后一层全连接层替换为卷积层，设计了一个全卷积网络，可以接受任意尺寸的输入。2015...

【技术保护点】

【技术特征摘要】
1.一种表面压印字符图像的无监督分割方法，其特征在于，其步骤如下：步骤一：构建网络训练样本；步骤二：为满足语义分割任务需要，改进型循环式生成对抗网络是一种表面压印字符图像的无监督分割方法的主要部分，构造改进型循环式生成对抗网络：分别构建生成器G
XY
、G
YX
与判别器D
X
、D
Xr
、D
Y
和D
Yr
；步骤三：将训练样本送入构建好的网络进行训练；步骤四：将测试样本送入训练好的生成器G
XY
，输出x
t
使用最大类间方差法（Otsu）进行自动阈值分割，得到二值图x
s
。2.根据权利要求1所述的一种表面压印字符图像的无监督分割方法，其特征在于：所述步骤一具体包括以下步骤：a．将摄像机采集到的表面压印字符图像统一缩放至512
×
512
×
3大小，共计200张图像，作为原域数据；其中160张图像作为训练数据，40张图像作为测试数据，测试图像具有手工标注的标签；b．使用PhotoShop软件构造160张随机字符二值图像，尺寸为512
×
512
×
1，字符在图像中随机出现，字符的字体、位置、字号与数量不固定；随机字符图像是二值图，字符像素值为255，背景像素值为0。3.根据权利要求1所述的一种表面压印字符图像的无监督分割方法，其特征在于：所述步骤二具体包括以下步骤：a．生成器G
XY
的构建；
①ꢀ
G
XY
的任务是实现原域彩色图像到目标域灰度图像的生成，去除彩色图像包含的纹理等细节信息，保留前景轮廓信息，生成的目标域灰度图像前景灰度值应逼近255，背景灰度值应逼近0；
②ꢀ
G
XY
由编码、特征转换和解码三部分构成；编码阶段包含卷积层和一次下采样过程，下采样由步长为2的卷积完成；在特征转换阶段的第一步，网络将特征图通过空间注意力模块进行关键特征提取；空间注意力模块对输入特征图沿通道方向分别进行最大池化与平均池化，得到两张单通道特征图；将两者沿通道方向拼接后再通过一个卷积层即得空间注意热力图，模块输入特征图与空间注意热力图相乘得到空间注意特征图；
③ꢀ
空间注意力模块输出特征图再使用扩张卷积提取不同尺度的特征，按照提取特征尺度的不同分为三条支路；三条支路分别通过U型网络完成特征转化；
④ꢀ
U型网络会对特征图进行一次下采样，此时特征图到达网络最深层级，该层特征图包含最高级的语义信息；此时，网络引入通道注意力模块，使用通道注意力模块增大关键通道权重，忽略非关键通道，可以促进网络性能的提升；通道注意力模块输入特征图分别进行...

【专利技术属性】
技术研发人员：韩宗桓，刘名果，陈立家，田敏，兰天翔，梁倩，代震，王赞，
申请(专利权)人：河南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人