当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于图像生成的语义分割方法和系统技术方案

技术编号:37782085 阅读:25 留言:0更新日期:2023-06-09 09:12
本发明专利技术公开了一种基于图像生成的语义分割方法,包括:获取待分割图像,对待分割图像进行归一化处理,并将归一化处理后的待分割图像转换为张量格式的图像,将得到的张量格式的图像输入预先训练好的语义分割模型中,以得到语义分割结果。本发明专利技术能够解决现有基于判别式模型的语义分割方法由于知识不足、信息不够丰富,导致该方法无法达到最佳的精度,进而导致准确性和泛化性不佳的技术问题,以及由于该方法必须随着总类别数量的增减来修改像素级分类器的输出通道数,频繁的模型修改会导致时间成本增加的技术问题。成本增加的技术问题。成本增加的技术问题。

【技术实现步骤摘要】
一种基于图像生成的语义分割方法和系统


[0001]本专利技术属于图像数据处理
,更具体地,涉及一种基于图像生成的语义分割方法和系统。

技术介绍

[0002]如今,语义分割(Semantic Segmentation)在计算机视觉领域已经得到了日趋广泛的应用,包括自动驾驶、机器人、抠图软件等。由于每张图像中都包含丰富的语义实体,因此,如何在模型中存储更丰富的语义知识成为了提升语义模型的检测性能的关键。
[0003]现有的语义分割方法是采用判别式的模型,其首先利用特征提取网络得到整张图像的特征,然后,利用一个像素级分类器将这些特征上的每个像素位置上的特征都转化为类别的概率值。其中概率值的个数与类别总数相等,最后,直接利用交叉熵损失函数监督模型的离线训练。
[0004]然而,现有基于判别式模型的语义分割方法存在一些不可忽略的缺陷:第一,由于判别式语义分割模型中的像素级分类器本质上是学习不同类别的特征和其判别边界,并没有学习到足够丰富的语义信息和细节特征,这导致现有的判别式语义分割模型难以达到最佳的平均交并比(mean Inter本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于图像生成的语义分割方法,其特征在于,包括以下步骤:(1)获取待分割图像,对待分割图像进行归一化处理,并将归一化处理后的待分割图像转换为张量格式的图像。(2)将步骤(1)得到的张量格式的图像输入预先训练好的语义分割模型中,以得到语义分割结果。2.根据权利要求1所述的基于图像生成的语义分割方法,其特征在于,语义分割模型包括依次连接的图像特征提取器、离散特征序号分类器、离散特征码表、语义图像解码器、颜色

类别映射模块、类别

颜色映射模块、以及语义图像编码器,其中类别

颜色映射模块和语义图像编码器仅用于对语义分割模型进行离线训练。图像特征提取器为SwinTransformer网络,它包括依次连接的24个Swin Transformer模块。图像特征提取器接收输入维度为bs
×3×
h
×
w的图像,输出为四个特征矩阵。特征矩阵的维度分别是阵的维度分别是和其中,bs为离线训练过程中预先设置的批量数据大小,h和w分别是图像的长边的像素数量和短边的像素数量。3.根据权利要求1或2所述的基于图像生成的语义分割方法,其特征在于,离散特征序号分类器包括特征聚合层、特征加工层和分类器模块。特征聚合层是一个卷积模块,其输入是Swin Transformer网络输出的四个特征矩阵,输出是一个聚合后的特征矩阵,其维度是特征加工层由两层Swin Transformer模块组成,其输入是特征聚合层聚合后的特征矩阵,输出是特征矩阵,其维度是分类器模块的输入是特征加工层输出的特征矩阵,输出是概率矩阵,其维度是该概率矩阵中的每一个元素是8192个离散特征在该元素中出现的概率。4.根据权利要求1至3中任意一项所述的基于图像生成的语义分割方法,其特征在于,离散特征码表是多个离散特征的集合,其中,离散特征的维度是128,每个离散特征在离散特征码表中都有一个描述唯一的序号,即离散特征序号。离散特征码表的输入是分类器模块输出的概率矩阵,输出是离散特征矩阵,其维度是具体而言,首先是找到概率矩阵的每个元素中概率最大的离散特征对应的离散特征序号,概率矩阵中的所有元素对应的序号组成序号矩阵,然后,根据该序号矩阵中的每个元素在离散特征码表中查询对应的离散特征,所有元素对应的所有离散特征构成离散特征矩阵。语义图像解码器具体采用DALL

E的VQ

VAE模型的解码器,输入是从离散特征码表输出的离散特征矩阵,维度是输出是预测的语义图像,维度是bs
×3×
h
×
w。语义图像解码器的权重是从网络下载的DALL

E的VQ

VAE模型的解码器的权重,并将其加载到语义图像解码器中。颜色

类别映射模块是Embedding模块,该Embedding模块的权重是维度为C
×
3的类别

颜色数组,颜色

类别映射模块的输入是语义图像解码器输出的维度为bs
×3×
h
×
w的待预测的语义图像,输出是维度为bs
×1×
h
×
w的语义分割结果,其中C表示类别总数,语义分割结果是预测的语义掩码,即图像中每个像素对应的类别。具体而言,颜色

类别映射模块首先是计算语义图像的第i行、第j列的像素L(i,j)到每个类别c
k
的预设的RGB颜色的绝对距离其中k∈[1,C],其中分别表示预测的语义图像的像素L(i,j)上的R、G、B颜色值,R
k
、G
k
、B
k
分别表示类别c
k
的预设的R、G、B颜色值。然后,获取得到的C个绝对距离中的最小值所对应的类别作为像素L(i,j)对应的类别k
L
=argmin
k
(d
L,k
),最后,将语义图像中所有像素L(i,j)对应的类别k
L
按照空间位置进行拼接,从而得到语义分割结果。5.根据权利要求4所述的基于图像生成的语义分割方法,其特征在于,类别

颜色映射模块用于根据每个像素的类别获取该像素对应的颜色,其输入是维度为bs
×1×
h
×
w的语义掩码的真值,输出是维度为bs
×3×
h
×
w的语义图像的真值。其中,语义分割掩码的真值来自离线训练时使用的数据集。语义图像编码器具体采用DALL

E的VQ

VAE模型的编码器,其输入是类别

颜色映射模块输出的语义图像的真值,其维度为bs
×3×
h
×
w,输出是维度为的等价特征矩阵的真值。6.根据权利要求1所述的基于图像生成的语义分割方法,其特征在于,语义分割模型是采用以下步骤训练得到的:(1)获取ADE20K数据集,将该ADE20K数据集的25574组图像及其对应语义掩码的真值划分为训练集,将ADE20K数据集的2000组图像及其对应语义掩码的真值划分为验证集。(2)生成维度为C
×
3的类别颜色数组。(3)对图像特征提取器、离散特征序号分类器、离散特征码表、类别

颜色映射模块、颜色

类别映射模块和语义图像编码器的权重进行初始化,以得到初始化后的图像特征提取器、离散特征序号分类器、离散特征码表、类别

颜色映射模块、颜色

类别映射模块和语义图像编码器。(4)利用步骤(1)得到的ADE20K数据集的训练集、步骤(3)得到的初始化后的离散特征码表、类别

颜色映射模块和语义图像编码器,对步骤(3)得到的初始化后的图像特征提取器和离散特征序号分类器进行训练,以得到训练好的图像特征提取器和离散特征序号分类器。(5)对步骤(4)得到的训练好的图像特征提取器、离散特征序号分类器的权重、步骤(3)得到的初始化的离散特征码表、颜色

类别映射模块的权重、以及语义图像解码器的权重进行保存,以得到语义分割模型的权重。其中,语义图像解码器的权重是从网络下载的DALL

E的VQ

VAE模型的解码器的权重。7.根据权利要求6所述的基于图像生成的语义分割方法,其特征在于,步骤(2)包括以
下子步骤:(2

1)生成三个一维数组A
R
、A
G
、A
B
。优选地,数组的每个元素分别是和和且有k1∈[1,数组A
R
中的元素总数],k2∈[1,数组A
G
中的元素总数],k3∈[1,数组A
B
中的元素总数]。(2

2)设置计数器k1=1、k2=1、k3=1,并初始化RGB颜色数组A
RGB
为空数组。(2

3)判断k1是否大于预设的最大循环次数J(其取值等于数组A
R
中的元素总数),...

【专利技术属性】
技术研发人员:张力陈家棋卢嘉晨朱霞天
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1