一种场景图像语义分割及表面法线估计方法技术

技术编号:39396003 阅读:10 留言:0更新日期:2023-11-19 15:50
本发明专利技术公开了一种场景图像语义分割及表面法线估计方法,属于图像处理技术领域。本发明专利技术方法包括:图像采集及预处理,搭建多任务学习模型并训练,再基于训练好的模型对待测图像进行预测,获取场景图像语义分割及表面法线估计输出。本发明专利技术对原PAD

【技术实现步骤摘要】
一种场景图像语义分割及表面法线估计方法


[0001]本专利技术属于图像处理
,更为具体地讲,涉及一种场景图像语义分割及表面法线估计方法。

技术介绍

[0002]在传统深度学习中,不同的视觉任务被单个神经网络单独的解决,这被称为单任务学习。与之相对的是多任务学习的概念,多任务学习能够利用一个深度神经网络同时处理多个不同的任务。同时解决多个问题的方法在真实生活中十分常见,也更为合理,例如人眼感知生活场景时会同时判断物体类别、物体大小和距离。这种方法也有许多真实应用,例如在自动驾驶场景中,为确保车辆能够安全行驶,需要对车辆行驶周围的场景进行感知,同时做到检测车道线、检测周围行人、判断物体据车辆距离和位置等多个视觉任务。
[0003]多任务学习的方法近年来引起了广泛的研究和讨论,已有不少研究成果,然而多个任务之间如何共享信息、如何减少任务之间的负迁移现象仍是亟待解决的难题。最近,有人提出了一种新型多任务学习网络模型PAD

Net。不同于以往的多任务学习模型,PAD

Net首先生成中间预测任务,然后使用多模态蒸馏模块提取中间预测任务的信息,经过融合后生成最终任务预测。实验结果表明,PAD

Net能够大幅提高多任务的预测准确度。在训练阶段,利用PAD

Net模型作为多任务学习模型,将含有图片及多个任务标签的数据集作为训练样本输入PAD

Net模型中,使得PAD

Net模型为每个视觉任务提取相应的视觉特征。进行特征提取后,生成初始多任务学习预测,生成四个不同视觉任务的初始预测,随后将生成的初始任务预测利用多模态蒸馏模块进行特征融合,使多个视觉任务的不同模态信息进行共享与交互,将融合后的信息输入解码器预测模块中,为每个视觉任务生成预测结果,利用损失函数将预测结果与真实值计算差异,利用反向传播算法对PAD

Net模型进行优化。
[0004]然而,任务间关系是决定多任务学习学习效果的关键,PAD

Net模型利用初始预测为最终任务预测提供了不同模态的数据,但没有充分利用任务间关系,进行多任务学习时,不同的视觉任务组合影响最终的任务预测结果,容易产生负迁移现象,从而产生较大的预测误差,因此设计更合理、有效的多任务模型至关重要。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供一种一种场景图像语义分割及表面法线估计方法,通过改进传统的PAD

Net模型,使其充分利用任务间的关系进行多任务学习,从而输出不同视觉任务组合影响的预测结果。
[0006]本专利技术采用的技术方案为:
[0007]一种场景图像语义分割及表面法线估计方法,该方法包括下列步骤:
[0008]步骤1,图像采集及预处理;
[0009]采集若干包含自然场景的原始图像,得到初始样本图像,并对初始样本图像进行样本增广处理;
[0010]对初始样本图像和扩展后的样本图像进行尺寸归一化处理后,在每一张图像中添加忽略区域,再将每一张图像转换为张量类型,得到训练样本;
[0011]为每个训练样本设置对应的任务标签,构成训练样本集;
[0012]步骤2,搭建多任务学习模型;
[0013]多任务学习模型包括前端骨干编码器HRNet、初始多任务预测模块、多模态蒸馏模块和解码器预测模块;
[0014]其中,前端骨干编码器HRNet的输出端接入初始多任务预测模块;
[0015]初始多任务预测模块包括上、下两个分支,每个分支的输出端依次连接多模态蒸馏模块和编码器预测模块;在每个分支的内部又包括并行的多个上采样模块,每个上采样模块执行一种任务,每个上采样模块的采样结果对应一个任务的初始预测结果,并将上下两个分支的所有任务的初始预测结果都输入至多模态蒸馏模块;
[0016]多模态蒸馏模块包括语义分割多模态蒸馏模块和表面法线多模态蒸馏模块,其分别用于对上下两个分支的多个任务的初始预测结果进行融合处理,再将上下分支的融合结果输入解码器预测模块;
[0017]步骤3,训练多任务学习模型;
[0018]步骤301,设置训练的迭代次数Epoch,每次迭代处理的批处理量batch_size;
[0019]步骤302,从训练样本集随机选取batch_size张训练样本输入至前端骨干编码器HRNet,HRNet按照不同尺度并行地提取每个训练样本的图像特征,再对不同尺度的图像特征进行特征融合得到融合图像特征,并将融合图像特征输入至初始多任务预测模块;
[0020]步骤303,在初始多任务预测模块中,上、下两个分支的上采样模块同时对HRNet输入的融合图像特征进行上采样,产生多个任务的初始预测结果,并输入至对应的多模态蒸馏模块中;
[0021]在上分支中,将第i个训练样本经上分支的第个上采样模块输出的初始预测结果记为
[0022]在下分支中,将第i个训练样本经下分支的第个上采样模块输出的初始预测结果记为
[0023]当前批处理的训练样本编号i=1,2,

,batch_size;
[0024]分别表示上下分支的任务编号,对应上下分支的上采样模块编号;
[0025]步骤304,多模态蒸馏模块对多个任务的初始预测结果进行融合;
[0026]步骤304

1,在上分支中,利用语义分割多模态蒸馏模块将每个任务的初始预测结果经过卷积操作产生特征图
[0027]利用注意力机制计算特征图的注意力图
[0028][0029]其中,表示第个任务的注意权重,σ(
·
)表示归一化注意力图,表示点乘运算;
[0030]对多个任务的初始预测结果进行融合:
[0031][0032]其中,表示上分支输出的第i个训练样本的多任务融合结果,k1表示上分支的任务编号中非任务(随机指定)的任务编号,T1表示上分支的任务数,W
k1
表示任务k1的注意权重;
[0033]步骤304

2,在下分支中,利用表面法线多模态蒸馏模块将每个任务的初始预测结果经过卷积操作产生的特征图
[0034]利用注意力机制计算特征图的注意力图
[0035][0036]其中,表示第个任务的注意权重,σ(
·
)表示归一化注意力图,表示点乘运算;
[0037]对多个任务的初始预测结果进行融合:
[0038][0039]其中,表示下分支输出的第i个训练样本的多任务融合结果,

表示点积运算,k2表示下分支的任务编号中非任务(随机指定)的任务编号,T2表示下分支的任务数,W
k2
表示任务k2的注意权重;
[0040]步骤305,解码器预测模块计算语义分割和表面法线估计的预测结果;
[0041]解码器预测模块包括上下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种场景图像语义分割及表面法线估计方法,其特征在于,包括下列步骤:步骤1,图像采集及预处理;采集若干包含自然场景的原始图像,得到初始样本图像,并对初始样本图像进行样本增广处理;对初始样本图像和扩展后的样本图像进行尺寸归一化处理后,在每一张图像中添加忽略区域,再将每一张图像转换为张量类型,得到训练样本;为每个训练样本设置对应的任务标签,构成训练样本集;步骤2,搭建多任务学习模型;多任务学习模型包括前端骨干编码器HRNet、初始多任务预测模块、多模态蒸馏模块和解码器预测模块;其中,前端骨干编码器HRNet的输出端接入初始多任务预测模块;初始多任务预测模块包括上、下两个分支,每个分支的输出端依次连接多模态蒸馏模块和编码器预测模块;在每个分支的内部又包括并行的多个上采样模块,每个上采样模块执行一种任务,每个上采样模块的采样结果对应一个任务的初始预测结果,并将上下两个分支的所有任务的初始预测结果都输入至多模态蒸馏模块;多模态蒸馏模块包括语义分割多模态蒸馏模块和表面法线多模态蒸馏模块,其分别用于对上下两个分支的多个任务的初始预测结果进行融合处理,再将上下分支的融合结果输入解码器预测模块;步骤3,训练多任务学习模型;步骤301,设置训练的迭代次数Epoch,每次迭代处理的批处理量batch_size;步骤302,从训练样本集随机选取batch_size张训练样本输入至前端骨干编码器HRNet,HRNet按照不同尺度并行地提取每个训练样本的图像特征,再对不同尺度的图像特征进行特征融合得到融合图像特征,并将融合图像特征输入至初始多任务预测模块;步骤303,在初始多任务预测模块中,上、下两个分支的上采样模块同时对HRNet输入的融合图像特征进行上采样,产生多个任务的初始预测结果,并输入至对应的多模态蒸馏模块中;在上分支中,将第i个训练样本经上分支的第个上采样模块输出的初始预测结果记为在下分支中,将第i个训练样本经下分支的第个上采样模块输出的初始预测结果记为当前批处理的训练样本编号i=1,2,

,batch_size;分别表示上下分支的任务编号,对应上下分支的上采样模块编号;步骤304,多模态蒸馏模块对多个任务的初始预测结果进行融合;步骤304

1,在上分支中,利用语义分割多模态蒸馏模块将每个任务的初始预测结果经过卷积操作产生特征图利用注意力机制计算特征图的注意力图的注意力图其中,表示第个任务的注意权重,σ(
·
)表示归一化注意力图,表示点乘运算;

【专利技术属性】
技术研发人员:王国庆李美璇裴云强杨阳
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1