一种图像场景解析方法和装置制造方法及图纸

技术编号:25639327 阅读:47 留言:0更新日期:2020-09-15 21:31
本发明专利技术公开一种图像场景解析方法,涉及图像处理领域;该方法的一个具体实施方式包括:预先训练用于执行图像场景解析的残差网络;其中,残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层;基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层;自注意力模块用于对特征图数据重加权并将重加权后的数据与特征图数据拼接;1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出;将目标图像输入训练完成的所述残差网络中,得到目标图像各像素对应的场景。该实施方式可提供一种运算量较小、推断速度较快同时准确率不会明显降低的场景解析方法。

【技术实现步骤摘要】
一种图像场景解析方法和装置
本专利技术涉及图像处理
,尤其涉及一种图像场景解析方法和装置。
技术介绍
场景解析是计算机视觉中一个高层次的问题,其主要目标是预测图片中每个像素的类别,从而理解图片中的场景。目前解决场景解析问题的主流方法是基于深度卷积神经网络的方法,经典框架有全卷积网络(FCN),Encoder-Decoder框架等。为了准确预测每个像素的类别,网络需要融合不同位置像素的信息。常见的融合方式有金字塔池化、空洞卷积和自注意力机制等。其中自注意力机制用于捕获长距离关系,大部分自注意力机制采取的是squeeze-and-excite模式,即首先经过squeeze对特征图进行聚合,得到精简后的信息,再通过excite把精简后的信息分发到每个位置,实现对不同位置信息的重加权,从而捕捉长距离依赖关系。自注意力机制的具体实现方式有很多种,因为squeeze和excite两个步骤都有多种具体形式。不同形式的实现导致算法的空间复杂度、推断速度及准确率都各不相同。一般地,现有技术中的自注意力模块的运算量非常大。在实际应用中,需要根据需求同本文档来自技高网...

【技术保护点】
1.一种图像场景解析方法,其特征在于,包括:/n预先训练用于执行图像场景解析的残差网络;其中,/n所述残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层;/n所述基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层;自注意力模块用于对所述特征图数据重加权并将重加权后的数据与所述特征图数据拼接;所述1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出;/n在自注意力模块中,输入的所述特征图数据被1*1卷积核处理后形成索引数据、键数据和值数据;通过主成分分析方法对所述键数据进行降维,计算降维后的键数据与所述索引数据...

【技术特征摘要】
1.一种图像场景解析方法,其特征在于,包括:
预先训练用于执行图像场景解析的残差网络;其中,
所述残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层;
所述基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层;自注意力模块用于对所述特征图数据重加权并将重加权后的数据与所述特征图数据拼接;所述1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出;
在自注意力模块中,输入的所述特征图数据被1*1卷积核处理后形成索引数据、键数据和值数据;通过主成分分析方法对所述键数据进行降维,计算降维后的键数据与所述索引数据的相似度并将该相似度标准化,将标准化后的相似度与所述值数据相乘从而得到所述重加权后的数据;以及
将目标图像输入训练完成的所述残差网络中,得到目标图像各像素对应的场景。


2.根据权利要求1所述的图像场景解析方法,其特征在于,所述通过主成分分析方法对所述键数据进行降维,包括:
将所述键数据转换为N行M列的初始矩阵;
将初始矩阵的每一行进行零均值化处理;
确定经零均值化处理的初始矩阵的协方差矩阵;
获取该协方差矩阵的多个特征值以及每一特征值对应的特征向量;
获取最大的K个特征值以及相应的特征向量,将该特征向量按照对应的特征值从大到小的顺序排列从而形成变换矩阵;
将变换矩阵与初始矩阵相乘从而将所述键数据的维度从M降到K;其中,
N为通道数,M为所述特征图数据的宽度和高度的乘积,K为小于M的正整数。


3.根据权利要求1所述的图像场景解析方法,其特征在于,所述预先训练用于执行图像场景解析的残差网络,包括:
获取包括多个训练样本的训练集;其中,每一训练样本中包含一幅可见光图像以及该图像各像素的场景解析结果;
利用该训练集训练所述残差网络。


4.根据权利要求3所述的图像场景解析方法,其特征在于,
所述标准化是通过softmax函数实现的;
所述自注意力模块为非局部模块non-localblock;
所述目标图像和所述可见光图像为具有天空、地面物体和/或无人机的图像。


5.一种图像场景解析装置,其特征在于,包括:
训练单元,用于预先训练用于执行图像场景解析的残差网络;其中,
所述残差网络包括依次连接的输入层、含有多个卷积层的基本网...

【专利技术属性】
技术研发人员:李司同张樯李斌赵凯赵文超
申请(专利权)人:北京环境特性研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1