当前位置: 首页 > 专利查询>东北大学专利>正文

基于结构化信息特征解耦与知识迁移的视觉场景识别方法技术

技术编号:32317931 阅读:32 留言:0更新日期:2022-02-16 18:23
本发明专利技术公开了一种基于结构化信息特征解耦与知识迁移的视觉场景识别方法,包括如下步骤:使用Canny边缘检测器提取图像的边缘表示形式,并基于自动编码器将其转换为边缘特征矢量;利用微调后的ResNet

【技术实现步骤摘要】
基于结构化信息特征解耦与知识迁移的视觉场景识别方法


[0001]本专利技术涉及计算机视觉及机器人领域,具体涉及一种基于结构化信息特征解耦与知识迁移的视觉场景识别方法。

技术介绍

[0002]准确的场景识别有助于机器人认知自身的状态,很好地完成工作任务。所谓场景,指的是真实世界中,由传感器所记录的某一个时刻某一地点的数据,它包含了各种不同物体的组合。移动机器人的任务就是在不同时间段重复地访问同一场景,并判断出该场景是否是之前所经历过的。场景识别一般围绕“这是哪里”进行展开,通过对场景中的目标进行检测分析,或者进行稳定的特征提取,来对当前所处场景进行分析和判断。例如,在视觉SLAM(Simultaneous Localization and Mapping,即时定位与地图构建)过程中,精准的场景识别可以帮助机器人判断是否已处于之前访问过的环境区域,从而形成闭环检测并进行地图优化,这对于保证地图的一致性、减少累积误差是至关重要的。《IEEE international conference on robotics and automation(ICRA),1011

1018,2018》公开了一种可转换的生成器,它可以对图像的昼夜、季节等条件进行变换。该图像变换生成器是基于SURF检测器和稠密描述符所设计的,用于辅助特征匹配,从而在剧烈的外观变化下提高视觉场景识别和度量定位的精度。《IEEE International conference on robotics and automation(ICRA),4489

4495,2018》提出了一种对抗性的、用于终身的、增量的域适应方法。该方法通过使用生成对抗网络来近似源域的特征分布,使得部署模块可以完全独立于大量的源训练数据。《IEEE International Conference on Robotics and Automation(ICRA),9271

9277,2020》提出了一种多光谱域不变框架,该框架通过在目标函数中引入新的约束条件,利用非成对图像变换方法生成具有语义和强区分性的不变图像,展现了在多光谱场景识别任务上有竞争力的性能。因此,视觉场景识别方法的关键问题在于,针对外观变化情形下的网络训练、基于对抗训练的特征解耦和基于结构化信息的知识迁移。

技术实现思路

[0003]针对以往场景识别方法在外观变化情形下的特征冗余交错、图像表征能力的不足,本专利技术提出了一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法。该方法利用结构信息学习深度解耦的特征表示用于场景识别。通过引入概率知识迁移的方法,实现了结构信息从Canny边缘检测器到结构编码器的迁移,并添加了一个外观教师模型,以帮助外观编码器生成更具体的特征。此外,还引入了仿射变换产生附加噪声至卷积自动编码器中,以解决边缘对视角变化过于敏感的问题。该方法能够提升外观变化情形图像特征的表征能力,从而保证生成的图像特征能够应对复杂的环境变化,提升机器人的场景重识别能力,以服务于导航、定位等应用场景。
[0004]本专利技术的技术方案是这样实现的:
[0005]基于结构化信息的特征解耦与知识迁移的视觉场景识别方法,包括如下步骤:
[0006]步骤一,使用Canny边缘检测器提取图像X的边缘表示形式X
CE
,并基于自动编码器将其转换为矢量X
CT

[0007]步骤二,利用微调后的ResNet

34提取图像X的外观特征表示X
AT

[0008]步骤三,对于输入图像X,送入特征解耦网络,则会分别生成结构化特征向量X
SC
与外观特征向量X
A
。随后,X
SC
被送入至D
AA
用于判断所提取的结构化特征向量是否来自于同一个域。此外,X
SC
的特征分布将会与内容教师模块生成的X
CT
进行对比。至于X
A
,它不仅会被三元组损失函数进行优化,其分布还会与外观教师模块生成的X
AT
进行对比。
[0009]步骤四,解码器D
E
整合输入的特征并重构原始图像,用于鼓励所学习的内容特征与外观特征能够形成完整的输入图像的表示。提取结构化特征向量X
SC
作为最终的场景特征,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。
[0010]进一步地,步骤一:首先为了实现二维的射影变换,需要找到图像中的四个点来估测单应性矩阵。在每帧图像的角落的边框内随机选择四个点。边框的大小设定为来确保视角变化的合理程度。H和W分别为图像的宽度与高度。
[0011]图像的边缘表示形式为
[0012]X
CE
=Canny(X)
ꢀꢀꢀ
(1)
[0013]Canny(
·
)为Canny边缘检测器提取边缘操作。
[0014]边缘的矢量表示则为:
[0015]X
CT
=Auto_encoder(X
CE
)
ꢀꢀꢀ
(2)
[0016]Auto_encoder(
·
)为自动编码器的特征编码操作。
[0017]进一步地,步骤二:对于输入图像X,利用微调后的ResNet

34提取外观特征表示X
AT

[0018]X
AT
=ResNet(X)
ꢀꢀꢀ
(3)
[0019]ResNet(
·
)为提取ResNet

34的倒数第二层特征的操作。
[0020]进一步地,步骤三:
[0021]对于外观特征,通过编码器E
A
进行提取,表示为:
[0022]X
A
=E
A
(X)
ꢀꢀꢀ
(4)
[0023]通过如下损失函数来对外观编码器进行训练:
[0024][0025]其中α控制分离的边缘,且y
ij
∈{

1,1}。θ
A
是外观编码器的参数。
[0026]结构化内容特征通过编码器E
SC
进行提取,表示为:
[0027]X
SC
=E
SC
(X)
ꢀꢀꢀ
(6)
[0028]为了获得外观不相关的特征,设计了一个具有判别力的外观分类损失函数。在训练阶段,将内容特征送入外观判别器D
AA
中。E
SC
的目的就是为了欺骗D
AA
,使得它无法正确的对内容特征进行分类。
[0029]需要基于生成的E
SC
与交叉熵损失函数对外观判别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于结构化信息特征解耦与知识迁移的视觉场景识别方法,其特征在于,具体步骤如下:步骤一,使用Canny边缘检测器提取图像X的边缘表示形式X
CE
,并基于自动编码器将其转换为矢量X
CT
;步骤二,利用微调后的ResNet

34提取图像X的外观特征表示X
AT
;步骤三,对于输入图像X,送入特征解耦网络,则会分别生成结构化特征向量X
SC
与外观特征向量X
A
;随后,X
SC
被送入至D
AA
用于判断所提取的结构化特征向量是否来自于同一个域。此外,X
SC
的特征分布将会与内容教师模块生成的X
CT
进行对比。至于X
A
,它不仅会被三元组损失函数进行优化,其分布还会与外观教师模块生成的X
AT
进行对比;步骤四,解码器D
E
整合输入的特征并重构原始图像,用于鼓励所学习的内容特征与外观特征能够形成完整的输入图像的表示;提取结构化特征向量X
SC
作为最终的场景特征,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。2.根据权利要求1所述的一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法,其特征在于,所述步骤一的具体过程如下:首先为了实现二维的射影变换,需要找到图像中的四个点来估测单应性矩阵。在每帧图像的角落的边框内随机选择四个点。边框的大小设定为来确保视角变化的合理程度。H和W分别为图像的宽度与高度;图像的边缘表示形式为X
CE
=Canny(X)
ꢀꢀꢀꢀꢀꢀ
(1)Canny(
·
)为Canny边缘检测器提取边缘操作;边缘的矢量表示则为:X
CT
=Auto_encoder(X
CE
)
ꢀꢀꢀꢀ
(2)Auto_encoder(
·
)为自动编码器的特征编码操作。3.根据权利要求1所述的一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法,其特征在于,所述步骤二的具体过程为:对于输入图像X,利用微调后的ResNet

34提取外观特征表示X
AT
:X
AT
=ResNet(X)
ꢀꢀꢀꢀ
(3)ResNet(
·
)为提取ResNet

34的倒数第二层特征的操作。4.根据权利要求1所述的一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法,其特征在于,所述步骤三的具体过程为:外观特征通过编码器E
A
进行提取,表示为:X
A
=E
A
(X)
ꢀꢀꢀꢀ
(4)通过如下损失函数来对外观编码器进行训练:其中α控制分离的边缘,且y
ij
∈{

【专利技术属性】
技术研发人员:张云洲秦操刘英达杨非杜承垚
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1