【技术实现步骤摘要】
一种基于多层次交互融合的多模态数据场景识别方法
[0001]本专利技术属于数据识别
,涉及对多模态数据的融合识别方法,具体涉及一种基于多层次交互融合的多模态数据场景识别方法。
技术介绍
[0002]自动驾驶中的的分类、检测和预后等任务中,通常需要从多个传感器获取的数据中提取出相关的信息,然后进行多模态数据融合。融合结果能够利用不同模态之间的差别以及信息上的互补性,使得融合后的数据对目标具有更全面、清晰的描述,从而快速地完成任务。
[0003]自动驾驶的数据融合方法可以分为像素级、特征级和决策级三种。其中,像素级别融合后的数据具有更多的细节信息,比如边缘、纹理的提取,能够尽可能地保留原始数据的信息,有利于结果的进一步分析、处理与理解。特征级别的数据融合是从原始数据中提取特征并分析,融合后的特征明显高于原始数据的精确度,所消耗的内存少、计算速度快。决策级别的数据融合是以认知为基础,其抽象等级也是最高的,在进行数据处理时受到的噪声影响也最小。在基于深度学习的自动驾驶技术中,进行场景识别任务时,通常使用视觉数据进行分类 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于多层次交互融合的多模态数据场景识别方法,其特征在于:具体包括以下步骤:步骤一、将传感器获取的车载信息通过one
‑
hot编码为特征向量X
info
∈R5×
768
,然后建立三个全连接层作为前馈神经网络FN,采用SeLu激活函数,输入车载向量X
info
,获取车载信息向量h
a
∈R1×
512
:h
a
=FN(X
info
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(0)步骤二、将传感器获取的场景视频数据X
vedio
∈R
T
×
C
×
H
×
W
通过ResNet50网络模型按帧进行特征提取,得到第k帧的特征向量h
k
∈R1×
1024
,其中T表示视频帧数量,C表示通道数,H、W分别表示视频帧的长、宽,k∈{1,...,T};将每个特征向量在帧数量的维度方面合并,最终得到该场景视频的特征c∈R
T
×
1024
;步骤三、建立基于双阶段注意力机制的多示例学习模型,其中第一阶段的注意力模型根据门控注意力机制,为每帧的特征向量h
k
赋予注意力分数α
k
,第二阶段的注意力模型根据特征向量h
k
计算查询向量q
k
和信息向量v
k
,然后选取注意力分数α
k
最高的两个特征向量h
top1
、h
top2
作为关键帧特征,计算查询向量q
k
与两张关键帧特征h
top1
、h
top2
之间距离,作为第二阶段的注意力得分Score
k
:其中<,>表示内积,q
mi
表示两张关键帧对应的查询向量,q
t
表示每一帧特征的查询向量;根据注意力得分Score
k
对信息向量v
k
进行加权和与降维操作,得到场景视频的2D级别特征向量h
b
∈R1×
512
:其中L1表示全连接层操作;步骤四、将场景视频数据X
vedio
在帧维度堆叠成3D图像块,然后分割成4个同等大小的3D图像块X
block
∈R
T
×
C
×
(1/2)H
×
(1/2)W
,通过卷积层映射为图像块向量X
p
∈R1×
768
,并根据已知信息,建立相同维度的类别标记向量X
class
与其合并,在与车载信息向量融合,得到嵌入层向量X0∈R
(4+1)
×
768
;步骤五、使用自注意力模块SA将嵌入层向量X0转化为查询矩阵Q、关键字矩阵K和值矩阵V,并计算计算三个矩阵之间的注意力输出矩阵:其中,d
key
表示关键字矩阵K中每个关键字向量key的维度;使用多头注意力模块MSA将嵌入层向量X0沿着第二个维度输入划分为P个部分,分别计算每个部分的注意力函数后合并输出:MSA(Q,K,V)=Concat(head
d1
,...,head
dp
)W
O
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
技术研发人员:薛梦凡,江浩东,彭冬亮,李焘,韩璐,郑建楠,宋怡然,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。