一种基于多模态图像融合的目标检测方法及装置制造方法及图纸

技术编号：34006429 阅读：19 留言：0更新日期：2022-07-02 13:29

本发明专利技术提供一种基于多模态图像融合的目标检测方法及装置。所述方法包括：实时获取视频图像和红外图像，并分别输入至由Transformer构成的目标检测模型；对所述视频图像和红外图像分别进行全局特征提取；对提取的视频图像特征和红外图像特征进行融合；将视频图像和红外图像的融合特征输入由Transformer全连接层构成的预测模块，输出目标类别和目标位置。本发明专利技术利用纯Transformer构建目标检测模型，可充分发挥Transformer整体结构带来的模型优势；本发明专利技术基于视频图像和红外图像的特征融合进行目标检测，可以实现任何光照条件下的目标检测，解决了现有检测系统在夜晚等黑暗环境下检测效果差的问题。在夜晚等黑暗环境下检测效果差的问题。在夜晚等黑暗环境下检测效果差的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态图像融合的目标检测方法及装置

[0001]本专利技术属于目标检测
，具体涉及一种基于多模态图像融合的目标检测方法及装置。

技术介绍

[0002]长期以来，如何帮助视力障碍弱势群体获得更好的行动能力一直是备受关注的社会问题。及时、正确地感知周围环境是协助提升目标个体活动安全性和生活质量必不可少的条件。借助近年来迅猛发展的计算机视觉技术，基于卷积神经网络(CNN)的各种深度学习模型已经能够在对于自然场景图像的实时识别任务中表现出突出的能力，甚至拥有超越人类的准确性及稳定性，并被成功部署于产品之中，例如近来取得优秀成果的自动驾驶技术。
[0003]一些不断涌现的针对视障人群研发的视觉辅助感知穿戴型电子设备也获益于此，借助设备上的微型摄像头或传感器采集实时场景中的图像或视频数据，由其搭载的模型进行对应的计算，从而为穿戴者提供场景目标检测的结果信息。然而，大多数目标检测模型都是基于亮度充足的可见光彩色图像数据进行建模的，这使得模型在接收环境光照条件较差(如夜晚、阴暗空间等生活中的场景)的可见光图像输入时性能大大降低，无法达到足够的识别能力，相应的视障辅助设备也就不能够为穿戴者及时地提供危险警报。

技术实现思路

[0004]为了解决现有技术中存在的上述问题，本专利技术提供一种基于多模态图像融合的目标检测方法及装置。
[0005]为了实现上述目的，本专利技术采用以下技术方案。
[0006]第一方面，本专利技术提供一种基于多模态图像融合的目标检测方法，包括以下步骤：
>[0007]实时获取分别由视频摄像头和红外摄像头拍摄的视频图像和红外图像，并分别输入至由Transformer构成的目标检测模型；
[0008]利用由Transformer编码器构成的特征编码模块对所述视频图像和红外图像分别进行全局特征提取；
[0009]利用由Transformer解码器构成的特征融合模块对提取的视频图像特征和红外图像特征进行融合；
[0010]将视频图像和红外图像的融合特征输入由Transformer全连接层构成的预测模块，输出目标类别和目标位置。
[0011]进一步地，所述方法在进行全局特征提取前还包括对输入的视频图像和红外图像分别进行的如下操作：
[0012]将图像切割成N个切片；
[0013]将每个切片在通道维度展开，输入至一个线性全连接层得到一个d维向量；
[0014]计算切片行和列方向的正余弦位置编码，并加至线性全连接层的输出得到N
×
d编码矩阵。
[0015]更进一步地，所述特征编码模块由Transformer编码器堆叠而成，每个Transformer编码器包括一个多头自注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元；输入到多头自注意力模块的视频图像或红外图像的N
×
d编码矩阵，经过三种不同的线性变换得到大小为N
×
d
′
的查询向量、键向量和值向量，查询向量和键向量之间通过带缩放系数的向量点积计算相似度，并经softmax函数归一化后获得注意力权重矩阵，所述权重矩阵与值向量相乘后得到一路注意力结果；将多路注意力结果拼接后再映射回原来的维度d
′
，得到视频图像或红外图像的特征编码。
[0016]更进一步地，所述特征融合模块由Transformer解码器堆叠而成，每个Transformer解码器包括一个多头自注意力模块层、一个多头互注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元；第i个Transformer解码器的多头互注意力模块层的询问向量Q
i
来自多头自注意力模块层的输出，键向量K
i
和值向量V
i
分别来自特征编码模块输出的视频图像特征A和红外图像特征B；第i+1个Transformer解码器的多头互注意力模块层的询问向量Q
i+1
来自多头自注意力模块层的输出，键向量K
i+1
和值向量V
i+1
分别来自B和A；键向量K
i
和值向量V
i
均为N
×
d
′
矩阵，询问向量Q
i
为N
′×
d
′
矩阵，N
′
<N；i＝1,2,
…
。
[0017]进一步地，所述方法还包括：根据目标类别和目标位置判断危险目标及其方位，并发出危险预警信息。
[0018]第二方面，本专利技术提供一种基于多模态图像融合的目标检测装置，包括：
[0019]图像获取模块，用于实时获取分别由视频摄像头和红外摄像头拍摄的视频图像和红外图像，并分别输入至由Transformer构成的目标检测模型；
[0020]特征提取模块，用于利用由Transformer编码器构成的特征编码模块对所述视频图像和红外图像分别进行全局特征提取；
[0021]特征融合模块，用于利用由Transformer解码器构成的特征融合模块对提取的视频图像特征和红外图像特征进行融合；
[0022]目标预测模块，用于将视频图像和红外图像的融合特征输入由Transformer全连接层构成的预测模块，输出目标类别和目标位置。
[0023]进一步地，所述装置还包括向量嵌入模块，用于：
[0024]将图像切割成N个切片；
[0025]将每个切片在通道维度展开，输入至一个线性全连接层得到一个d维向量；
[0026]计算切片行和列方向的正余弦位置编码，并加至线性全连接层的输出得到N
×
d编码矩阵。
[0027]进一步地，所述特征编码模块由Transformer编码器堆叠而成，每个Transformer编码器包括一个多头自注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元；输入到多头自注意力模块的视频图像或红外图像的N
×
d编码矩阵，经过三种不同的线性变换得到大小为N
×
d
′
的查询向量、键向量和值向量，查询向量和键向量之间通过带缩放系数的向量点积计算相似度，并经softmax函数归一化后获得注意力权重矩阵，所述权重矩阵与值向量相乘后得到一路注意力结果；将多路注意力结果拼接后再映射回原来的维度d
′
，得到视频图像或红外图像的特征编码。
[0028]更进一步地，所述特征融合模块由Transformer解码器堆叠而成，每个
Transformer解码器包括一个多头自注意力模块层、一个多头互注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元；第i个Transformer解码器的多头互注意力模块层的询问向量Q
i
来自多头自注意力模块层的输出，键向量K
i
和值向量V
i
分别来本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多模态图像融合的目标检测方法，其特征在于，包括以下步骤：实时获取分别由视频摄像头和红外摄像头拍摄的视频图像和红外图像，并分别输入至由Transformer构成的目标检测模型；利用由Transformer编码器构成的特征编码模块对所述视频图像和红外图像分别进行全局特征提取；利用由Transformer解码器构成的特征融合模块对提取的视频图像特征和红外图像特征进行融合；将视频图像和红外图像的融合特征输入由Transformer全连接层构成的预测模块，输出目标类别和目标位置。2.根据权利要求1所述的基于多模态图像融合的目标检测方法，其特征在于，所述方法在进行全局特征提取前还包括对输入的视频图像和红外图像分别进行的如下操作：将图像切割成N个切片；将每个切片在通道维度展开，输入至一个线性全连接层得到一个d维向量；计算切片行和列方向的正余弦位置编码，并加至线性全连接层的输出得到N
×
d编码矩阵。3.根据权利要求2所述的基于多模态图像融合的目标检测方法，其特征在于，所述特征编码模块由Transformer编码器堆叠而成，每个Transformer编码器包括一个多头自注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元；输入到多头自注意力模块的视频图像或红外图像的N
×
d编码矩阵，经过三种不同的线性变换得到大小为N
×
d'的查询向量、键向量和值向量，查询向量和键向量之间通过带缩放系数的向量点积计算相似度，并经softmax函数归一化后获得注意力权重矩阵，所述权重矩阵与值向量相乘后得到一路注意力结果；将多路注意力结果拼接后再映射回原来的维度d'，得到视频图像或红外图像的特征编码。4.根据权利要求3所述的基于多模态图像融合的目标检测方法，其特征在于，所述特征融合模块由Transformer解码器堆叠而成，每个Transformer解码器包括一个多头自注意力模块层、一个多头互注意力模块层和一个前馈网络层以及与每层相连的一个规范化层及残差单元；第i个Transformer解码器的多头互注意力模块层的询问向量Q
i
来自多头自注意力模块层的输出，键向量K
i
和值向量V
i
分别来自特征编码模块输出的视频图像特征A和红外图像特征B；第i+1个Transformer解码器的多头互注意力模块层的询问向量Q
i+1
来自多头自注意力模块层的输出，键向量K
i+1
和值向量V
i+1
分别来自B和A；键向量K
i
和值向量V
i
均为N
×
d'矩阵，询问向量Q
i
为N'
×
d'矩阵，N'<N；i＝1,2,
…
。5.根据权利要求1所述的基于多模态图像融合的目标检测方法，其特征在于，所述方法还包括：根据目标类别和目标位置判断危险目标及其方位，并发出危险预警信息。6.一种基于多模态图像融合的目标...

【专利技术属性】
技术研发人员：张树，马杰超，俞益洲，李一鸣，乔昕，
申请(专利权)人：杭州深睿博联科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人