【技术实现步骤摘要】
一种光学
‑
红外融合场景语义描述方法及装置
[0001]本专利技术属于计算机视觉、图像字幕领域,具体涉及一种光学
‑
红外融合场景语义描述方法及装置。
技术介绍
[0002]人们获取周边环境信息均在可见光的条件下进行的,当视力受损或遇到极端天气时,所能获得的可见光信息减少,将会严重影响人们对周边环境的判断。图像描述领域经过了数十年的发展,现有的技术已经可以通过图像解译模型对可见光图像生成描述,并且可以判断对象与对象之间的交互关系,比如“一个人在街道上骑行”。
[0003]现有的图像解译模型大部分是通过可见光图像进行的,并且可见光图像信息较为明显,但在大雾、夜晚等条件下,可见光信息严重不足,进而无法有效获取图像信息并进行准确描述。为此有人提出从红外图像中解译文字描述的方法,此方法能够降低恶劣环境的影响,较为准确地识别出对象并描述其中的交互信息。但红外图像分辨率低、细节信息较少,在环境良好的条件下,红外图像解译模型的准确度无法与可见光图像描述相比,并且无法判断大体的时间。此外,现有图像解 ...
【技术保护点】
【技术特征摘要】
1.一种光学
‑
红外融合场景语义描述方法,其特征在于,包括:对目标场景获取对齐的一对可见光图像和红外图像;将所述一对可见光图像和红外图像输入预设的多模态图像融合描述网络,所述网络通过分别对所述可见光图像和所述红外图像提取特征后得到融合后的特征向量,对所述融合后的特征向量进行注意力机制学习,输出由所述网络的备选语料库中单词组成的句子作为所述一对可见光图像和红外图像的语言描述结果。2.根据权利要求1所述的方法,其特征在于,所述一对可见光图像和红外图像通过包含可见光相机和红外相机的双相机获取;在获取图像之前,对所述双相机进行标定,使得所述双相机获取的可见光图像和红外图像尺寸相同且背景一致。3.根据权利要求1所述的方法,其特征在于,所述多模态图像融合描述网络包括:依次连接的CNN特征提取融合子网络、RNN注意力机制子网络和LSTM子网络;其中,所述CNN特征提取融合子网络包括两个结构相同的Resnet网络单元以及分别与两个Resnet网络单元的输出连接的Sum函数单元;所述RNN注意力机制子网络包括依次连接的三个全连接层、一个tanh激活函数单元、一个softmax函数单元;所述LSTM子网络为一个解码器网络,由门控机制和候选状态S组成,其中门控制机制由输入门、遗忘门和输出门构成。4.根据权利要求3所述的方法,其特征在于,所述CNN特征提取融合子网络,用于对输入的一对红外图像与可见光图像分别进行特征提取,并通过Sum函数对两张图像的特征进行相加,得到对应的图像特征向量输入到RNN注意力机制子网络中;所述RNN注意力机制子网络,用于根据输入的图像特征向量对图像的不同区域进行权重分配;所述LSTM子网络,用于根据RNN注意力机制子网络的权重分配结果,并结合备选语料库,生成对应输入图像的多个单词并最终组成描述语句。5.根据权利要求3所述的方法,其特征在于,所述Resnet网络单元采用去掉最后一层全连接层的Resnet101网络。6.根据权利要求3所述的方...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。