基于关键帧融合与注意力机制的遥感视频哈希检索方法技术

技术编号:35565674 阅读:8 留言:0更新日期:2022-11-12 15:49
本发明专利技术公开了一种基于关键帧融合与注意力机制的遥感视频哈希检索方法,主要解决现存方法未能充分捕捉遥感视频的类别级语义及语义信息利用不足的问题。本发明专利技术设计了一种新的设计了一种新的视频时空信息提取结构来提取三维视频数据在二维空间中的数据表示,并且在卷积神经网络的结构下引入注意力机制提取出视频在汉明空间中的相应哈希码。本发明专利技术不仅捕获了不同模式下哈希码的相对语义相关,学习了深度特征的相对语义相关,而且增强了哈希码的类别级语义,减少了类哈希码和哈希码之间的量化误差。本发明专利技术充分利用遥感视频时空语义信息,进一步提升检索性能。进一步提升检索性能。进一步提升检索性能。

【技术实现步骤摘要】
基于关键帧融合与注意力机制的遥感视频哈希检索方法


[0001]本专利技术属于遥感视频检索领域,具体涉及一种基于关键帧融合与注意力机制的遥感视频哈希检索方法。

技术介绍

[0002]随着地球观测技术的迅速发展,遥感视频检索在遥感数据处理领域受到广泛关注,因此,在大规模的遥感影像数据中,挖掘出有用的信息是非常关键的。为了挖掘有用的信息,许多研究人员对遥感数据检索的研究非常关注。因为遥感数据检索可以快速检索到有用的信息,并已被应用于许多方面。遥感视频检索是通用视频检索下的一个分支,在检索的内容上更专注于遥感视频数据。
[0003]随着遥感数据量的爆炸性增长,高效的遥感数据分析技术在处理遥感数据受到了迫切的关注。遥感视频检索的任务是利用遥感视频数据进行相关遥感视频的检索。由于遥感视频的数据量大,数据不同尺度信息差异大,用户很难迅速获得有利的信息。如何解决遥感视频数据多尺度问题是遥感视频检索任务的重要挑战。
[0004]近年来,有很多学者利用深度学习方法解决遥感视频数据检索问题。常见的做法是将所有遥感视频数据编码到它们相应的特征中,然后在共同表征空间中计算不同视频的相似性。尽管现有的遥感视频检索方法有一定的发展,但是仍然有两点不足:1)遥感视频通常包括时间与空间复杂信息,现存方法大多使用视频帧进行图像特征提取,未能利用视频的时间维度的信息。2)遥感视频相比遥感图像多出一维数据信息,现有方法对其检索仍有一定的时间复杂度较高问题。

技术实现思路

[0005]本专利技术的目的是针对上述不足,提出基于关键帧融合与注意力机制的遥感视频哈希检索方法,通过学习遥感视频数据的语义信息,利用改进的卷积神经网络模型生成哈希码,最后利用相似度计算来检索出给定数目的遥感视频项。本专利技术充分利用遥感视频时空语义信息,进一步提升检索性能。
[0006]本专利技术解决该问题采用的技术方案为:基于关键帧融合与注意力机制的遥感视频哈希检索方法,本专利技术首先设计了一种新的视频时空信息提取结构来提取三维视频数据在二维空间中的数据表示。其次在固有卷积神经网络的结构下引入注意力机制提取出视频在汉明空间中的相应哈希码。本专利技术主要包括三个实现步骤,提取、学习和选择。给定要查询的遥感视频,首先提取遥感视频的表示特征。然后利用固定的同类遥感视频相似关系进行哈希码学习。最后,利用相似度计算得到相似的K个视频。除此之外,本专利技术引入了时间注意力机制与空间注意力机制,能够对遥感视频的关键信息进行重要性选择。具体步骤如下:
[0007]步骤1,划分训练数据集和测试数据集;
[0008]步骤2,构建视频关键帧提取融合模块,包括关键帧提取模块与基于空间注意力机制的视频帧融合模块;
[0009]关键帧提取融合模块包括关键帧提取模块与基于空间注意力机制的视频帧融合模块。其中,关键帧提取模块的处理过程为:从一个视频中使用图像直方图对帧进行K均值聚类,根据不同帧的LUV颜色空间的帧间差值进行排序,同时根据帧的亮度分数进行过滤,最后根据拉普拉斯的方差,即模糊检测排序中选择关键帧。其次在视频帧融合模块中通过三维卷积进行关键帧的融合,最后输入到空间注意力模块内获取比较更重要的视频语义信息。
[0010]步骤3,构建卷积神经网络,用于计算视频的特征表示和哈希码:
[0011]所述卷积神经网络包括语义特征提取部分和特征哈希码映射部分。其中,语义特征提取部分包括五个卷积块顺序连接,其中每个卷积块包含通过残差模块连接的不同数量的通道注意力卷积块,第一个卷积块包含1个7
×
7卷积层,第二个卷积块包含3个通道注意力卷积块,第三个卷积块包含8个通道注意力卷积块,第四个卷积块包含36个通道注意力卷积块,第五个卷积块包含3个通道注意力卷积块,通道注意力卷积块包括第一1
×
1残差卷积层、第一通道注意力层、第二3
×
3卷积层、第二通道注意力层、第三1
×
1卷积层。哈希映射部分为两个全连接层,包括被sigmoid函数激活的1
×
1000的全连接层和被tanh函数激活的1
×
k的全连接层,k为映射的哈希码长度;
[0012]步骤4,训练整体网络模型,计算整体网络模型的目标函数并更新整体网络模型的初始参数;
[0013]步骤5,使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前n个精度,得出平均精度指标MAP和前n名检索结果。
[0014]进一步的,步骤2的具体实现方式如下;
[0015]输入视频V由一系列连续的帧组成其中F
i
为视频帧,N为视频帧的个数,随机选取J个聚类中心计算欧几里得距离d=Argmin

x
i

y
j
║2,其中x
i
,y
j
为不同的帧样本,Argmin
║║2为欧几里得距离最小的目标函数。利用平均值重新计算新类的中心,如果聚类中心有变化,则重复迭代上述步骤,直至聚类中心不变为止,根据得到的聚类中心提取关键帧。
[0016]得到相应的帧后输入到三维卷积中进行融合,再输入到空间注意力模块进行处理,具体公式如下:
[0017][0018]其中,F
sa
为融合帧经过空间注意力处理的结果,f
i
为聚类算法提取的关键帧,Conv3D()为三维卷积,k为关键帧的数量,

为按元素点乘,Cat()为向量拼接,M
sa
是空间注意力信息,具体公式如下:
[0019]M
sa
=σ(Conv2([P
avg
(f);P
max
(f)]))
[0020]其中,f表示输入到空间注意力模块的特征图,P
avg
为平均池化层,P
max
为最大池化层,Cat()为帧融合函数,Conv2()为二维卷积,σ是Sigmoid激活函数。
[0021]进一步的,步骤3中通道注意力层M
ca
(f)的具体公式为:
[0022]M
ca
(f)=σ(MLP(P
avg
(f))+MLP(P
max
(f)))
[0023]其中,f表示输入到通道注意力层的特征图,P
avg
为平均池化层,P
max
为最大池化层,σ()表示sigmoid函数,MLP为共享的多层感知机。
[0024]进一步的,步骤4中的目标函数由视频特征表示项和哈希码表示项组成,视频特征表示项的具体表达公式如下:
[0025]L(B)=l(x,y)={l1,

,l
N
}
T
,
[0026][0027]其中w是不同类别权重设置,根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关键帧融合与注意力机制的遥感视频哈希检索方法,其特征在于,包括如下步骤:步骤1,划分训练数据集和测试数据集;步骤2,构建视频关键帧提取融合模块,包括关键帧的筛选提取模块与帧的信息融合模块;关键帧提取融合模块包括关键帧提取模块与基于空间注意力机制的视频帧融合模块;其中,关键帧提取模块是从一个视频中使用图像直方图对帧进行K均值聚类,根据不同帧的LUV颜色空间的帧间差值进行排序,同时根据帧的亮度分数进行过滤,最后根据拉普拉斯的方差,即模糊检测排序中选择关键帧;在视频帧融合模块中通过三维卷积进行关键帧的融合,最后输入到空间注意力模块内获取更重要的视频语义信息;步骤3,构建卷积神经网络,用于计算视频的特征表示和哈希码:所述卷积神经网络包括语义特征提取部分和特征哈希码映射部分,其中,语义特征提取部分包括五个卷积块顺序连接,其中每个卷积块包含通过残差模块连接的不同数量的通道注意力卷积块,哈希映射部分为两个全连接层;步骤4,训练整体网络模型,计算整体网络模型的目标函数并更新整体网络模型的初始参数;步骤5,使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前n个精度,得出平均精度指标MAP和前n名检索结果。2.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法,其特征在于:步骤2中的具体实现方式如下;输入视频V由一系列连续的帧组成随机选取J个聚类中心计算欧几里得距离d=Argmin

x
i

y
j
║2,其中x
i
,y
j
为不同的帧样本,Argmin|| ||2为欧几里得距离最小的目标函数,利用平均值重新计算新类的中心,如果聚类中心有变化,则重复迭代上述步骤,直至聚类中心不变为止,根据得到的聚类中心提取关键帧;得到相应的关键帧后输入到三维卷积中进行融合,再输入到空间注意力模块进行处理,具体公式如下:其中,F
sa
为融合帧经过空间注意力处理的结果,f
i
为聚类算法提取的关键帧,Conv3D()为三维卷积,k为关键帧的数量,

为按元素点乘,Cat()为向量拼接,M
sa
是空间注意力信息,具体公式如下:M
sa
=σ(Conv2([P
avg
(f);P
max
(f)]))其中,f表示输入到空间注意力模块的特征图,P
avg
为平均池化层,P
max
为最大池化层,Cat()为帧融合函数,Conv2()为二维卷积,σ是Sigmoid函数。3.如权利要求1所述的一种基于关键帧融合与注意力机制的遥感视频哈希检索方法,其特征在于:通道注意力卷积层M
ca
(f)的具体公式为:
M
ca
...

【专利技术属性】
技术研发人员:陈亚雄杨锴黄景灏李小玉熊盛武
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1