基于注意力机制的视频哈希检索方法技术

技术编号：24035862 阅读：31 留言：0更新日期：2020-05-07 01:53

本发明专利技术提供了一种注意力机制的视频哈希检索方法，包括以下步骤：（1）视频预处理：对视频帧进行采样，并构建视频对；（2）视频帧特征提取：利用卷积神经网络对每一帧进行特征提取；（3）视频特征学习：利用孪生网络、长短期记忆神经网络（LSTM）和注意力机制对视频进行学习；（4）降维和训练：利用全连接层对视频特征进行降维，得到想要的长度的哈希码，并使用梯度下降算法学习网络参数。（5）检索：利用孪生网络的一路网络得到每个视频的哈希码，计算与其他视频的海明距离并进行排序，得到距离最近的视频。与现有技术相比，本发明专利技术实现了同时学习视频的空间信息和时间信息，而且通过采样等技术大大降低了计算代价，也提高了视频检索的准确率。

Video hash retrieval method based on attention mechanism

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力机制的视频哈希检索方法
本专利技术涉及一种视频哈希检索方法，属于视频、多媒体信号处理

技术介绍
随着网络和移动社交媒体的发展，海量的多媒体信息不断地产生，尤其是图片和视频。著名的图片分享网站Flickr，每分钟有3000张图片被上传上传；视频分享网站YouTube，每分钟上传的视频时长高达100小时。因此，如何对海量的多媒体信息进行检索是一个热点话题。从前我们主要通过关键字对图片和视频进行检索，但这往往会检索出我们不想要的结果。基于这个原因，基于内容的检索被提了出来。哈希方法由于其优点，即检索迅速和节省空间，在近年来成为一个热门的研究方向。哈希方法通过将图片或者视频映射成紧凑且离散的二值码（通常是0和1或者-1和1），即哈希码，在海明空间中通过异或运算来计算样本之间的海明距离，通过海明距离来决定检索的结果。由于哈希码是紧凑的，所以存储空间得以大大减小。而海明距离的计算极为迅速，所以检索的速度也得到了保证。传统的哈希方法主要是针对图片，是基于内容的检索方法。通过对图片进行特征提取，得到每张图片的特征。然后对特征进行哈希映射。最后将连续的值映射成离散的哈希码。哈希方法分为有数据独立的方法和数据依赖的方法。数据独立的方法是指哈希方法不需要数据进行训练，而数据依赖的方法需要数据对哈希方法进行训练。而视频与图片有很大的不同。在图片哈希中，我们只考虑空间信息。所以只提取图片的空间信息就足以表示图片的特征。而视频每一帧是一张图片，并且同时有很多帧，这些帧就是一个时间序列。每一帧和图像一样，包含空...

【技术保护点】
1.一种基于注意力机制的视频哈希检索方法，其特征在于该方法包括以下步骤：/n(1)视频预处理：对视频帧进行采样，并构建视频对，视频对包括同一类的视频对即正样本对和不同类的视频对即负样本对，同一类的视频对的标签为1，不同类的视频对标签为0；/n(2)视频帧特征提取：将视频采样后的每一帧输入卷积神经网络VGG19，取倒数第二层全连接输出的特征作为每一帧的特征；/n(3)利用孪生网络、长短期记忆神经网络LSTM和注意力机制对视频进行学习：将视频对中的两个视频分别输入孪生网络的两路神经网络，分别得到两个视频对应的视频特征表示，其中，孪生网络的两路神经网络是参数共享的，且每一路神经网络都是LSTM和注意力机制构成的网络，利用注意力机制，可以区别不同帧的重要性，不同帧被赋予不同的权重；/n(4)降维和训练：利用全连接层对视频特征进行降维，得到想要长度的哈希码，并使用梯度下降算法学习网络参数；/n(5)检索：当网络训练完成后进行检索时，只利用孪生网络中的一路网络，将一个视频输入到一路网络中，输出该视频对应的值为-1到+1的近似哈希码，然后通过量化得到该视频的哈希码，并通过计算该视频的哈希码与其他视频...

【技术特征摘要】
1.一种基于注意力机制的视频哈希检索方法，其特征在于该方法包括以下步骤：
(1)视频预处理：对视频帧进行采样，并构建视频对，视频对包括同一类的视频对即正样本对和不同类的视频对即负样本对，同一类的视频对的标签为1，不同类的视频对标签为0；
(2)视频帧特征提取：将视频采样后的每一帧输入卷积神经网络VGG19，取倒数第二层全连接输出的特征作为每一帧的特征；
(3)利用孪生网络、长短期记忆神经网络LSTM和注意力机制对视频进行学习：将视频对中的两个视频分别输入孪生网络的两路神经网络，分别得到两个视频对应的视频特征表示，其中，孪生网络的两路神经网络是参数共享的，且每一路神经网络都是LSTM和注意力机制构成的网络，利用注意力机制，可以区别不同帧的重要性，不同帧被赋予不同的权重；
(4)降维和训练：利用全连接层对视频特征进行降维，得到想要长度的哈希码，并使用梯度下降算法学习网络参数；
(5)检索：当网络训练完成后进行检索时，只利用孪生网络中的一路网络，将一个视频输入到一路网络中，输出该视频对应的值为-1到+1的近似哈希码，然后通过量化得到该视频的哈希码，并通过计算该视频的哈希码与其他视频哈希码之间的海明距离对候选视频进行排序，得到最相近的视频。

2.如权利要求1所述的一种基于注意力机制的视频哈希检索方法，其特征在于：所述步骤(1)的具体实现步骤是：
①对视频帧进行均匀采样，每个视频都均匀地抽取特定数量的视频帧；
②将每一帧都调整为相同大小的帧；
③构建视频对，包括同类的样本对和不同类的样本对，同类视频对和不同类视频对的比例是1:1，构造视频对时，随机选择一个视频，然后从余下的视频中随机选取一个同类的视频，随机选取一个不同类的视频，这样可以构造一个正样本视频对和一个负样本视频对。

3.如权利要求1所述的一种基于注意力机制的视频哈希检索方法，其特征在于：所述步骤(2)的具体实现步骤是：
①对每一帧利用...

【专利技术属性】
技术研发人员：聂秀山，尹义龙，王迎新，
申请(专利权)人：山东建筑大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人