【技术实现步骤摘要】
基于融合特征门控的三维卷积神经网络的视频检索方法
[0001]本专利技术属于通信
,具体涉及到视频检索方法。
技术介绍
[0002]视频是集图像、声音、文字为一体的综合性媒体,随着互联网技术的不断发展,视频数据急速增长,对非结构化的视频数据进行结构化分析,提取视频内容的特征仍存在很大的技术难度。随着深度学习的发展,该问题逐渐得以缓解,但由于视频不仅包含空间信息,而且还包含时间信息,因此数据量大仍然是目前所面临的难题。
[0003]卷积神经网络多于处理图像等多维数据。传统的卷积神经网络基本结构包括:输入层、池化层、输出层,此外还有激活层、全连接层和标准化等分层结构,传统机器学习方法并不能有效地提取时间维度上的要求。卷积神经网络已被广泛应用,对图像的分类已取得了突破性进展,卷积神经网络适用于处理并行数据,在图像处理方面有独特的优越性,其中权值共享降低了网络的复杂性,特别是多维输入向量的图像,可以直接输入网络这一特点,避免了特征提取和分类过程中数据重建的复杂性。
[0004]解决静态图像问题二维卷积方法是最简 ...
【技术保护点】
【技术特征摘要】
1.一种基于融合特征门控的三维卷积神经网络的视频检索方法,其特征在于由下步骤组成:(1)数据集预处理取UCF
‑
101数据库13320个5~10秒的视频作为视频数据集,分成不用的种类,每个种类有25组,每组有4~7个时长不等的视频,按类别对数据集进行0
‑
101标号,作为识别标签,分别提取数据集的光流图像和颜色图像,光流图像和颜色图像包含x,y,i三个维度的特征,截取图像为224
×
224的像素,对数据集进行预处理;(2)划分数据集将视频数据集按照5:1的比例分成训练集、测试集;(3)构建三维卷积神经网络三维卷积神经网络由三维卷积模块与特征门控模块串联构成;所述的三维卷积模块由第一基本卷积层依次与第一最大池化层、第二基本卷积层、第三基本卷积层、第二最大池化层、第一3d卷积模块、第一特征门控模块、第三最大池化层、第二3d卷积模块、第二特征门控模块、第四最大池化层、第三3d卷积模块、第三特征门控模块、平均池化层、卷积层串联构成;所述的第一特征门控模块由重置门与更新门串联构成,按下式确定重置门r
t
:r
t
=σ(x
t
W
xr
+H
t
‑1W
hr
+b
r
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,σ为非线性激活函数,x
t
为当前输入样本,H
t
‑1为上一时刻隐藏状态,W
xr
为重置门输出样本x的系数,W
hr
为重置门隐藏状态在训练中的参数,b
r
为重置门的偏差,t、x为中间参数;按下式确定更新门z
t
:z
t
=σ(x
t
W
xz
+H
t
‑1W
hz
+b
z
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,x
t
为当前输入样本、H
t
‑1为上一时刻隐藏状态、W
xz
为更新门...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。