一种基于深度卷积网络的视频内容检索方法技术

技术编号:23050293 阅读:16 留言:0更新日期:2020-01-07 14:48
本发明专利技术公开了一种基于深度卷积网络的视频内容检索方法,通过深度学习的方法对视频进行分类,提取出网络模型,将模型移动至个人数据库,然后设计一个Html静态页面作为视频内容检索系统的检索模块,提出python运行功能、检索功能、文本显示功能三种要求,实现视频分类模块和视频内容检索模块的对接;该发明专利技术集合视频分类与视频检索与整体系统,能够在检索视频输入到系统自动给视频打上一个内容标签,同时可以检索出与视频相关的一类视频,达到实时输入,实时检索的效果。

A video content retrieval method based on deep convolution network

【技术实现步骤摘要】
一种基于深度卷积网络的视频内容检索方法
本专利技术涉及视频处理
,具体涉及一种基于深度卷积网络的视频内容检索方法。
技术介绍
如今视频数量爆炸式增加,视频包含的内容也越来越丰富。用户对视频的需求也发生了很大变化,从每个视频简单的观看,到视频内容指定片段的搜索、视频内容的分析等。因此,面对如此之多的视频数据,创建一个视频内容检索系统,使用户从海量的视频中精确地查找包含指定片段的视频片段,具有广阔的应用前景。目前想要找到视频中的特定片段的话,通常是按标签对具有共性的内容进行合并,这是传统的视频分类形式。然而,这种分类形式需要人工分类,先观看整部视频,再截取特定片段从而做成一个集锦。传统的视频分类形式是以整部视频为单位,对整部视频添加名称或者备注,通过检索视频名称或备注信息进行分类,效率比较低下。也有应用深度学习应用于视频检索,其通过使用相似度学习或者是基于原始的文本学习,对比相似度的差异,实现分类效果,例如:在专利文献CN108228915A中,华南理工大学提出一种基于深度学习的视频检索,其方法使用长短记忆网络对预处理的视频进行特征提取,最后通过相似度计算并排序,得到视频检索的结果。该文是基于对视频进行分析,提取关键帧信息,同时对训练分类的关键帧和检索视频的关键帧的对比,即基于视频内容的检索。但是该方法在对视频再一次做关键帧的对比会加大计算量,使运行的时间加长。在专利文献CN109783691A中,四川远鉴科技有限公司提出一种基于深度学习和哈希编码的视频检索方法,其特征在于使用同一种特征进行镜头分割和特征提取;在视频检索中,镜头分割把相同镜头的视频帧作为冗余帧处理以降低计算量并提升检索效率,将镜头特征提取算法得到的特征作为镜头切分的依据已解决同一镜头不同帧的特征存在差异的问题,该专利技术是为了提高镜头级别的视频检索。但是该方法在做视频检索时大多依据视频的镜头特性,并没有使用视频内容,不能很好的做到运行内容得到更精准的分类。在专利文献WO8205838A1中提出一整套检索系统,该检索系统首先获取需要检索的类似视频的视频信息,其中视频信息包括视频标签和视频标题。根据预先设置的知识图获取与视频库中的视频信息匹配的视频,获得第一候选视频集;利用预先设置的文本深度表示模型训练视频信息,将视频信息转换为单词向量;筛选时,根据矢量字,将一个类似于视频的视频信息从视频库中获取第二个候选视频集;并根据第一候选视频集和第二候选视频集确定与所述视频信息相似的视频。但是该方案需要预先搭建一个视频库,而搭建视频库需要耗费大量资源,同时只能找到视频库内信息。现有技术在视频检索中大多采用基于对象的分类,同时应用深度学习提取特征没有应用于视频方面,仅仅作为是视频分类结果,这样做只是得到一个视频归类效果,不能找到现在需要的视频,满足不了人们对相类似视频的查找需要。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种基于深度卷积网络的视频内容检索方法,该方法应用深度学习网络提取视频特征,分析效果,得到并导出模型,将模型导入到个人数据库的网络,接着将需要检索的视频通过模型提取特征,分析对比相应的特征,可以从个人数据库查找到与检索视频相关的资料视频,满足对该类视频的检索需求,做到快速查询出相同类别视频的有效途径。本专利技术的目的通过下述技术方案实现:一种基于深度卷积网络的视频内容检索方法,包括下述步骤:S1,视频的分类:确定所需检索的视频,通过网络爬虫或者网上数据下载,查找到所有与所需检索视频相关的视频信息及内容,通过深度卷积神经网络对所有视频进行分类;采用LSTM长短期记忆网络对所有视频数据进行分类处理;S1.1,将收集的视频按比例分成训练集和测试集,并将训练集视频切割成一张张关键帧的视频图像,将所有关键帧放置对应文件夹下;S1.2,将所有关键帧图像通过Inception模块遍历,然后在Inception模块网络的最终池化层即保存输出,不做最后的网络分类;然后将每个图像提取的特征整合,每40个帧特征整合为一个序列并保存至数据硬盘中;S1.3,将每个视频的序列按顺序输入到LSTM长短期记忆网络中,长短期记忆网络通过遗忘门、输入门和输出门决定信息的有用与否,并决定是否抛弃;遗忘门公式如下所示:ft=σ(Wf[ht-1,xt]+bf),其中ht-1为前一序列的输出,xt为当前序列的输入,Wf和bf为遗忘门的权重与偏置,通过Sigmoid函数学习到一个0~1的遗忘数字,1代表完全保留,0代表彻底删除;输入门公式如下所示:it=σ(Wi[ht-1,xt]+bi),C′t=tanh(Wc[ht-1,xt]+bc),其中Wi、bi、Wc、bc为记忆层和输入层的权重与偏置,先通过Sigmoid函数学习一个需要更新的数据的记忆数字,然后通过tanh函数创建候选向量,该向量会被加入到细胞的状态中;状态更新公式如下所示:Ct=ft*Ct-1+it*C′t,通过遗忘数字ft和记忆数字it得到更行的状态Ct;输出门公式如下所示:ot=σ(Wo[ht-1,xt]+bo),ht=ot*tanh(Ct),Sigmoid函数决定了要输出什么信息,然后将单元格状态通过tanh函数,并乘以Sigmoid门的输出,则可输出想要输出的该视频与其他视频不同的那部分信息;S1.4,将序列通过4096宽的LSTM层,通过全连接层输出,最后通过softmax函数层预测分类结果,得到所需的模型;S2,模型的提取;通过LSTM深度卷积网络的训练,可以得到相应的对视频分类的模型,将模型保存并提取至个人数据库相应位置,同时将所有文件视频放置数据库文件下,并且通过对视频分类后提取所有视频文件的文件名放置至到一个txt文件中,通过txt文件可以搜寻到视频相应位置;S3,检索视频的预测结果;输入一个需要检索的视频,通过自动切割并转换为序列,输入到已经训练好的模型中,通过模型的测试得到视频分类的结果,将测试的结果保存至创建好的测试结果文件夹;S4,视频检索;设计一个html静态网页,用作检索系统的载体,视频内容的检索步骤如下:S4.1,将需要检索的视频输入到检索系统中;S4.2,视频通过S1的分类方法可以自动给检索视频打上一个视频内容的标签;S4.3,将视频的内容的标签放入网页中检索,寻找到与标签相同的视频信息并显示出来;S4.4,输出检索出的视频,达到输入视频即可找到相关视频的实时检索效果。本专利技术与现有技术相比具有以下的有益效果:(1)本专利技术实现完整的视频分类及检索的一系列整合操作,可以通过在系统键入视频内容信息,则可以检索出需要寻找的视频,达到更加快速和方便的效果;(2)本专利技术可以自己构建出自己所需特征数据库,最后的检索仅需键入相关的视频内容信息即可以搜索出与视频信息相关的视频,不用再一次做视频的相似度的比较,可以简化最后检本文档来自技高网
...

【技术保护点】
1.一种基于深度卷积网络的视频内容检索方法,其特征在于,包括下述步骤:/nS1,视频的分类:/n确定所需检索的视频,通过网络爬虫或者网上数据下载,查找到所有与所需检索视频相关的视频信息及内容,通过深度卷积神经网络对所有视频进行分类;采用LSTM长短期记忆网络对所有视频数据进行分类处理;/nS1.1,将收集的视频按比例分成训练集和测试集,并将训练集视频切割成一张张关键帧的视频图像,将所有关键帧放置对应文件夹下;/nS1.2,将所有关键帧图像通过Inception模块遍历,然后在Inception模块网络的最终池化层即保存输出,不做最后的网络分类;然后将每个图像提取的特征整合,每40个帧特征整合为一个序列并保存至数据硬盘中;/nS1.3,将每个视频的序列按顺序输入到LSTM长短期记忆网络中,长短期记忆网络通过遗忘门、输入门和输出门决定信息的有用与否,并决定是否抛弃;遗忘门公式如下所示:/nf

【技术特征摘要】
1.一种基于深度卷积网络的视频内容检索方法,其特征在于,包括下述步骤:
S1,视频的分类:
确定所需检索的视频,通过网络爬虫或者网上数据下载,查找到所有与所需检索视频相关的视频信息及内容,通过深度卷积神经网络对所有视频进行分类;采用LSTM长短期记忆网络对所有视频数据进行分类处理;
S1.1,将收集的视频按比例分成训练集和测试集,并将训练集视频切割成一张张关键帧的视频图像,将所有关键帧放置对应文件夹下;
S1.2,将所有关键帧图像通过Inception模块遍历,然后在Inception模块网络的最终池化层即保存输出,不做最后的网络分类;然后将每个图像提取的特征整合,每40个帧特征整合为一个序列并保存至数据硬盘中;
S1.3,将每个视频的序列按顺序输入到LSTM长短期记忆网络中,长短期记忆网络通过遗忘门、输入门和输出门决定信息的有用与否,并决定是否抛弃;遗忘门公式如下所示:
ft=σ(Wf[ht-1,xt]+bf),
其中ht-1为前一序列的输出,xt为当前序列的输入,Wf和bf为遗忘门的权重与偏置,通过Sigmoid函数学习到一个0~1的遗忘数字,1代表完全保留,0代表彻底删除;
输入门公式如下所示:
it=σ(Wi[ht-1,xt]+bi),
C′t=tanh(Wc[ht-1,xt]+bc),
其中Wi、bi、Wc、bc为记忆层和输入层的权重与偏置,先通过Sigmoid函数学习一个需要更新的数据的记忆数字,然后通过tanh函数创建候选向量,该向量会被加入到细胞的状态中;状态更新公式如下所示:...

【专利技术属性】
技术研发人员:叶武剑江齐刘怡俊刘文杰翁韶伟
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1