一种深度学习和哈希编码的视频检索方法技术

技术编号:21184717 阅读:39 留言:0更新日期:2019-05-22 15:19
本发明专利技术公开了一种深度学习和哈希编码的视频检索方法,其特征在于,使用同一种特征进行镜头分割和特征提取;在视频检索中,镜头分割把相同镜头的视频帧作为冗余帧处理以降低计算量并提升检索效率,将镜头特征提取算法得到的特征作为镜头切分的依据以解决同一镜头内不同帧的特征存在差异的问题。本发明专利技术所述方法的优越效果是能够实现镜头级别的视频检索并能提高检索的准确率;在视频检索能力方面的视频镜头检索准确率达95%以上,采用了纯二值操作,速度能够提升4倍。

A Video Retrieval Method Based on Deep Learning and Hash Coding

The invention discloses a video retrieval method based on in-depth learning and hash coding, which is characterized by using the same feature for shot segmentation and feature extraction; in video retrieval, shot segmentation uses the same shot's video frame as redundant frame processing to reduce computation and improve retrieval efficiency, and uses the features obtained by shot feature extraction algorithm as the basis of shot segmentation to solve the problem. Resolve the problem that the characteristics of different frames in the same shot are different. The advantages of the method are that the video retrieval at the shot level can be realized and the retrieval accuracy can be improved; the video shot retrieval accuracy in the video retrieval ability can reach more than 95%, and the speed can be increased by four times by using pure binary operation.

【技术实现步骤摘要】
一种深度学习和哈希编码的视频检索方法
本专利技术属于计算机视觉
,尤其涉及一种深度学习和哈希编码的视频检索方法。
技术介绍
目前,视频检索包括两种类型,分别是基于文本的视频检索(TextBasedVideoRetrieval,RBVR),和基于内容的视频检索(ContentBasedVideoRetrieval,CBVR)。基于文本的视频检索要求用户输入关键词,然后系统返回和输入关键词相关的图像,并按和关键词的相关程度来排序。这种检索方式在目前的互联网应用中较为广泛,但在很多情况下,用户无法用语言精确地描述想要检索的视频内容。公开号为CN109033121A的专利申请公开了一种基于云存储的视频检索方法,包括以下步骤:将需检索的视频段信息进行截取获得若干个图片样本;图片样本转换为图像模型数据;对转换的图像模型数据进行特征向量的建立;将建立的特征向量与云存储中存储的若干视频段信息对应的原图像模型数据的特征向量进行重合度检测,得到重合度;筛选出重合度大于重合度阀值的视频段;筛选的视频段信息按照重合度系数的大小,依次输出对应的视频段。本专利技术通过对需检索的视频段进行截取、转换和匹配索引,可筛选出重合度大于重合度阀值的视频段信息。公开号为CN108986186A的专利申请公开了文字转化视频的方法和系统,输入用自然语言表达的场景表述的文本信息;对视频数据集进行过滤筛选;对过滤后的候选视频片段和输入的场景描述匹配,输出匹配度高的视频片段;利用编码器和解码器,将匹配度高的视频片段进行文本描述;将筛选出的视频片段的文本描述与自然语言表达的场景的文本表述进行相似度的选择和比对,输出内容上符合自然语言表达的场景的输入文本的关键帧集合;在关键帧集合中进行识别和提取对象,生成对象集;依照场景图和对象集最终生成关键帧,生成视频。利用基于自然语言处理的视频检索方法。因此,基于内容的视频检索,是一种根据视频内容来检索相似视频的方法。区别于基于文本的视频检索,在这种检索方式下,用户输入不是文字,而是一段视频或一副图像。基于内容的视频检索和基于内容的图像检索问题密切相关,两者都要解决图像间特征的提取、相似性的计算、大规模数据场景下快速索引的问题。两个问题的不同之处在于视频内容的冗余程度更大,需要对视频进行镜头级别的分析以降低检索时的计算量。常规的视频检索算法在分割镜头和提取图像帧特征时采用不同的特征提取算法,可能导致同一个镜头不同帧的画面特征存在较大差异。
技术实现思路
本专利技术的目的在于提供一种能够克服上述技术问题的深度学习和哈希编码的视频特征提取方法,本专利技术所述方法的特征在于是基于视频图像的特征提取方法。本专利技术所述方法包括以下步骤:步骤1、将视频文件解码成视频帧。步骤2、基于深度学习提取视频帧特征,将卷积神经网络CNN的卷积层输出特征作为图像检索的图像特征向量来使用。步骤2.1、卷积层的输出特征表示为其中C表示特征图的通道数,H表示特征图的高度,W表示特征图的宽度;将单个关键帧的特征f从单一向量转换成局部特征描述子的集合以降低物体位移、镜头角度变化、物体尺度的干扰的影响;f′中的每一个元素为原特征图上坐标为i,j的特征向量,特征向量的数量为H*W个。步骤3、通过特征哈希方法将浮点特征映射为二值特征,包括以下步骤:步骤3.1、使用近似最近邻哈希方法将f′中单个局部特征描述子映射到哈希空间;对于一个f′中的特征向量之一x,定义包含n个子哈希函数的哈希函数H(x),其定义为:H(x)={q(h1(x)),q(h2(x)),...,q(hn(x))};上式中hi(x)为子哈希函数,q(x)为量化函数,上述步骤3.1是先通过子哈希函数hi(x)将f′中的特征向量映射到哈希空间。步骤4、采用多比特哈希编码方法,将哈希空间中的浮点向量量化为二值向量,转换为二值特征描述子能够降低特征存储的空间开销并提升特征比对速度。步骤4.1、定义哈希函数q′(x,θn),θn表示从输入标量x统计的n个聚类中心,将x划分到n+1个空间中,经过q’量化的x共有n+1种表示;当n为1且θn为0时,q’等价于q;新的编码占用n个比特位,对于n+1个空间中的位置i,所述n个比特位中前n-i个值为0,后i个值为1;例如,对于n为4的情况,共有0、1、2、3、4状态,分别量化为0000,0001,0011,0111,1111;量化能够实现在异或运算规则下,不同状态异或后1的个数等价于十进制差的绝对值,4–1=Popcnt(1111^0001)=Popcnt(1110)=3;所述Popcnt为汇编指令,即返回数字中比特值1的个数。步骤5、计算每个相邻帧哈希特征的相似性,相似性高的合并为同一镜头;步骤5.1、一个镜头选中间帧作为代表帧,不同帧的两个哈希特征集合A和B之间计算相似度的方式为Jaccard距离,定义一个阈值s,集合H1和H2中当两个二值特征异或后1的数量大于s认为不相似即表示不在交集中,小于等于s认为相似即表示在交集中,Jaccard距离定义为步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。本专利技术所述方法能够提升视频检索中的检索准确性和检索效率,使用同一种特征进行镜头分割和特征提取;在视频检索中,镜头分割把相同镜头的视频帧作为冗余帧处理以降低计算量并提升检索效率,将镜头特征提取算法得到的特征作为镜头切分的依据以解决同一镜头内不同帧的特征存在差异的问题。本专利技术所述方法的优越效果是能够实现镜头级别的视频检索并能提高检索的准确率;本专利技术所述方法在视频检索能力方面的视频镜头检索准确率达95%以上,特征建模时间和视频时长成正比,时间约为视频总时长的1/10。在编码有效性方面:在256个子哈希函数组成的哈希函数下,在私有图像测试集上,相比较于1bit传统编码方法,采用4bit的编码,平均准确率(mAP)从32%提升至80%。同样4bit情况下,新的编码方法相较于直接十进制做差;0,1,2,3,4分别为二进制0000,0001,0010,0011,0100,两两之间通过十进制计算规则相减取绝对值,专利技术所述方法采用了纯二值操作,因此,速度能够提升4倍。附图说明图1是本专利技术所述方法的流程示意图;图2是本专利技术所述方法的特征提取示意图。具体实施方式下面结合附图对本专利技术的实施方式进行详细描述。如图1所示,总流程分为特征入库和视频检索两部分。特征入库是离线过程,目的是从视频库的视频中提取视频的代表特征,存入视频特征库;视频检索是在线过程,从单个输入视频提取视频特征,并在视频特征库中遍历匹配,输出匹配即检索结果。视频检索和视频入库中的特征提取流程相同,如图2所示,具体步骤如下:步骤1、从视频库中取视频文件,输入到特征提取程序中;步骤2、用视频解码库(如FFMPEG)将视频解码成视频帧,当要降低运算量时,允许跳帧;步骤3、用ImageNet开源数据库预训练的卷积神经网络提取深度学习特征;特征提取位置为卷积神经网络中的卷积层输出,用SqueezeNet中fire9/concat层的输出;特征提取后,按照本
技术实现思路
中的步骤2,取局部特征描述子的集合f′,对于SqueezeNet神经网络,其fire9/concat层的输入图像大小为227x227,输出大小为1*512*13*13,则集合f本文档来自技高网
...

【技术保护点】
1.一种深度学习和哈希编码的视频检索方法,其特征在于,包括以下步骤:步骤1、将视频文件解码成视频帧;步骤2、基于深度学习提取视频帧特征,将卷积神经网络CNN的卷积层输出特征作为图像检索的图像特征向量来使用;步骤3、通过特征哈希方法将浮点特征映射为二值特征;步骤4、采用多比特哈希编码方法,将哈希空间中的浮点向量量化为二值向量,转换为二值特征描述子能够降低特征存储的空间开销并提升特征比对速度;步骤5、计算每个相邻帧哈希特征的相似性,相似性高的合并为同一镜头;步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。

【技术特征摘要】
1.一种深度学习和哈希编码的视频检索方法,其特征在于,包括以下步骤:步骤1、将视频文件解码成视频帧;步骤2、基于深度学习提取视频帧特征,将卷积神经网络CNN的卷积层输出特征作为图像检索的图像特征向量来使用;步骤3、通过特征哈希方法将浮点特征映射为二值特征;步骤4、采用多比特哈希编码方法,将哈希空间中的浮点向量量化为二值向量,转换为二值特征描述子能够降低特征存储的空间开销并提升特征比对速度;步骤5、计算每个相邻帧哈希特征的相似性,相似性高的合并为同一镜头;步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。2.根据权利要求1所述的一种深度学习和哈希编码的视频检索方法,其特征在于,所述步骤2包括以下步骤:步骤2.1、卷积层的输出特征表示为其中C表示特征图的通道数,H表示特征图的高度,W表示特征图的宽度;将单个关键帧的特征f从单一向量转换成局部特征描述子的集合以降低物体位移、镜头角度变化、物体尺度的干扰的影响;f′中的每一个元素为原特征图上坐标为i,j的特征向量,特征向量的数量为H*W个。3.根据权利要求1所述的一种深度学习和哈希编码的视频检索方法,其特征在于,所述步骤3包括以下步骤:步骤3.1、使用近似最近邻哈希方法将f′中单个局部特征描述子映射到哈希空间;对于一个f′中的特征向量之一x,定义包含n个子哈希函数的哈希函数H(x),其定义为:H(x)={q(h1(x)),q(h2(x)),....

【专利技术属性】
技术研发人员:孔彦伭剑辉赵玉军王黎明
申请(专利权)人:四川远鉴科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1