The invention discloses a video retrieval method based on in-depth learning and hash coding, which is characterized by using the same feature for shot segmentation and feature extraction; in video retrieval, shot segmentation uses the same shot's video frame as redundant frame processing to reduce computation and improve retrieval efficiency, and uses the features obtained by shot feature extraction algorithm as the basis of shot segmentation to solve the problem. Resolve the problem that the characteristics of different frames in the same shot are different. The advantages of the method are that the video retrieval at the shot level can be realized and the retrieval accuracy can be improved; the video shot retrieval accuracy in the video retrieval ability can reach more than 95%, and the speed can be increased by four times by using pure binary operation.
【技术实现步骤摘要】
一种深度学习和哈希编码的视频检索方法
本专利技术属于计算机视觉
,尤其涉及一种深度学习和哈希编码的视频检索方法。
技术介绍
目前,视频检索包括两种类型,分别是基于文本的视频检索(TextBasedVideoRetrieval,RBVR),和基于内容的视频检索(ContentBasedVideoRetrieval,CBVR)。基于文本的视频检索要求用户输入关键词,然后系统返回和输入关键词相关的图像,并按和关键词的相关程度来排序。这种检索方式在目前的互联网应用中较为广泛,但在很多情况下,用户无法用语言精确地描述想要检索的视频内容。公开号为CN109033121A的专利申请公开了一种基于云存储的视频检索方法,包括以下步骤:将需检索的视频段信息进行截取获得若干个图片样本;图片样本转换为图像模型数据;对转换的图像模型数据进行特征向量的建立;将建立的特征向量与云存储中存储的若干视频段信息对应的原图像模型数据的特征向量进行重合度检测,得到重合度;筛选出重合度大于重合度阀值的视频段;筛选的视频段信息按照重合度系数的大小,依次输出对应的视频段。本专利技术通过对需检索的视频段进行截取、转换和匹配索引,可筛选出重合度大于重合度阀值的视频段信息。公开号为CN108986186A的专利申请公开了文字转化视频的方法和系统,输入用自然语言表达的场景表述的文本信息;对视频数据集进行过滤筛选;对过滤后的候选视频片段和输入的场景描述匹配,输出匹配度高的视频片段;利用编码器和解码器,将匹配度高的视频片段进行文本描述;将筛选出的视频片段的文本描述与自然语言表达的场景的文本表述进行相似度的选 ...
【技术保护点】
1.一种深度学习和哈希编码的视频检索方法,其特征在于,包括以下步骤:步骤1、将视频文件解码成视频帧;步骤2、基于深度学习提取视频帧特征,将卷积神经网络CNN的卷积层输出特征作为图像检索的图像特征向量来使用;步骤3、通过特征哈希方法将浮点特征映射为二值特征;步骤4、采用多比特哈希编码方法,将哈希空间中的浮点向量量化为二值向量,转换为二值特征描述子能够降低特征存储的空间开销并提升特征比对速度;步骤5、计算每个相邻帧哈希特征的相似性,相似性高的合并为同一镜头;步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。
【技术特征摘要】
1.一种深度学习和哈希编码的视频检索方法,其特征在于,包括以下步骤:步骤1、将视频文件解码成视频帧;步骤2、基于深度学习提取视频帧特征,将卷积神经网络CNN的卷积层输出特征作为图像检索的图像特征向量来使用;步骤3、通过特征哈希方法将浮点特征映射为二值特征;步骤4、采用多比特哈希编码方法,将哈希空间中的浮点向量量化为二值向量,转换为二值特征描述子能够降低特征存储的空间开销并提升特征比对速度;步骤5、计算每个相邻帧哈希特征的相似性,相似性高的合并为同一镜头;步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。2.根据权利要求1所述的一种深度学习和哈希编码的视频检索方法,其特征在于,所述步骤2包括以下步骤:步骤2.1、卷积层的输出特征表示为其中C表示特征图的通道数,H表示特征图的高度,W表示特征图的宽度;将单个关键帧的特征f从单一向量转换成局部特征描述子的集合以降低物体位移、镜头角度变化、物体尺度的干扰的影响;f′中的每一个元素为原特征图上坐标为i,j的特征向量,特征向量的数量为H*W个。3.根据权利要求1所述的一种深度学习和哈希编码的视频检索方法,其特征在于,所述步骤3包括以下步骤:步骤3.1、使用近似最近邻哈希方法将f′中单个局部特征描述子映射到哈希空间;对于一个f′中的特征向量之一x,定义包含n个子哈希函数的哈希函数H(x),其定义为:H(x)={q(h1(x)),q(h2(x)),....
【专利技术属性】
技术研发人员:孔彦,伭剑辉,赵玉军,王黎明,
申请(专利权)人:四川远鉴科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。