基于语义嵌入软相似性的多标签视频哈希检索方法及设备技术

技术编号:29459739 阅读:11 留言:0更新日期:2021-07-27 17:28
本发明专利技术公开了一种基于语义嵌入软相似性的多标签视频哈希检索方法及设备。抽取多标签视频中的多个关键帧构成视频帧序列,使用通过在卷积神经网络+循环神经网络的基础架构上叠加注意力模块构建的特征提取网络模块提取视频特征,使用哈希层网络提取哈希编码,使用图神经网络学习视频样本标签语义嵌入向量和类别标签之间相似关系构建语义嵌入软相似度作为监督信息指导网络学习高质量哈希编码。本方法构建了一种端到端的深度学习模型,完成输入视频,输出与查询视频相似视频形式的多标签视频检索任务,有效提高了多标签视频检索的检索效率和精度。

【技术实现步骤摘要】
基于语义嵌入软相似性的多标签视频哈希检索方法及设备
本专利技术涉及人工智能和视频检索领域,具体涉及一种基于语义嵌入软相似性的多标签视频哈希检索方法。
技术介绍
视频检索即根据用户需求从视频数据库中搜索并返回符合要求的视频,其中基于内容的视频检索是一种以视频搜视频的检索方式,它是对视频自身建模,通过相关技术提取视频的向量化特征并使用特征相似性表示原始视频数据相似性,从而找到相似度较高的视频。但是,这种最近邻搜索方式更多的是适用于对检索时间要求不高的低维数据,受数据激增的影响,传统的基于内容的视频检索面临占用大量存储空间和消耗大量检索时间的双重考验。这种情况下,哈希检索凭借检索速度快、存储空间小的优点成为检索领域的热门方法。根据是否使用监督信息,现有的哈希方法可分为无监督和有监督哈希两类:无监督哈希方法在哈希学习的过程中,不依赖于数据标签,通常采用某种随机映射的方式学习数据特征表示;而有监督的哈希在哈希学习过程中除了数据本身,还会使用诸如数据类别、数据相似性之类的数据标注作为监督。近些年来,受深度神经网络在特征表征上的突出表现的启发,哈希方法开始与深度学习结合以提高检索性能,并显示出了优越性。视频哈希检索大多是由图像哈希检索方法改进而来,它们通常是使用视频帧特征近似表示视频特征以完成哈希检索。然而这些视频哈希方法的性能并不够好,原因如下:(1)不同于图像只具有空间特征,时序特征是视频数据的一个重要特点。仅仅对视频帧进行简单融合会导致视频特征的大量丢失从而影响检索结果;(2)对于很多视频来说,不是所有视频帧的内容都与主要内容有关,在对视频建模时同等看待所有视频帧的重要性会导致生成的视频特征区分性不强;(3)随着视频数据量和信息量的进一步扩大,为了更客观的描述视频主题,人们在上传视频时对视频的标注往往不是单个标签,例如某节日音乐晚会的视频可能涵盖节日、音乐会、钢琴、小提琴等不同层次不同角度的标注,传统的单标签学习没有考虑标签间的相互关系,会对检索效果产生很大影响。基于以上分析,本专利技术研究和探索出一种适用于多标签视频检索方法,该方法是一种基于语义嵌入软相似性的多标签视频哈希检索方法。本专利技术致力于在卷积神经网络+循环神经网络的基础架构上叠加注意力模块来提取视频特征,其中双层混合注意力模块由叠加在卷积网络后面的自注意力子模块和叠加在循环神经网络中的相互注意力子模块构成。该特征提取网络可以充分发挥卷积网络在单帧图像特征提取、循环网络在多帧图像时序信号处理、注意力模块在生成视频判别性特征时权重分配这三方面的优势。针对多标签视频,我们使用图神经网络学习视频标签语义嵌入词向量和标签之间的关联关系,并据此构建了一种语义嵌入软相似度作为监督信息指导网络生成高质量的哈希编码。
技术实现思路
本专利技术是一种针对多标签视频的哈希检索方法,其输入是一个完整的视频,输出为与输入视频包含至少一个相同标签的多个视频。本专利技术的技术方案包含以下步骤:步骤S1,构建视频数据集,该数据集中的每个视频至少包含一个标签。步骤S2,构建深度学习网络模型,该模型包括特征提取网络、哈希网络和多标签学习网络;步骤S3,利用S1构建的视频数据集对步骤S2构建的深度学习模型进行训练;步骤S4,利用步骤S3训练好的模型进行多标签视频检索。进一步地,所述步骤S1具体为:步骤S1-1,采集M个视频生成数据集,每个视频与一个或多个标签相关;步骤S1-2,对每个视频按照每秒1帧的频率进行采样,将所有采样视频帧平均分成L段,每段随机选取1帧作为关键帧,为每个视频生成一个包含L帧的视频帧序列;步骤S1-3,定义数据集中每个视频的标签向量,根据数据集标签总个数n为每个视频构建到一个长度为n的标签向量,每一位代表一个标签,含有该标签时对应位为1,否则为0。步骤S1-4,使用glove模型得到所有标签的初始语义向量;步骤S1-5,根据视频标签信息统计所有标签的共现概率矩阵。步骤S1-6,至此,生成了n个标签的初始语义向量和共现概率矩阵,以及包含了由M个长度为L的视频帧序列表示的视频数据集,数据集中每个视频对应一个标签向量。更进一步地,所述n大于等于2。进一步地,所述步骤S2具体为:深度学习网络为一个端到端网络,特征提取网络为卷积神经网络和长短时记忆神经网络,包含卷积层、池化层和全连接层,哈希网络为全连接层,图卷积神经网络为全卷积网络,包含卷积层和池化层。进一步地,所述步骤S3具体为:步骤S3-1,将S1构建的视频数据集中的视频数据输入特征提取网络和哈希网络得到视频特征向量和哈希编码;步骤S3-2,将所有标签的初始语义向量和共现概率矩阵输入多标签学习网络中学习得到各标签的语义嵌入词向量和标签关联关系矩阵;步骤S3-3,使用S3-2得到的标签语义嵌入词向量将S3-1中输入的视频数据对应的标签向量进行扩充改写得到显性标签向量。步骤S3-4,使用S3-2得到的标签关联关系矩阵和语义嵌入词向量计算S3-1中输入的视频数据对应的隐性标签向量。步骤S3-5,使用集合S3-4和S3-5得到的标签向量计算显性和隐性相似度,并通过带权相加的形式形成语义嵌入软相似度。步骤S3-6,使用S3-1得到的哈希码计算哈希码相似度。步骤S3-7,将S3-6得到的哈希码相似度与S3-5得到的软相似度进行对比产生的哈希损失和量化S3-1得到的哈希码产生的量化损失反向传播更新特征提取网络和哈希网络参数。步骤S3-8,将S3-1得到的视频特征向量和S3-2得到的标签语义嵌入词向量进行矩阵乘法得到视频预测标签,将预测标签和实际标签进行对比产生分类损失反向传播更新多标签学习网络参数。进一步地,所述步骤S4具体为:将待检索视频和检索数据库对应的视频帧序列输入特征提取网络和哈希网络得到各自的哈希编码,根据相似视频哈希码也相似的原则进行哈希检索,返回与待检索视频最相似的视频。基于同一思想,本专利技术还设计了一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述基于语义嵌入软相似性的多标签视频哈希检索方法。基于同一思想,本专利技术还设计了一种计算机可读介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现上述基于语义嵌入软相似性的多标签视频哈希检索方法。本专利技术的优点:1、不同于大多数视频哈希检索算法是通过对视频帧特征进行池化、用循环神经网络处理视频帧或者直接使用三维深度神经网络来提取视频特征的,本专利技术创新性地构建了一个基于双层混合注意力机制的深度哈希模型,通过在2D-CNN(二维卷积神经网络)+LSTM(长短期记忆神经网络)基础架构上叠加注意力模块的形式提取固定数量视频帧的特征向量。注意力模块旨在促使网络给具有分辨性视频特征的视频帧分配较大的权重,由自注意力子模块和相互关系子模块构成。自注意力本文档来自技高网
...

【技术保护点】
1.基于语义嵌入软相似性的多标签视频哈希检索方法,其特征在于,包含以下步骤:/n步骤S1,构建视频数据集,该数据集中的每个视频至少包含一个标签。/n步骤S2,构建深度学习网络模型,该模型包括特征提取网络、哈希网络和多标签学习网络;/n步骤S3,利用S1构建的视频数据集对步骤S2构建的深度学习模型进行训练;/n步骤S4,利用步骤S3训练好的模型进行多标签视频检索。/n

【技术特征摘要】
1.基于语义嵌入软相似性的多标签视频哈希检索方法,其特征在于,包含以下步骤:
步骤S1,构建视频数据集,该数据集中的每个视频至少包含一个标签。
步骤S2,构建深度学习网络模型,该模型包括特征提取网络、哈希网络和多标签学习网络;
步骤S3,利用S1构建的视频数据集对步骤S2构建的深度学习模型进行训练;
步骤S4,利用步骤S3训练好的模型进行多标签视频检索。


2.根据权利要求1所述的基于语义嵌入软相似性的多标签视频哈希检索方法,其特征在于:所述步骤S1具体为:
步骤S1-1,采集M个视频生成数据集,每个视频与一个或多个标签相关;
步骤S1-2,对每个视频按照每秒1帧的频率进行采样,将所有采样视频帧平均分成L段,每段随机选取1帧作为关键帧,为每个视频生成一个包含L帧的视频帧序列;
步骤S1-3,定义数据集中每个视频的标签向量,根据数据集标签总个数n为每个视频样本构建到一个长度为n的标签向量,每一位代表一个标签,含有该标签时对应位为1,否则为0;
步骤S1-4,使用glove模型得到所有标签的初始语义向量;
步骤S1-5,根据视频标签信息统计所有标签的共现概率矩阵;
步骤S1-6,至此,生成了n个标签的初始语义向量和共现概率矩阵,以及包含了由M个长度为L的视频帧序列表示的视频数据集,数据集中每个视频对应一个标签向量。


3.根据权利要求2所述的基于语义嵌入软相似性的多标签视频哈希检索方法,其特征在于:所述n大于等于2。


4.根据权利要求1所述的基于语义嵌入软相似性的多标签视频哈希检索方法,其特征在于:所述步骤S2具体为:
深度学习网络为一个端到端网络,特征提取网络为卷积神经网络和长短时记忆神经网络,包含卷积层、池化层和全连接层,哈希网络为全连接层,图卷积神经网络为全卷积网络,包含卷积层和池化层。


5.根据权利要求1所述的基于语义嵌入软相似性的多标签视频哈希检索方法,其特征在于...

【专利技术属性】
技术研发人员:邱雁成
申请(专利权)人:北湾科技武汉有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1