基于语义嵌入软相似性的多标签视频哈希检索方法及设备技术

技术编号:29459739 阅读:21 留言:0更新日期:2021-07-27 17:28
本发明专利技术公开了一种基于语义嵌入软相似性的多标签视频哈希检索方法及设备。抽取多标签视频中的多个关键帧构成视频帧序列,使用通过在卷积神经网络+循环神经网络的基础架构上叠加注意力模块构建的特征提取网络模块提取视频特征,使用哈希层网络提取哈希编码,使用图神经网络学习视频样本标签语义嵌入向量和类别标签之间相似关系构建语义嵌入软相似度作为监督信息指导网络学习高质量哈希编码。本方法构建了一种端到端的深度学习模型,完成输入视频,输出与查询视频相似视频形式的多标签视频检索任务,有效提高了多标签视频检索的检索效率和精度。

【技术实现步骤摘要】
基于语义嵌入软相似性的多标签视频哈希检索方法及设备
本专利技术涉及人工智能和视频检索领域,具体涉及一种基于语义嵌入软相似性的多标签视频哈希检索方法。
技术介绍
视频检索即根据用户需求从视频数据库中搜索并返回符合要求的视频,其中基于内容的视频检索是一种以视频搜视频的检索方式,它是对视频自身建模,通过相关技术提取视频的向量化特征并使用特征相似性表示原始视频数据相似性,从而找到相似度较高的视频。但是,这种最近邻搜索方式更多的是适用于对检索时间要求不高的低维数据,受数据激增的影响,传统的基于内容的视频检索面临占用大量存储空间和消耗大量检索时间的双重考验。这种情况下,哈希检索凭借检索速度快、存储空间小的优点成为检索领域的热门方法。根据是否使用监督信息,现有的哈希方法可分为无监督和有监督哈希两类:无监督哈希方法在哈希学习的过程中,不依赖于数据标签,通常采用某种随机映射的方式学习数据特征表示;而有监督的哈希在哈希学习过程中除了数据本身,还会使用诸如数据类别、数据相似性之类的数据标注作为监督。近些年来,受深度神经网络在特征表征上的突出表现的启发,哈希方本文档来自技高网...

【技术保护点】
1.基于语义嵌入软相似性的多标签视频哈希检索方法,其特征在于,包含以下步骤:/n步骤S1,构建视频数据集,该数据集中的每个视频至少包含一个标签。/n步骤S2,构建深度学习网络模型,该模型包括特征提取网络、哈希网络和多标签学习网络;/n步骤S3,利用S1构建的视频数据集对步骤S2构建的深度学习模型进行训练;/n步骤S4,利用步骤S3训练好的模型进行多标签视频检索。/n

【技术特征摘要】
1.基于语义嵌入软相似性的多标签视频哈希检索方法,其特征在于,包含以下步骤:
步骤S1,构建视频数据集,该数据集中的每个视频至少包含一个标签。
步骤S2,构建深度学习网络模型,该模型包括特征提取网络、哈希网络和多标签学习网络;
步骤S3,利用S1构建的视频数据集对步骤S2构建的深度学习模型进行训练;
步骤S4,利用步骤S3训练好的模型进行多标签视频检索。


2.根据权利要求1所述的基于语义嵌入软相似性的多标签视频哈希检索方法,其特征在于:所述步骤S1具体为:
步骤S1-1,采集M个视频生成数据集,每个视频与一个或多个标签相关;
步骤S1-2,对每个视频按照每秒1帧的频率进行采样,将所有采样视频帧平均分成L段,每段随机选取1帧作为关键帧,为每个视频生成一个包含L帧的视频帧序列;
步骤S1-3,定义数据集中每个视频的标签向量,根据数据集标签总个数n为每个视频样本构建到一个长度为n的标签向量,每一位代表一个标签,含有该标签时对应位为1,否则为0;
步骤S1-4,使用glove模型得到所有标签的初始语义向量;
步骤S1-5,根据视频标签信息统计所有标签的共现概率矩阵;
步骤S1-6,至此,生成了n个标签的初始语义向量和共现概率矩阵,以及包含了由M个长度为L的视频帧序列表示的视频数据集,数据集中每个视频对应一个标签向量。


3.根据权利要求2所述的基于语义嵌入软相似性的多标签视频哈希检索方法,其特征在于:所述n大于等于2。


4.根据权利要求1所述的基于语义嵌入软相似性的多标签视频哈希检索方法,其特征在于:所述步骤S2具体为:
深度学习网络为一个端到端网络,特征提取网络为卷积神经网络和长短时记忆神经网络,包含卷积层、池化层和全连接层,哈希网络为全连接层,图卷积神经网络为全卷积网络,包含卷积层和池化层。


5.根据权利要求1所述的基于语义嵌入软相似性的多标签视频哈希检索方法,其特征在于...

【专利技术属性】
技术研发人员:邱雁成
申请(专利权)人:北湾科技武汉有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1