System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于帧索引和跨模态表示的视频检索方法技术_技高网

一种基于帧索引和跨模态表示的视频检索方法技术

技术编号:41237285 阅读:4 留言:0更新日期:2024-05-09 23:51
本发明专利技术涉及一种基于帧索引和跨模态表示的视频检索方法,所述方法包括以下步骤:利用hadoop集群的分布式计算能力对海量视频库进行预处理,构建视频检索数据库;对待检索视频片段进行帧分割;利用提出的多任务优化下图结构增强的跨模态表示方法,将S1步骤中所得的视频帧图像和文本两种模态数据映射到统一的跨模态特征空间;利用Frobenius范数相似度算法寻找满足相似度阈值的第一帧在视频库中的位置,并记录该帧在所在视频中的时序;利用S3步骤中的相似度算法计算每个视频的相似度并根据视频的相似度进行排序,选出前十的视频作为最终的检索结果;本发明专利技术解决了现有的视频检索中基于标题和关键词检索策略难以在海量视频源中快速稳定地检索目标视频的问题。

【技术实现步骤摘要】

本专利技术涉及视频检索和图像-文本跨模态识别领域,具体是一种基于帧索引和跨模态表示的视频检索方法


技术介绍

1、视频是一种很方便的媒介,可用于描述和存储各个领域(如卫星图像、医学图像、在线教育等)中包含的信息的空间、时间、光谱和物理成分。由于存储设备的成本很低、存储空间很大,并且压缩算法的进步也在进一步地降低视频媒介的使用成本,因此视频在描绘和传播图像信息方面发挥着重要作用。但是也因为视频数据的巨量性和快速增长的特性,使得用户很难对每一个视频进行浏览并快速检索到目标视频。因此需要一种高效、稳定的方法辅助用户快速检索视频库的视频。

2、传统方法中一般使用文本特征,比如文件名、标题和关键词对视频进行注释和检索。但是这些方法存在一些问题。首先需要人工根据选定的一组标题和关键词来描述和标记视频的内容。在大多数的视频中,每一帧都可能会有很多对象,每个对象都会有自己的属性集,因此还需要表达各个对象的空间关系。但是随着视频数据的增长,关键词变得越来越复杂,难以表达视频的实际内容。

3、因此,对视频内容的检索在视频检索中更为可取,但需要实现跨模态检索。现有的跨模态检索都有一个共同目标,实现跨模态的特征表示,即将不同模态的数据特征提取并转换到同一个特征空间,在这个相同的空间内,可以进行相似度计算,从而实现跨模态检索的目的。在这种场景下,现有的方法将整个视频作为检索对象,使得算法的计算复杂度较高,影响检索速度,提取视频中的关键帧作为检索目标,是一种有效的策略。同时,如何将文本和视频帧图像两种模态的数据映射到统一的空间,进行相似度计算,是实现准确、高效且稳定的视频检索的重要一步。目前的跨模态的特征表示方法,训练需要大量的样本对数据,而这些数据的获取难度大,标记费时费力;其次,一些生成对抗类方法(gan),可以缓解样本对需求,但是现有的gan训练方案,难度大,且不稳定,影响最终的应用效果;最后,目前的方法主要关注模态间相关性,忽略模态内部数据之间的相关性(例如相同类别、不同类别数据之间)。因此,需要探索新的方法,同时挖掘模态内和模态间相关性,依靠多重训练任务,降低训练难度,提升稳定性。


技术实现思路

1、针对
技术介绍
提出的问题,本专利技术的目的在于提出一种基于帧索引和跨模态表示的视频检索方法。

2、为实现上述目的,本专利技术提供如下技术方案:

3、一种基于帧索引和跨模态表示的视频检索方法,所述方法包括以下步骤:

4、s1、建立基于hadoop的海量视频处理模块,利用hadoop集群的分布式计算能力对海量视频库进行预处理,构建视频检索数据库;对待检索视频片段进行帧分割,将其分割成单独的图片帧;其中,所述对海量视频库进行预处理的过程是对视频帧的颜色进行提取和存储,实际存储的是视频帧的rgb颜色经过标准化和归一化所得信息,而不是视频;

5、s2、利用提出的多任务优化下图结构增强的跨模态表示方法,将s1步骤中所得的视频帧图像和文本两种模态数据映射到统一的跨模态特征空间,使得两种模态数据在统一的空间进行特征相似度匹配计算;

6、s3、基于s2步骤中所得的视频帧图像和文本的映射特征表示,利用frobenius范数相似度算法寻找满足相似度阈值的第一帧在视频库中的位置,并记录该帧在所在视频中的时序;

7、s4、利用s3步骤中的相似度算法计算每个视频的相似度并根据视频的相似度进行排序,选出前十的视频作为最终的检索结果,交由用户进行人工审查。

8、作为本专利技术进一步的技术方案,在s1步骤中,所述预处理过程对视频帧的颜色进行提取的方法为:将视频帧的颜色信息通过一个单独的三维直方图进行表示,并且通过对所述三维直方图进行标准化;设h(i)是图像的三维直方图,i表示直方图的bin,则可以将标准化后的三维直方图表示为

9、公式1:

10、作为本专利技术进一步的技术方案,在s2步骤中,所述提出的多任务优化下图结构增强的跨模态表示方法中采用图约束下的结构编码模型和多任务稳定训练方案,所述图约束下的结构编码模型是利用分类标签信息在各个模态内建立关系子图邻接矩阵,利用图神经网络模型基于所构建的图结构进行信息编码,获得伪跨模态表示,所述多任务稳定训练方案是利用标签分类损失和伪跨模态表示下不同数据的鉴别损失构建两个任务,实现稳定的模型训练。

11、作为本专利技术进一步的技术方案,所述结构编码模型:数据库中的不同样本之间包含着关联信息,基于视频帧图像和文本模态分别建立一个图来表征隐藏的关系;将每个样本作为一个节点来处理,而它们之间的边反映了它们之间的关系;如果两个节点i和j之间的标签label相同,则我们将这两个节点通过边连在一起,即em1(vi+vj)=1,其中em1表示模态m1下的边,否则em1(vi,vj)=0;每个点都会增加一条指向节点本身的自连接边,即em1(vi,vi)=1;通过以上的构建方案,得到节点在不同模态内的子图gm1或gm2,基于双分支图卷积网络(gcn)将每个图分支在每个模态内通过遵循标准的层级传播规则对样本进行新信息聚集:

12、公式2:

13、其中εm1是子图gm1的邻接矩阵,代表节点在模态m1下第l层神经网络处的节点表示;为度矩阵,为模态m1下第l层图神经网络的科学系的参数,σ(·)代表非线性激活函数,经过l层图神经网络,就可以得到伪跨模态表示

14、作为本专利技术进一步的技术方案,所述多任务稳定训练方案:

15、通过利用标签分类损失和伪跨模态表示与映射到的跨模态表示之间的互信息损失构建两个任务,协同实现稳定的模型训练;首先,是利用前面获得的伪跨模态表示进行标签分类任务:

16、公式3:

17、其中,||·| |f代表frobenius范数,即矩阵各项元素的绝对值平方的总和开根号,y是分类的标签,k代表样本的数量,fclass为分类器模型,可以是任意分类器,在各个模态中是共享的;通过公式3,使得具有相同语义标签的数据具有相同的表示,从而增加了鉴别能力,同时减少了跨模态的差异;

18、通过伪跨模态表示下不同数据的鉴别损失构建第二个任务;具体地,如果不同模态的特征属于同一类别,最小化它们之间的距离,距离损失ldis的定义为:

19、公式4:

20、整合以上两个任务,得到融合损失函数:

21、公式5:l=lclass+λ·ldiss

22、其中,λ为组合系数,代表ldiss任务的权重。

23、作为本专利技术进一步的技术方案,在s3步骤中,所述利用frobenius范数相似度算法寻找满足相似度阈值的第一帧在视频库中的位置,并记录该帧在所在视频中的时序的步骤包括:

24、利用frobenius范数相似度算法在视频库的每一个视频中计算和每一帧图像的相似度并根据设置的相似度阈值进行过滤,本专利技术中设置的相似度阈值为0.3;寻找第一帧在视频库中的位置之后,记录该帧在所在视频中的时序;然后在该视频中本文档来自技高网...

【技术保护点】

1.一种基于帧索引和跨模态表示的视频检索方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种基于帧索引和跨模态表示的视频检索方法,其特征在于,在S1步骤中,所述预处理过程对视频帧的颜色进行提取的方法为:将视频帧的颜色信息通过一个单独的三维直方图进行表示,并且通过对所述三维直方图进行标准化;设H(i)是图像的三维直方图,i表示直方图的bin,则可以将标准化后的三维直方图表示为

3.根据权利要求1所述的一种基于帧索引和跨模态表示的视频检索方法,其特征在于,在S2步骤中,所述提出的多任务优化下图结构增强的跨模态表示方法中采用图约束下的结构编码模型和多任务稳定训练方案,所述图约束下的结构编码模型是利用分类标签信息在各个模态内建立关系子图邻接矩阵,利用图神经网络模型基于所构建的图结构进行信息编码,获得伪跨模态表示,所述多任务稳定训练方案是利用标签分类损失和伪跨模态表示下不同数据的鉴别损失构建两个任务,实现稳定的模型训练。

4.根据权利要求3所述的一种基于帧索引和跨模态表示的视频检索方法,其特征在于,所述结构编码模型:数据库中的不同样本之间包含着关联信息,基于视频帧图像和文本模态分别建立一个图来表征隐藏的关系;将每个样本作为一个节点来处理,而它们之间的边反映了它们之间的关系;如果两个节点i和j之间的标签Label相同,则我们将这两个节点通过边连在一起,即em1(vi+vj)=1,其中em1表示模态m1下的边,否则em1(vi,vj)=0;每个点都会增加一条指向节点本身的自连接边,即em1(vi,vi)=1;通过以上的构建方案,得到节点在不同模态内的子图Gm1或Gm2,基于双分支图卷积网络(GCN)将每个图分支在每个模态内通过遵循标准的层级传播规则对样本进行新信息聚集:

5.根据权利要求3所述的一种基于帧索引和跨模态表示的视频检索方法,其特征在于,所述多任务稳定训练方案:

6.根据权利要求1所述的一种基于帧索引和跨模态表示的视频检索方法,其特征在于,在S3步骤中,所述利用Frobenius范数相似度算法寻找满足相似度阈值的第一帧在视频库中的位置,并记录该帧在所在视频中的时序的步骤包括:

...

【技术特征摘要】

1.一种基于帧索引和跨模态表示的视频检索方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种基于帧索引和跨模态表示的视频检索方法,其特征在于,在s1步骤中,所述预处理过程对视频帧的颜色进行提取的方法为:将视频帧的颜色信息通过一个单独的三维直方图进行表示,并且通过对所述三维直方图进行标准化;设h(i)是图像的三维直方图,i表示直方图的bin,则可以将标准化后的三维直方图表示为

3.根据权利要求1所述的一种基于帧索引和跨模态表示的视频检索方法,其特征在于,在s2步骤中,所述提出的多任务优化下图结构增强的跨模态表示方法中采用图约束下的结构编码模型和多任务稳定训练方案,所述图约束下的结构编码模型是利用分类标签信息在各个模态内建立关系子图邻接矩阵,利用图神经网络模型基于所构建的图结构进行信息编码,获得伪跨模态表示,所述多任务稳定训练方案是利用标签分类损失和伪跨模态表示下不同数据的鉴别损失构建两个任务,实现稳定的模型训练。

4.根据权利要求3所述的一种基于帧索引和跨模态表示的视频检索方...

【专利技术属性】
技术研发人员:赵洪伟付强史涛朱东杰翟光耀陈娴娴
申请(专利权)人:山东百盟信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1