System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于时序信息引导混合专家的零样本视频问答方法技术_技高网

一种基于时序信息引导混合专家的零样本视频问答方法技术

技术编号:40507965 阅读:6 留言:0更新日期:2024-03-01 13:22
本发明专利技术提供一种基于时序信息引导混合专家的零样本视频问答方法,先对本发明专利技术模型进行训练:提取原始视频的第一特征信息、视频文本的第二特征信息以及第一特征信息的时序特征信息,将上述三种特征信息作为大语言模型的输入,并利用大语言模型中的时序模块对时序特征信息进行分析,根据分析结果将三种特征信息路由到相应的专家模块进行处理,将输出的结果输入至分类头中,经过处理得到一个概率向量,选择概率最大对应的单词作为输出结果;训练的任务是预测与视频相关描述文本中被随机掩码的单词,迁移至视频问答的模板时,根据设置的问题给出对应的答案,本发明专利技术具有强大的泛化能力和推理能力,有效提高在视频问答任务时的泛化性。

【技术实现步骤摘要】

本专利技术设计视频问答,具体涉及一种基于时序信息引导混合专家的零样本视频问答方法


技术介绍

1、目前绝大多数视频问答任务中,采用的方法都是依赖全监督的设定,即需要在标注良好的视频问答数据集上进行训练,这种方法包括两个弊端:第一,为了得到一个标注良好的视频问答数据集需要投入大量人力物力;第二,在全监督设定下训练的模型,当遇到来自不同于训练集数据域的其他数据时,结果会表现得很差,泛用性不强。

2、零样本视频问答可以在一定程度上摆脱对良好标注的视频问答数据集的依赖,因为大规模语言模型强大的泛化能力和推理能力,目前的零样本视频问答大多结合大规模语言模型进行推理;但是该方法不能良好地为语言模型结合视频信息感知能力,同时不能有效提高在视频问答任务的泛化性。


技术实现思路

1、针对现有技术中的上述不足,本专利技术提供一种基于时序信息引导混合专家的零样本视频问答方法,引入时序模块来提取视频中的时序信息,提升大规模语言模型对视频中时序信息的感知能力;同时提出一个基于视频时序信息引导的混合专家模块来提升模型在零样本视频问答任务上的泛化能力。

2、为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于时序信息引导混合专家的零样本视频问答方法,包括以下步骤:

3、s1:提取原始视频的第一特征信息和视频文本的第二特征信息,在第二特征信息中随机选取部分单词进行掩码处理,得到第三特征信息;

4、s2:利用时序模块提取第一特征信息的时序特征信息;

<p>5、s3:将第一特征信息、第三特征信息和时序特征信息作为大语言模型的输入;

6、s4:利用大语言模型中的线性路由器对时序特征信息进行分析,根据分析结果将时序特征信息、第一特征信息和第三特征信息路由到相应的专家模块进行处理,得到掩码单词对应的特征;

7、s5:将每个掩码单词对应的特征输入至分类头中,经过处理得到维度大小为单词表大小的概率向量,并选择概率最大的单词作为输出结果,多次预测后得到预训练的视频问答数据集;

8、s6:将预训练的视频问答数据集,迁移模型至视频问答任务,对视频问题进行推理并回答。

9、本专利技术的技术方案的有益效果为:本专利技术基于大语言模型,引入时序模块和混合专家模块,能够提升大语言模型对视频中时序信息的感知能力和模型在零样本视频问答任务上的泛化能力,同时训练时以掩码语言建模为训练任务进行预训练,使得模型在视频文本数据集上训练得到一个具有对视频语言具有强理解能力和泛化能力的模型。

10、进一步地:所述s1的具体步骤如下:

11、s11:利用视觉编码器提取原始视频中视频帧的图像特征得到第一特征信息;

12、s12:将视频文本描述进行分词,得到多个词元;

13、s13:使用大语言模型中的单词嵌入转换器,将各个词元转换为带有语义信息的第二特征信息;

14、s14:在第二特征信息中随机选取单词进行掩码处理,得到第三特征信息。

15、上述进一步的有益效果为:将视频和文本转换为具有语义信息的特征向量,使得模型可以理解两个模态的数据信息,有助于模型的训练与迁移。

16、进一步地:所述s2的具体步骤为:

17、s21:将第一特征信息作为时序模块的输入;

18、s22:利用一维卷积网络对第一特征信息进行沿时间维度的卷积操作,得到第一特征信息的卷积特征;

19、s23:为第一特征信息的卷积特征添加上显式的时序位置嵌入,并与一个可学习的cls向量一起输入到多头注意力模块中,得到时序特征信息。

20、上述进一步方案的有益效果为:通过时序模块对第一特征信息进行处理得到时序特征信息,作为后续线性路由器对专家模块的选择依据。

21、进一步地:所述卷积操作的表达式如下:

22、

23、其中,为经卷积操作后的第t帧特征,δt为一个时间步,t为当前第t帧,ft+δt为第t+δt帧的第一特征信息,wconv为一维卷积核的参数,bconv为一维卷积核的偏移。

24、上述进一步方案的有益效果为:时序模块通过卷积操作,使得视频中每一帧特征捕获了相邻两帧的信息,从而提取了视频的局部信息。

25、进一步地:所述时序特征信息的计算表达式如下:

26、

27、fp=fconv+ptemp

28、其中,ftemp为时序特征,wq,wk和wv均为可学习的映射参数,q为可学习的cls向量,fp为添加了时序位置嵌入的卷积特征,fconv为第一特征信息的卷积特征,ptemp为时序位置嵌入,softmax(.)函数将输入转换为概率向量。

29、上述进一步方案的有益效果为:通过将cls向量与卷积特征输入到多头注意力中,cls向量与每个帧经过卷积后的特征进行交互,最终得到关于视频的全局特征,便于后续分析处理。

30、进一步地:所述大语言模型包括单词转换嵌入器、分类头以及带有混合专家模块的transformer层;

31、所述单词转换嵌入器,用于将视频文本描述进行分词,得到的多个词元,并将各词元转换为带有语义信息的第二特征信息;

32、所述分类头,用于最终将掩码单词对应的输出特征映射为对应词汇表的概率向量;

33、所述带有混合专家模块的transformer层,用于根据提取的视频时序特征,将第一特征信息、第三特征信息和时序特征信息路由到不同的专家模块进行处理,得到掩码单词的对应特征。

34、上述进一步方案的有益效果为:基于大语言模型,使用了带有混合专家模块的transformer层并引入时序特征的分析,提升大语言模型对视频中时序信息的感知能力和模型在零样本视频问答任务上的泛化能力。

35、进一步地:所述带有混合专家模块的transformer层,包括至少一个专家模块以及线性路由器;所述线性路由器,用于根据提取的视频时序特征,将第一特征信息、第三特征信息和时序特征信息路由到不同的专家模块进行处理;所述各专家模块,用于对第一特征信息、第三特征信息和时序特征信息进行分析,得到掩码单词的对应特征信息。

36、上述进一步的有益效果为:使用线性路由器对时序特征信息进行处理,为大语言模型引入了视频时序感知能力,同时使用混合专家模块,根据线性路由器的分析结果采用不同的专家模块,提高了模型在时序层面的泛化能力。

37、进一步地:所述线性路由器的表达式如下:

38、sgate=softmax(g(ftemp))

39、g(ftemp)=wgftemp+δ·softplus(wnoiseftemp)

40、其中,sgate为选择各个专家模块的概率向量,所述概率向量为4维,对应4个专家模块,ftemp为时序特征,wg和wnoise均为线性层中的可学习参数,δ为高斯噪声,g(.)函数为线性路由器的函数,softma本文档来自技高网...

【技术保护点】

1.一种基于时序信息引导混合专家的零样本视频问答方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于时序信息引导混合专家的零样本视频问答方法,所述S1的具体步骤如下:

3.根据权利要求1所述的基于时序信息引导混合专家的零样本视频问答方法,所述S2的具体步骤为:

4.根据权利要求3所述的基于时序信息引导混合专家的零样本视频问答方法,所述卷积操作的表达式如下:

5.根据权利要求3所述的基于时序信息引导混合专家的零样本视频问答方法,所述时序特征信息的计算表达式如下:

6.根据权利要求1所述的基于时序信息引导混合专家的零样本视频问答方法,所述大语言模型包括单词转换嵌入器、分类头以及带有混合专家模块的Transformer层;

7.根据权利要求6所述的基于时序信息引导混合专家的零样本视频问答方法,所述带有混合专家模块的Transformer层,包括至少一个专家模块以及线性路由器;

8.根据权利要求7所述的基于时序信息引导混合专家的零样本视频问答方法,所述线性路由器的表达式如下:

9.根据权利要求1所述的基于时序信息引导混合专家的零样本视频问答方法,所述概率向量的计算公式/表达式如下:

10.根据权利要求1所述的基于时序信息引导混合专家的零样本视频问答方法,所述分类头的目标优化函数表达式如下:

...

【技术特征摘要】

1.一种基于时序信息引导混合专家的零样本视频问答方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于时序信息引导混合专家的零样本视频问答方法,所述s1的具体步骤如下:

3.根据权利要求1所述的基于时序信息引导混合专家的零样本视频问答方法,所述s2的具体步骤为:

4.根据权利要求3所述的基于时序信息引导混合专家的零样本视频问答方法,所述卷积操作的表达式如下:

5.根据权利要求3所述的基于时序信息引导混合专家的零样本视频问答方法,所述时序特征信息的计算表达式如下:

6.根据权利要求1所述的基于时序信息引导混合专家的零样本视频问答方法,所...

【专利技术属性】
技术研发人员:赵磊秦一心武鑫邵杰申恒涛
申请(专利权)人:四川省人工智能研究院宜宾
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1