System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 视频语言任务执行及其模型训练方法、装置、设备、介质制造方法及图纸_技高网

视频语言任务执行及其模型训练方法、装置、设备、介质制造方法及图纸

技术编号:40974239 阅读:6 留言:0更新日期:2024-04-18 21:22
本发明专利技术公开了一种视频语言任务执行及其模型训练方法、装置、设备、介质,应用于视频理解技术领域。其中,方法包括将具有文本标签的视频样本、待学习视频参数和待学习帧参数输入至视频语言模型,视觉语言预训练模型提取视觉特征和参数特征,视频帧适配器基于待学习帧参数,将视觉特征转换为满足视觉语言预训练模型需求的帧视觉信息,视频适配器基于待学习视频参数提取视频视觉信息;根据帧视觉信息、视频视觉信息与文本语义特征之间损失信息,对视频语言模型进行迭代更新,直至满足预设模型训练结束条件。本发明专利技术可以解决相关技术视频语言模型收敛慢,训练耗时耗资源的问题,能够有效提升视频语言模型的训练效率,节省模型训练所需的计算资源。

【技术实现步骤摘要】

本专利技术涉及视频理解,特别是涉及一种视频语言任务执行及其模型训练方法、装置、电子设备及可读存储介质。


技术介绍

1、视频语言模型能够理解视觉模态与语言模态的内在关系,可用于执行视频语言相关的任务,包括但并不限制于视频内容理解和分类任务、视频字幕翻译和生成任务。

2、相关技术的视频语言模型由于存在视觉模态和文本模态弱相关、文本对视频聚焦范围不同的问题,导致视频语言模型收敛慢,训练耗时耗资源。

3、鉴于此,提升视频语言模型的训练效率,是所属领域技术人员需要解决的技术问题。


技术实现思路

1、本专利技术提供了一种视频语言任务执行及其模型训练方法、装置、电子设备及可读存储介质,能够有效提升视频语言模型的训练效率,节省模型训练所需的计算资源。

2、为解决上述技术问题,本专利技术提供以下技术方案:

3、本专利技术一方面提供了一种视频语言模型训练方法,包括:

4、获取携带文本描述标签的视频样本数据集、预先设置的待学习视频参数及待学习帧参数;

5、将所述视频样本数据集中的视频样本、所述待学习视频参数和所述待学习帧参数输入至所述视频语言模型;所述视频语言模型包括目标视觉语言预训练模型、视频帧适配器和视频适配器;所述目标视觉语言预训练模型用于提取视觉特征和参数特征并将其分别对应输入至所述视频帧适配器和所述视频适配器,所述视频帧适配器用于将所述视觉特征转换为满足所述目标视觉语言预训练模型需求的帧视觉信息,所述视频适配器用于提取视频视觉信息;

6、根据所述帧视觉信息、所述视频视觉信息与文本语义特征的损失信息,对所述视频语言模型进行迭代更新,直至满足预设模型训练结束条件;

7、其中,所述待学习视频参数对应的参数特征输入至所述视频适配器,所述待学习帧参数对应的参数特征输入至所述视频帧适配器,以利用所述待学习帧参数获取文本相关的视觉信息。

8、在第一种示例性的实施方式中,所述待学习帧参数对应的参数特征为帧参数特征,所述文本描述标签包括视频帧描述文本标签,所述视频帧描述文本标签对应的文本语义特征为视频帧文本特征,所述视频帧适配器包括帧输入层、文本编码层、跨模态融合层、特征增强层和帧输出层;

9、其中,所述帧输入层,用于接收所述帧参数特征和所述视频帧文本特征的拼接结果;所述文本编码层,用于基于当前注意力掩码对所述拼接结果进行编码,得到帧参数编码特征;所述跨模态融合层,用于将所述帧参数编码特征和所述视觉特征进行跨模态融合处理;所述特征增强层,用于对融合结果进行特征增强处理,并将增强特征输入至所述文本编码层;所述帧输出层,用于输出帧视觉信息。

10、在第二种示例性的实施方式中,所述跨模态融合层为跨模态注意力机制层,所述将所述帧参数编码特征和所述视觉特征进行跨模态融合处理,包括:

11、以所述帧参数编码特征作为查询向量,所述视觉特征作为一组值向量和键向量,基于跨模态注意力机制对所述帧参数编码特征和所述视觉特征进行编码,以作为融合结果。

12、在第三种示例性的实施方式中,所述特征增强层包括第一特征增强层、交互特征提取层和第二特征增强层;

13、所述第一特征增强层,用于对所述融合结果进行层归一化处理,并通过残差连接,得到第一交互增强特征;

14、所述交互特征提取层,用于对所述第一交互增强特征进行特征提取,得到第二交互增强特征;

15、所述第二特征增强层,用于对所述第二交互增强特征进行层归一化处理,并通过残差连接。

16、在第四种示例性的实施方式中,所述视频帧适配器的训练过程包括:

17、提取当前帧对应的帧视觉信息的特征,得到当前帧图像对应的图像帧特征;

18、提取当前帧对应的视频帧文本特征,得到当前帧图像对应的图像帧文本特征;

19、根据各图像帧特征与对应图像帧文本特征之间的损失信息,对所述视频帧适配器进行迭代更新。

20、在第五种示例性的实施方式中,所述根据各图像帧特征与对应图像帧文本特征之间的损失信息,对所述视频帧适配器进行迭代更新,包括:

21、通过利用所述视频帧适配器预测图像帧特征和图像帧文本特征为正向匹配还是负向不匹配,确定帧-文本匹配损失;

22、通过比对图像帧特征和图像帧文本特征之间的相似性,确定帧-文本对比损失;

23、掩码掉部分视频帧文本特征,通过基于剩余的视频帧文本特征对应的图像帧文本特征与各图像帧特征训练的视频帧适配器,对掩码掉的视频帧文本特征进行预测,确定文本生成损失;

24、根据所述帧-文本匹配损失、所述帧-文本对比损失和所述文本生成损失确定所述视频帧适配器的损失函数。

25、在第六种示例性的实施方式中,所述通过比对图像帧特征和图像帧文本特征之间的相似性,确定帧-文本对比损失,包括:

26、将正向匹配的图像帧特征和图像帧文本特征作为一组正样本,将负向不匹配的图像帧特征和图像帧文本特征作为一组负样本;

27、计算各组正样本中的图像帧特征和图像帧文本特征之间的正相似性,计算各组负样本中的图像帧特征和图像帧文本特征之间的负相似性;

28、通过对比所述正相似性和所述负相似性确定帧-文本对比损失。

29、在第七种示例性的实施方式中,所述通过比对图像帧特征和图像帧文本特征之间的相似性,确定帧-文本对比损失,包括:

30、调用对比损失函数关系式,计算帧-文本对比损失;所述对比损失函数关系式为:

31、;

32、式中, loss itg为帧-文本对比损失,exp表示指数函数, z i为第 i个图像帧特征, t i为与第 i个图像帧特征相匹配的图像帧文本特征, t j为图像帧文本特征不匹配的第 j个图像帧特征, n itg为图像帧文本特征与图像帧特征匹配的总数, θ表示图像帧特征和图像帧文本特征之间的相似性, τ为待优化参数。

33、在第八种示例性的实施方式中,所述根据所述帧-文本匹配损失、所述帧-文本对比损失和所述文本生成损失确定所述视频帧适配器的损失函数,包括:

34、根据所述帧-文本匹配损失、所述帧-文本对比损失和所述文本生成损失确定图像帧-图像帧文本损失;

35、掩码所述视频样本的目标图像帧,通过基于掩码后的视频样本对应的图像帧文本特征与各图像帧特征训练的视频帧适配器,对所述目标图像帧进行预测本文档来自技高网...

【技术保护点】

1.一种视频语言模型训练方法,其特征在于,包括:

2.根据权利要求1所述的视频语言模型训练方法,其特征在于,所述待学习帧参数对应的参数特征为帧参数特征,所述文本描述标签包括视频帧描述文本标签,所述视频帧描述文本标签对应的文本语义特征为视频帧文本特征,所述视频帧适配器包括帧输入层、文本编码层、跨模态融合层、特征增强层和帧输出层;

3.根据权利要求2所述的视频语言模型训练方法,其特征在于,所述跨模态融合层为跨模态注意力机制层,所述将所述帧参数编码特征和所述视觉特征进行跨模态融合处理,包括:

4.根据权利要求2所述的视频语言模型训练方法,其特征在于,所述特征增强层包括第一特征增强层、交互特征提取层和第二特征增强层;

5.根据权利要求2所述的视频语言模型训练方法,其特征在于,所述视频帧适配器的训练过程包括:

6.根据权利要求5所述的视频语言模型训练方法,其特征在于,所述根据各图像帧特征与对应图像帧文本特征之间的损失信息,对所述视频帧适配器进行迭代更新,包括:

7.根据权利要求6所述的视频语言模型训练方法,其特征在于,所述通过比对图像帧特征和图像帧文本特征之间的相似性,确定帧-文本对比损失,包括:

8.根据权利要求6所述的视频语言模型训练方法,其特征在于,所述通过比对图像帧特征和图像帧文本特征之间的相似性,确定帧-文本对比损失,包括:

9.根据权利要求6所述的视频语言模型训练方法,其特征在于,所述根据所述帧-文本匹配损失、所述帧-文本对比损失和所述文本生成损失确定所述视频帧适配器的损失函数,包括:

10.根据权利要求9所述的视频语言模型训练方法,其特征在于,所述确定视频帧掩码损失包括:

11.根据权利要求1所述的视频语言模型训练方法,其特征在于,所述待学习视频参数对应的参数特征为视频参数特征,所述视频适配器包括视频输入层、参数编码器层、特征融合层、特征提取层和视频输出层;

12.根据权利要求11所述的视频语言模型训练方法,其特征在于,所述特征融合层包括第一视频特征增强层、跨模态学习层和第二视频特征增强层;

13.根据权利要求11所述的视频语言模型训练方法,其特征在于,所述视频语言模型还包括对接网络层;所述对接网络层包括第一转换器模型、视频特征提取层和联合层;

14.根据权利要求11所述的视频语言模型训练方法,其特征在于,所述文本描述标签包括视频描述文本标签,所述视频描述文本标签对应的文本语义特征为视频文本特征,所述视频适配器的训练过程包括:

15.根据权利要求14所述的视频语言模型训练方法,其特征在于,所述根据所述视频特征和所述编码文本特征之间的损失信息,包括:

16.根据权利要求1所述的视频语言模型训练方法,其特征在于,所述将所述视频样本数据集中的视频样本、所述待学习视频参数和所述待学习帧参数输入至所述视频语言模型,包括:

17.根据权利要求16所述的视频语言模型训练方法,其特征在于,所述利用所述目标视觉语言预训练模型的文本编码器分别提取所述待学习视频参数和所述待学习帧参数对应的参数特征,包括:

18.根据权利要求16所述的视频语言模型训练方法,其特征在于,所述文本描述标签包括视频描述文本标签和视频帧描述文本标签,所述利用所述目标视觉语言预训练模型的文本编码器提取所述视频样本的文本描述标签的文本语义特征,包括:

19.根据权利要求16所述的视频语言模型训练方法,其特征在于,所述利用所述目标视觉语言预训练模型的图像编码器提取各帧样本图像的图像特征,得到视觉特征,包括:

20.根据权利要求1至19任意一项所述的视频语言模型训练方法,其特征在于,所述待学习帧参数对应的参数特征为帧参数特征,所述文本描述标签包括视频帧描述文本标签和视频描述文本标签,所述视频帧描述文本标签对应的文本语义特征为视频帧文本特征,所述视频描述文本标签对应的文本语义特征为视频文本特征,所述视频语言模型的训练过程,包括:

21.根据权利要求20所述的视频语言模型训练方法,其特征在于,所述训练所述视频帧适配器,包括:

22.根据权利要求21所述的视频语言模型训练方法,其特征在于,所述训练所述视频帧适配器,包括:

23.一种视频语言任务执行方法,其特征在于,包括:

24.根据权利要求23所述的视频语言任务执行方法,其特征在于,所述待执行视频语言任务为视频内容理解任务,所述视频语言任务训练样本集为携带视频内容标签的多个视频样本的视频样本集;所述基于所述视频语言任务,利用所述视频语言任务训练样本集对所述...

【技术特征摘要】

1.一种视频语言模型训练方法,其特征在于,包括:

2.根据权利要求1所述的视频语言模型训练方法,其特征在于,所述待学习帧参数对应的参数特征为帧参数特征,所述文本描述标签包括视频帧描述文本标签,所述视频帧描述文本标签对应的文本语义特征为视频帧文本特征,所述视频帧适配器包括帧输入层、文本编码层、跨模态融合层、特征增强层和帧输出层;

3.根据权利要求2所述的视频语言模型训练方法,其特征在于,所述跨模态融合层为跨模态注意力机制层,所述将所述帧参数编码特征和所述视觉特征进行跨模态融合处理,包括:

4.根据权利要求2所述的视频语言模型训练方法,其特征在于,所述特征增强层包括第一特征增强层、交互特征提取层和第二特征增强层;

5.根据权利要求2所述的视频语言模型训练方法,其特征在于,所述视频帧适配器的训练过程包括:

6.根据权利要求5所述的视频语言模型训练方法,其特征在于,所述根据各图像帧特征与对应图像帧文本特征之间的损失信息,对所述视频帧适配器进行迭代更新,包括:

7.根据权利要求6所述的视频语言模型训练方法,其特征在于,所述通过比对图像帧特征和图像帧文本特征之间的相似性,确定帧-文本对比损失,包括:

8.根据权利要求6所述的视频语言模型训练方法,其特征在于,所述通过比对图像帧特征和图像帧文本特征之间的相似性,确定帧-文本对比损失,包括:

9.根据权利要求6所述的视频语言模型训练方法,其特征在于,所述根据所述帧-文本匹配损失、所述帧-文本对比损失和所述文本生成损失确定所述视频帧适配器的损失函数,包括:

10.根据权利要求9所述的视频语言模型训练方法,其特征在于,所述确定视频帧掩码损失包括:

11.根据权利要求1所述的视频语言模型训练方法,其特征在于,所述待学习视频参数对应的参数特征为视频参数特征,所述视频适配器包括视频输入层、参数编码器层、特征融合层、特征提取层和视频输出层;

12.根据权利要求11所述的视频语言模型训练方法,其特征在于,所述特征融合层包括第一视频特征增强层、跨模态学习层和第二视频特征增强层;

13.根据权利要求11所述的视频语言模型训练方法,其特征在于,所述视频语言模型还包括对接网络层;所述对接网络层包括第一转换器模型、视频特征提取层和联合层;

14.根据权利要求11所述的视频语言模型训练方法,其特征在于,所述文本描述标签包括视频描述文本标签,所述视频描述文本标签对应的文本语义特征为视频文本特征,所述视频适配器的训练过程包括:

15.根据权利要求14所述的视频语言模型训练方法,其特征在于,所述...

【专利技术属性】
技术研发人员:金良赵雅倩闫瑞栋范宝余郭振华尹云峰
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1