System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多模态大模型知识迁移框架的构建方法技术_技高网

一种多模态大模型知识迁移框架的构建方法技术

技术编号:40827171 阅读:4 留言:0更新日期:2024-04-01 14:48
本申请提供了一种多模态大模型知识迁移框架的构建方法、装置、电子设备及存储介质,涉及视频识别领域。其中,该方法包括:基于对原视频进行视觉增强获取外部视觉特征;基于将原视频输入到视觉语言大模型进行对话,提取文本特征,其中,文本特征为对原视频的文本描述;在分类网络中插入自适应模块,并将所述外部视觉特征与所述文本特征融合到分类网络的训练中,基于所述分类网络训练收敛后确定知识迁移框架。本申请解决了相关技术中在开放域数据上使用多模态大模型效果并不好的问题。

【技术实现步骤摘要】

本申请涉及计算机,具体而言,本申请涉及一种多模态大模型知识迁移框架的构建方法、装置、电子设备及存储介质。


技术介绍

1、随着深度学习的快速发展,近年来人们提出了许多深度学习视频理解网络。然而,这些识别模型主要是在理想条件下收集的经典视频基准上工作。在许多现实应用中,摄像机拍摄环境要复杂得多,目标分辨率低,光照条件差,视频场景异常等。在这种开放世界场景中,由于缺乏外部领域知识,大多数现有的视频模型都不能很好地泛化,效果不好。

2、自然语言大模型的发展促进了很多多模态模型的发展。通过大量网络数据的预训练,这些基础模型能够有丰富的语义知识,能够适应低概率的泛化。开放世界视频识别是一个难度较大的课题,如何利用这些大模型的知识进行开放世界视频识别还没有得到充分的探索,直接在开放域数据上使用多模态大模型效果并不好,对此情况有待进一步改善。


技术实现思路

1、本申请各提供了一种多模态大模型知识迁移框架的构建方法、装置、电子设备及存储介质,可以解决相关技术中存在的在开放域数据上使用多模态大模型效果并不好的问题。所述技术方案如下:

2、根据本申请的一个方面,一种多模态大模型知识迁移框架的构建方法,包括:基于对原视频进行视觉增强获取外部视觉特征;基于将原视频输入到视觉语言大模型进行对话,提取文本特征,其中,文本特征为对原视频的文本描述;在分类网络中插入自适应模块,并将所述外部视觉特征与所述文本特征融合到分类网络的训练中,基于所述分类网络训练收敛后确定知识迁移框架。

3、根据本申请的一个方面,一种多模态大模型知识迁移框架的构建装置,包括:外部视觉特征获取模块,基于对原视频进行视觉增强用于获取外部视觉特征;文本特征提取模块,基于将原视频输入到视觉语言大模型进行对话,用于提取文本特征,其中,文本特征为对原视频的文本描述;框架确定模块,在分类网络中插入自适应模块,并将所述外部视觉特征与所述文本特征融合到分类网络的训练中,基于所述分类网络训练收敛后用于确定知识迁移框架。

4、在一示例性实施例中,装置还包括但不限于:视觉数据获取模块,获取视觉增强模型对原视频进行预处理,用于获取对应的视觉数据;外部视觉特征确定模块,将所述视觉数据输入视频基础模型中用于确定外部视觉特征。

5、在一示例性实施例中,装置还包括但不限于:类别置信度分数获取模块,基于所述视频基础模型用于获取所述视觉数据对应的类别置信度分数;置信度阈值调取模块,用于调取置信度阈值;置信度判断模块,用于判断类别置信度分数是否大于置信度阈值;若是,外部描述信息获取模块,确定所述类别置信度分数对应的类别为外部标签,并用于获取所述外部标签的外部描述信息;否则,外部视频标题获取模块,将所述原视频输入到对话模型中用于获取外部视频标题;文本特征提取模块,将所述外部描述信息或所述外部视频标题输入bert模型中用于提取文本特征。

6、在一示例性实施例中,装置还包括但不限于:词长数据获取模块,用于获取所述外部描述信息对应的单词词长数据;词长阈值调取模块,用于调取单词词长阈值;词长判断模块,用于判断单词词长数据是否大于单词词长阈值,若是,则外部描述信息的单词词长数据缩写到单词词长阈值。

7、在一示例性实施例中,装置还包括但不限于:自适应特征获取模块,用于获取所述外部视觉特征对应的视觉自适应特征与所述文本特征对应的文本自适应特征;中间层特征获取模块,用于获取基础模型对应的中间层特征;结合模块,用于将所述视觉自适应特征、所述文本自适应特征与所述中间层特征通过加权残差加法结合。

8、在一示例性实施例中,装置还包括但不限于:外部视觉特征输入模块,用于将所述外部视觉特征输入交叉注意力机制中,获取视觉自适应特征;文本特征输入模块,用于将所述文本特征输入交叉注意力机制中,获取文本自适应特征。

9、根据本申请的一个方面,一种电子设备,包括至少一个处理器以及至少一个存储器,其中,所述存储器上存储有计算机可读指令;所述计算机可读指令被一个或多个所述处理器执行,使得电子设备实现如上所述的多模态大模型知识迁移框架的构建方法。

10、根据本申请的一个方面,一种存储介质,其上存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行,以实现如上所述的多模态大模型知识迁移框架的构建方法。

11、根据本申请的一个方面,一种计算机程序产品,计算机程序产品包括计算机可读指令,计算机可读指令存储在存储介质中,电子设备的一个或多个处理器从存储介质读取计算机可读指令,加载并执行该计算机可读指令,使得电子设备实现如上所述的多模态大模型知识迁移框架的构建方法。

12、本申请提供的技术方案带来的有益效果是:首先在感知阶段对开放世界的原视频进行增强,减小开放世界数据与实验室数据的域差异,然后提取增强视频的视觉特征作为外部视觉特征,其次,我们通过聊天阶段的视觉语言理解,进一步生成关于预测标签或视频字幕的文本特征,通过多样化的文本特征对外部文本知识来详细描述视频,最后,在自适应阶段,通过在视频主干中灵活插入多模态知识自适应模块,实现外部视觉和文本知识的融合,实现开放世界识别。

13、在上述技术方案中,基于对原视频进行视觉增强获取外部视觉特征,基于将原视频输入到视觉语言大模型进行对话,提取文本特征,在分类网络中插入自适应模块,并将外部视觉特征与文本特征融合到分类网络的训练中,基于分类网络训练收敛后确定知识迁移框架;然后,通过减小域差距之后的外部视觉特征以及对于原视频进行多样化文本描述的文本特征,在自适应阶段,通过在视频主干中灵活插入多模态知识自适应模块,实现外部视觉和文本知识的融合,实现开放世界识别,从而能够有效地解决相关技术中存在的在开放域数据上使用多模态大模型效果并不好的问题。

本文档来自技高网...

【技术保护点】

1.一种多模态大模型知识迁移框架的构建方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,在所述基于对原视频进行视觉增强获取外部视觉特征的过程中,所述方法还包括:

3.如权利要求1所述的方法,其特征在于,在所述基于将原视频输入到视觉语言大模型进行对话,提取文本特征的过程中,所述方法还包括:

4.如权利要求3所述的方法,其特征在于,在所述获取所述外部标签的外部描述信息的过程中,所述方法还包括:

5.如权利要求1所述的方法,其特征在于,在所述将所述外部视觉特征与所述文本特征融合到分类网络的训练中的过程中,所述方法还包括:

6.如权利要求5所述的方法,其特征在于,在所述获取视觉自适应特征和文本自适应特征的过程中,所述方法还包括:

7.一种多模态大模型知识迁移框架的构建装置,其特征在于,包括:

8.如权利要求7所述的装置,其特征在于,所述装置还包括:

9.一种电子设备,其特征在于,包括:至少一个处理器以及至少一个存储器,其中,

10.一种存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被一个或多个处理器执行,以实现如权利要求1至6中任一项所述的多模态大模型知识迁移框架的构建方法。

...

【技术特征摘要】

1.一种多模态大模型知识迁移框架的构建方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,在所述基于对原视频进行视觉增强获取外部视觉特征的过程中,所述方法还包括:

3.如权利要求1所述的方法,其特征在于,在所述基于将原视频输入到视觉语言大模型进行对话,提取文本特征的过程中,所述方法还包括:

4.如权利要求3所述的方法,其特征在于,在所述获取所述外部标签的外部描述信息的过程中,所述方法还包括:

5.如权利要求1所述的方法,其特征在于,在所述将所述外部视觉特征与所述文本特征融合到分类网络的训练中的过程...

【专利技术属性】
技术研发人员:陈伯瑜王亚立乔宇
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1