视频理解方法、模型训练方法、装置以及电子设备制造方法及图纸

技术编号:43568148 阅读:25 留言:0更新日期:2024-12-06 17:38
本申请公开了一种视频理解方法、模型训练方法、装置以及电子设备,该方法用于通过训练好的视频理解模型进行视频任务理解,以输出视频理解结果;其中,视频理解模型是基于超网络构建的,其包括数据编码神经元模块、记忆神经元模块以及任务神经元模块;该方法包括获取待理解视频;通过数据编码神经元模块对待理解视频中的各模态数据进行编码,以获取各模态编码数据;通过记忆神经元模块对各模态编码数据进行特征提取,以获取各模态特征数据;将各模态编码数据以及各模态特征数据共同输入任务神经元模块,以输出视频理解结果。本申请采用了一种基于超网络构建的视频理解模型处理视频理解任务,这种网络结构能够提高模型性能,具有更强的泛化能力。

【技术实现步骤摘要】

本申请属于人工智能,尤其涉及一种视频理解方法、模型训练方法、装置以及电子设备


技术介绍

1、视频是一种自然的数据格式,它反映了物理世界的潜在动态。对于世界建模,理解视频中发生的事情是至关重要的。随着深度学习的快速发展,近年来人们提出了许多基于人工智能的深度学习视频理解网络来处理视频理解任务。其中,一般的视频理解模型主要是针对视频输入单模态专门设计的,这种单模态方法限制了理解现实世界模型和任务的通用性,在多模态任务的任务应用价值是有限的。

2、近年来,通过大规模的多模态预训练得到的大模型显示出了对于视频理解任务处理的潜力。然而,这些模型只是简单地通过对比学习来对齐不同模态的编码器,缺乏视频中更深层次的多模态交互建模能力,且对比学习的方法较为简单,多模态模型之间的交互有限,仅仅只有输出向量之间的交互,模型的泛化能力弱。这些模型的多模态数据之间的交互较差,多模态模型之间的信息传递较少,缺乏深层次的多模态信息编码能力。

3、因此,现有的视频理解方法在面对具有多模态信息的视频进行视频理解任务时,视频理解任务处理的效果不佳


本文档来自技高网...

【技术保护点】

1.视频理解方法,其特征在于,所述方法用于通过训练好的视频理解模型进行视频任务理解,以输出视频理解结果;其中,所述视频理解模型是基于超网络构建的,其包括数据编码神经元模块、记忆神经元模块以及任务神经元模块;所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述记忆神经元模块包括依次连接的第一记忆神经元层以及至少一个循环记忆联想模块;

3.根据权利要求2所述的方法,其特征在于,所述循环记忆联想模块包括依次连接的融合层、全连接层、特征提示层以及第二记忆神经元层;

4.根据权利要求2所述的方法,其特征在于,所述记忆神经元采用Imagebind和/或l...

【技术特征摘要】

1.视频理解方法,其特征在于,所述方法用于通过训练好的视频理解模型进行视频任务理解,以输出视频理解结果;其中,所述视频理解模型是基于超网络构建的,其包括数据编码神经元模块、记忆神经元模块以及任务神经元模块;所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述记忆神经元模块包括依次连接的第一记忆神经元层以及至少一个循环记忆联想模块;

3.根据权利要求2所述的方法,其特征在于,所述循环记忆联想模块包括依次连接的融合层、全连接层、特征提示层以及第二记忆神经元层;

4.根据权利要求2所述的方法,其特征在于,所述记忆神经元采用imagebind和/或languagebind模型的多模态编码器。

5.根据权利要求1至4任一项所述的方法,其特征在于,所述视频理解模型用于处理的视频理解任务包括像素级视频理解、高层视频级识别、视频到文本的对话任务以及文本到视频的内容编辑任务中的至少一项。

6.一种模型训练方法,其特征在于,所述模型训练方法包括:

7.根据权利要求6所述的模型训练方法,其特征在于,所述视频理解模型包...

【专利技术属性】
技术研发人员:王亚立陈伯瑜乔宇
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1