【技术实现步骤摘要】
本申请属于人工智能,尤其涉及一种视频理解方法、模型训练方法、装置以及电子设备。
技术介绍
1、视频是一种自然的数据格式,它反映了物理世界的潜在动态。对于世界建模,理解视频中发生的事情是至关重要的。随着深度学习的快速发展,近年来人们提出了许多基于人工智能的深度学习视频理解网络来处理视频理解任务。其中,一般的视频理解模型主要是针对视频输入单模态专门设计的,这种单模态方法限制了理解现实世界模型和任务的通用性,在多模态任务的任务应用价值是有限的。
2、近年来,通过大规模的多模态预训练得到的大模型显示出了对于视频理解任务处理的潜力。然而,这些模型只是简单地通过对比学习来对齐不同模态的编码器,缺乏视频中更深层次的多模态交互建模能力,且对比学习的方法较为简单,多模态模型之间的交互有限,仅仅只有输出向量之间的交互,模型的泛化能力弱。这些模型的多模态数据之间的交互较差,多模态模型之间的信息传递较少,缺乏深层次的多模态信息编码能力。
3、因此,现有的视频理解方法在面对具有多模态信息的视频进行视频理解任务时,视频理解任务处理的效果不佳
【技术保护点】
1.视频理解方法,其特征在于,所述方法用于通过训练好的视频理解模型进行视频任务理解,以输出视频理解结果;其中,所述视频理解模型是基于超网络构建的,其包括数据编码神经元模块、记忆神经元模块以及任务神经元模块;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述记忆神经元模块包括依次连接的第一记忆神经元层以及至少一个循环记忆联想模块;
3.根据权利要求2所述的方法,其特征在于,所述循环记忆联想模块包括依次连接的融合层、全连接层、特征提示层以及第二记忆神经元层;
4.根据权利要求2所述的方法,其特征在于,所述记忆神经元采用Ima
...【技术特征摘要】
1.视频理解方法,其特征在于,所述方法用于通过训练好的视频理解模型进行视频任务理解,以输出视频理解结果;其中,所述视频理解模型是基于超网络构建的,其包括数据编码神经元模块、记忆神经元模块以及任务神经元模块;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述记忆神经元模块包括依次连接的第一记忆神经元层以及至少一个循环记忆联想模块;
3.根据权利要求2所述的方法,其特征在于,所述循环记忆联想模块包括依次连接的融合层、全连接层、特征提示层以及第二记忆神经元层;
4.根据权利要求2所述的方法,其特征在于,所述记忆神经元采用imagebind和/或languagebind模型的多模态编码器。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述视频理解模型用于处理的视频理解任务包括像素级视频理解、高层视频级识别、视频到文本的对话任务以及文本到视频的内容编辑任务中的至少一项。
6.一种模型训练方法,其特征在于,所述模型训练方法包括:
7.根据权利要求6所述的模型训练方法,其特征在于,所述视频理解模型包...
【专利技术属性】
技术研发人员:王亚立,陈伯瑜,乔宇,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。