【技术实现步骤摘要】
本专利技术涉及视频语义处理,尤其涉及一种基于神经架构搜索的轻量化多模态视频事件解析方法。
技术介绍
1、视觉和听觉是人类感知世界的主要手段,视听信息的协同集成对人类的场景理解能力起着重要的作用,因此机器学习同样需要通过探索视听信息协作来追求类人感知。视听学习已经探索和研究了许多视听任务来帮助机器进行视听场景理解。尽管现有的方法已经在各自的任务上取得了非常高的性能,但这通常需要手工设计骨干网络和特征融合策略,且不同的网络结构往往只适用于特定的任务,这引起了人们对通用多模态方法的迫切关注。由于视听学习旨在学习视觉与听觉信息的联合表征,因此在视听融合时不仅需要融合跨模态信息,还需要对模态内和模态间的时序关系进行建模,这涉及两个关键问题,即特征选择策略与特征融合策略。
2、因此,如何进行特征选择且基于选定特征采用何种融合架构进行特征融合,提高计算效率和深度学习效果,是需要解决的技术问题。
技术实现思路
1、本专利技术实施例的目的是针对上述问题,提供一种基于神经架构搜索的轻量化多模态视频
...【技术保护点】
1.一种基于神经架构搜索的轻量化多模态视频事件解析方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述特征提取网络包括线下特征提取模块和编码特征提取模块,所述线下特征提取模块基于卷积神经网络构建,所述编码特征提取模块基于Transformer编码器构建;和/或,将所述视频数据和所述音频数据输入至所述特征提取网络,获得视频多尺度编码特征和音频多尺度编码特征,包括:
3.根据权利要求1所述的方法,其特征在于,所述单模态时序融合单元包括1个候选特征池和预设数量的单模态融合单元,所述候选特征池包括所述视频多尺度编码特征向量或者音频多
...【技术特征摘要】
1.一种基于神经架构搜索的轻量化多模态视频事件解析方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述特征提取网络包括线下特征提取模块和编码特征提取模块,所述线下特征提取模块基于卷积神经网络构建,所述编码特征提取模块基于transformer编码器构建;和/或,将所述视频数据和所述音频数据输入至所述特征提取网络,获得视频多尺度编码特征和音频多尺度编码特征,包括:
3.根据权利要求1所述的方法,其特征在于,所述单模态时序融合单元包括1个候选特征池和预设数量的单模态融合单元,所述候选特征池包括所述视频多尺度编码特征向量或者音频多尺度编码特征向量;和/或,单模态融合单元执行单模态融合操作,获得单模态融合特征向量,包括:
4.根据权利要求3所述的方法,其特征在于,从所述候选特征池中确定2个输入编码特征向量,包括:
5.根据权利要求4所述的方法,其特征在于,当前单模态融合单元执行单模态融合操作,获得当前单模态融合单元的输出特征向量,包括:
6.根据权利要求1所述的方法,其特征在于,所述跨模态时序融合单元包括视频候选特征池、音...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。