基于多模态证据学习的弱监督时序动作定位方法及系统技术方案

技术编号:41303984 阅读:14 留言:0更新日期:2024-05-13 14:50
本发明专利技术提供一种基于多模态证据学习的弱监督时序动作定位方法及系统,属于计算机视觉技术领域,其包括:将预训练I3D网络中提取的RGB特征和FLOW特征进行语义和时序信息增强,将增强后的RGB特征和FLOW特征聚合为视频特征,利用视频特征进行动作分类和定位,引入证据学习模块对RGB和FLOW两个模态进行片段级证据学习,分别计算两个模态的数据不确定性和模型不确定性,从而减少背景噪声对视频预测的干扰,提高分类定位的准确性。本发明专利技术所提供的基于多模态证据学习的弱监督时序动作定位方法及系统充分利用了时序信息和语义信息,扩大了感受野,有利于模型更好的进行分类定位,获得了鲁棒的定位和分类特征。

【技术实现步骤摘要】

本专利技术涉及计算机视觉,尤其涉及一种基于多模态证据学习的弱监督时序动作定位方法。


技术介绍

1、时序动作定位是视频处理中一项极具挑战性的任务,其旨在时间轴上定位动作的开始和结束位置,同时还要预测动作的类别。与全监督时序动作检测不同,弱监督的时序动作定位只有视频级别的标签,因此节约了标注成本,受到研究者的广泛研究。

2、现有技术中,大多数现有的弱监督时序动作定位方法基于多实例学习(mil)方式开发其框架。首先预测每个片段的分类概率,然后将它们聚合为视频级预测。最后,使用给定的视频级标签执行优化过程。动作提案是通过对片段级别的类别分数进行阈值处理来生成的。在这种方法中,背景帧被错误分类为动作类。因此,一些作品引入了一个注意力模块,通过抑制背景部分来提高识别前景的能力。lee等人引入了背景辅助类,并提出了一种具有非对称训练策略的双分支权重共享架构。此外,基于mil的方法只专注于优化视频中最具辨别力的片段。对于动作完整性建模,一些作品采用了互补学习方案,该方案删除了视频中最具辨别力的部分,专注于互补部分。

3、但是,现有的时序动作定位方法本文档来自技高网...

【技术保护点】

1.一种基于多模态证据学习的弱监督时序动作定位方法,其特征是,包括如下步骤:

2.如权利要求1所述的基于多模态证据学习的弱监督时序动作定位方法,其特征是,FLOW特征通过时序信息感知模块,获取时序信息增强后的FLOW特征以及注意力权重,RGB特征通过语义上下文模块,利用增强后的FLOW特征,获取语义信息增强后的RGB特征,具体过程如下:

3.如权利要求2所述的基于多模态证据学习的弱监督时序动作定位方法,其特征是,RGB特征通过语义上下文模块,利用增强后的FLOW特征,获取语义信息增强后的RGB特征以及注意力权重,具体过程如下:

4.如权利要求3所述的基...

【技术特征摘要】

1.一种基于多模态证据学习的弱监督时序动作定位方法,其特征是,包括如下步骤:

2.如权利要求1所述的基于多模态证据学习的弱监督时序动作定位方法,其特征是,flow特征通过时序信息感知模块,获取时序信息增强后的flow特征以及注意力权重,rgb特征通过语义上下文模块,利用增强后的flow特征,获取语义信息增强后的rgb特征,具体过程如下:

3.如权利要求2所述的基于多模态证据学习的弱监督时序动作定位方法,其特征是,rgb特征通过语义上下文模块,利用增强后的flow特征,获取语义信息增强后的rgb特征以及注意力权重,具体过程如下:

4.如权利要求3所述的基于多模态证据学习的弱监督时序动作定位方法,其特征是...

【专利技术属性】
技术研发人员:高赞王爱玲马春杰赵一博李传森
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1