基于多模态证据学习的弱监督时序动作定位方法及系统技术方案

技术编号：41303984 阅读：3 留言：0更新日期：2024-05-13 14:50

本发明专利技术提供一种基于多模态证据学习的弱监督时序动作定位方法及系统，属于计算机视觉技术领域，其包括：将预训练I3D网络中提取的RGB特征和FLOW特征进行语义和时序信息增强，将增强后的RGB特征和FLOW特征聚合为视频特征，利用视频特征进行动作分类和定位，引入证据学习模块对RGB和FLOW两个模态进行片段级证据学习，分别计算两个模态的数据不确定性和模型不确定性，从而减少背景噪声对视频预测的干扰，提高分类定位的准确性。本发明专利技术所提供的基于多模态证据学习的弱监督时序动作定位方法及系统充分利用了时序信息和语义信息，扩大了感受野，有利于模型更好的进行分类定位，获得了鲁棒的定位和分类特征。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，尤其涉及一种基于多模态证据学习的弱监督时序动作定位方法。

技术介绍

1、时序动作定位是视频处理中一项极具挑战性的任务，其旨在时间轴上定位动作的开始和结束位置，同时还要预测动作的类别。与全监督时序动作检测不同，弱监督的时序动作定位只有视频级别的标签，因此节约了标注成本，受到研究者的广泛研究。

2、现有技术中，大多数现有的弱监督时序动作定位方法基于多实例学习(mil)方式开发其框架。首先预测每个片段的分类概率，然后将它们聚合为视频级预测。最后，使用给定的视频级标签执行优化过程。动作提案是通过对片段级别的类别分数进行阈值处理来生成的。在这种方法中，背景帧被错误分类为动作类。因此，一些作品引入了一个注意力模块，通过抑制背景部分来提高识别前景的能力。lee等人引入了背景辅助类，并提出了一种具有非对称训练策略的双分支权重共享架构。此外，基于mil的方法只专注于优化视频中最具辨别力的片段。对于动作完整性建模，一些作品采用了互补学习方案，该方案删除了视频中最具辨别力的部分，专注于互补部分。

3、但是，现有的时序动作定位方法仍然存在以下弊端：

4、（1）多实例学习过程中，top-k池化会导致一些无用的信息会被聚合，聚合到的片段中存在不能识别动作或背景的困难片段，影响定位和识别过程。

5、（2）原始特征是针对动作识别任务，用于动作检测会导致特征冗余，亟需探索以更有效的方式重新校准特征。

6、因此，亟需一种鲁棒的基于困难片段过滤的弱监督时序动作定位方法。

r/>

技术实现思路

1、为了实现上述目的，本专利技术目的之一是提供一种基于多模态证据学习的弱监督时序动作定位方法。

2、本专利技术解决技术问题的技术方案为：

3、一种基于多模态证据学习的弱监督时序动作定位方法，包括如下步骤：

4、s110.采集待检测的动作视频；

5、s120.利用预训练的i3d网络对动作视频进行特征提取，获取待检测的动作的rgb特征和flow特征，然后分别通过语义上下文感知模块和时序信息感知模块，获取语义信息和时序信息增强后的rgb特征和flow特征以及rgb特征的注意力权重、flow注意力权重，将增强后的rgb特征和flow特征聚合为视频特征，再将聚合的视频特征送入到分类器中，预测每个片段的时间类激活分数；

6、s130. 将增强后的rgb特征和flow特征送入证据学习模块中，分别得到两者的片段级证据和，然后分别利用注意力权重和对片段级证据和进行top-k聚合操作，分别得到视频级证据和；

7、s140.分析计算视频级证据得到rgb特征和flow特征的模型不确定性分数和数据不确定性分数，分别是rgb模态数据不确定性分数、模型不确定性分数、flow模态的数据不确定性分数、模型不确定性分数，同理可得片段级rgb模态数据不确定性分数、模型不确定性分数、flow模态的数据不确定性分数、模型不确定性分数；

8、进一步分别融合每个模态的数据不确定性分数和模型不确定性分数，分别得到融合后两个模态的不确定性分数、，加权得到最终的不确定性分数，同理可得片段级两个模态的不确定性分数、，加权得到最终的不确定性分数；

9、s150.动作定位：在推理阶段，首先预测视频的时间类激活分数cas，然后应用阈值策略，获得遵循标准流程的动作候选片段，再将连续的代码片段分组到动作提案中，最后执行非最大抑制nms来删除重复的建议。

10、具体实施方式中，flow特征通过时序信息感知模块，获取时序信息增强后的flow特征以及注意力权重，rgb特征通过语义上下文模块，利用增强后的flow特征，获取语义信息增强后的rgb特征，具体过程如下：

11、时序信息感知模块主要是由k层膨胀卷积和注意力模块组成，将flow特征输入膨胀值为1的第一层膨胀卷积，再将输出结果经过一个层得到中间结果，其中，表示的值域，表示视频片段长度，表示特征维数；

12、对于第k层膨胀卷积，计算过程如下：

13、，其中，

14、，

15、其中，，表示第k个膨胀卷积层的输出，表示膨胀值，使得卷积神经网络感受野扩展到第k层的片段；

16、然后，将sigmoid函数应用于，与相乘得到增强后的flow特征，计算过程如下：

17、，

18、其中，表示第k个膨胀卷积层的输出，表示sigmoid函数，表示元素级乘法；

19、最后，进一步对每个应用sigmoid函数和元素级乘法，并使用注意力模块来生成时序注意力权重，其中注意力模块由三个时间一维卷积层和一个sigmoid函数组成，，表示的值域，表示视频片段长度，时序注意权重是的加权平均值，计算过程如下：

20、，其中，

21、，

22、其中，表示权值参数，，，并且，表示第k层输出的时序注意力权重。

23、具体实施方式中，rgb特征通过语义上下文模块，利用增强后的flow特征，获取语义信息增强后的rgb特征以及注意力权重，具体过程如下：

24、通过语义上下文感知模块将rgb特征和增强后的flow特征输入到一个共享卷积层中，输出经过sigmoid函数，得到两个权值来增强rgb特征，计算过程如下：

25、，

26、其中，表示增强后的rgb特征，，表示视频片段长度，表示特征维数，表示增强后的flow特征，表示共享卷积层，表示sigmoid函数，表示元素级乘法；

27、然后使用注意力模块生成空间注意力权重，注意力模块由三个时间一维卷积层和一个sigmoid函数组成，，的计算过程如下：

28、；

29、最后，连接增强后的rgb特征和flow特征，获得增强后的视频特征，聚合空间注意力权重和时序注意力权重，得到注意力权重a，计算过程如下：

30、，

31、，

32、其中，表示特征拼接，表示特征聚合，表示增强后的视频特征，，表示视频片段长度，表示特征维数。

33、具体实施方式中，将增强后的视频特征送入到分类器中，预测每个片段的时间类激活分数，具体过程如下：

34、将增强后的视频特征通过由三个卷积层组成的分类器，生成给定视频的片段级时间类激活分数，，其中，表示视频片段长度，表示类别数量，第类表示背景类，，表示片段级时间类激活分数，表示由三个卷积层组成的分类器，是增强后的视频特征；

35、通过top-k机制聚合时间类激活分数，聚合每个类的时间维度的前z个值得到视频激活分数，通过沿类维度应用softmax操作得到视频级别的分类概率；

36、top-k机制聚合通过以下公式实现：

37、，

38、，

39、其中，表示聚合每个类的时间维度的前k个值得到视频激活分数，j=1,2,3,...,(c+1)，j表示类索引，代表第a本文档来自技高网...

【技术保护点】

1.一种基于多模态证据学习的弱监督时序动作定位方法，其特征是，包括如下步骤：

2.如权利要求1所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是，FLOW特征通过时序信息感知模块，获取时序信息增强后的FLOW特征以及注意力权重，RGB特征通过语义上下文模块，利用增强后的FLOW特征，获取语义信息增强后的RGB特征，具体过程如下：

3.如权利要求2所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是，RGB特征通过语义上下文模块，利用增强后的FLOW特征，获取语义信息增强后的RGB特征以及注意力权重，具体过程如下：

4.如权利要求3所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是，将增强后的视频特征送入到分类器中，预测每个片段的时间类激活分数，具体过程如下：

5.如权利要求4所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是：将增强后的RGB和FLOW两个模态的特征和送入证据学习模块中，分别得到RGB和FLOW两个模态的片段级证据和，然后分别利用注意力权重和对片段级证据和进行top-k聚合操作得到视频级证据和，计算过程如下：

6.如权利要求5所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是：

7.如权利要求6所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是：

8.一种基于多模态证据学习的弱监督时序动作定位系统，其特征是，包括以下模块：

...

【技术特征摘要】

1.一种基于多模态证据学习的弱监督时序动作定位方法，其特征是，包括如下步骤：

2.如权利要求1所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是，flow特征通过时序信息感知模块，获取时序信息增强后的flow特征以及注意力权重，rgb特征通过语义上下文模块，利用增强后的flow特征，获取语义信息增强后的rgb特征，具体过程如下：

3.如权利要求2所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是，rgb特征通过语义上下文模块，利用增强后的flow特征，获取语义信息增强后的rgb特征以及注意力权重，具体过程如下：

4.如权利要求3所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是...

【专利技术属性】
技术研发人员：高赞，王爱玲，马春杰，赵一博，李传森，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人