跨模态增强和残差注意的弱监督时序动作定位方法及系统技术方案

技术编号：42165872 阅读：89 留言：0更新日期：2024-07-27 00:14

本发明专利技术属于计算机视觉领域，涉及一种跨模态增强和残差注意的弱监督时序动作定位方法及系统。方法包括如下步骤：特征提取；多头跨模态信息交互；基于RGB的跨模态注意增强；基于光流的残差注意增强；双流特征融合与片段级动作分类；视频级动作分类。发明专利技术的优点是通过不同模态特征的信息交互学习到跨模态信息，以及学习跨模态信息和模态内全局信息来增强RGB特征，通过捕获序列数据之间的依赖关系增强时间信息。增强后的特征提取到了更多与任务相关的时间与空间信息，因而能够获得更精确的动作定位与分类结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉领域，涉及一种跨模态增强和残差注意的弱监督时序动作定位方法及系统。

技术介绍

1、随着视频数据的快速增长，如何高效、准确地理解和利用视频内容成为一个亟待解决的问题。弱监督时序动作定位的研究为在大规模视频数据中挖掘有价值信息提供了一种有效的方法，仅使用视频级别的标签进行时间动作定位，简化了数据收集过程。由于缺乏精确的时间边界，wtal现有工作主要遵循定位-分类管道。具体来标签来学习每个输入视频的时序类激活序列，它表示视频中每一帧属于每一个动作类的概率。然后，在测试阶段，可以通过时序类激活序列上的阈值分数来定位视频中动作实例的边界。为了有效区分动作背景，许多研究改进了注意力机制，抑制背景激活分数，突出动作激活分数。还有一些工作利用视频信息生成伪标签来提高类激活序列的质量。虽然这些方法在wtal上取得了显著的改进，但是在提高行动边界预测的准确性上仍然是一个需要解决的问题。

2、一方面，现有方法通常使用预训练模型来提取用于训练的rgb和光流特征，然而这些特征不是为wtal任务训练的，可能存在提取的特征信息无法...

【技术保护点】

1.一种跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，包括如下步骤：

2. 根据权利要求1所述跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，S2具体过程如下：

3.根据权利要求1所述跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，S3具体过程如下：

4.根据权利要求1所述跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，S4具体过程如下：

5.根据权利要求1所述跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，S5具体公式如下：

6.根据权利要求1所述跨模态增强和残差注意的弱监督...

【技术特征摘要】

1.一种跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，包括如下步骤：

2. 根据权利要求1所述跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，s2具体过程如下：

3.根据权利要求1所述跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，s3具体过程如下：

4.根据权利要求1所述跨模态增强和残差注意的弱...

【专利技术属性】
技术研发人员：高赞，徐晓艺，赵一博，马春杰，袁立明，薛彦兵，
申请(专利权)人：天津理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人