当前位置: 首页 > 专利查询>湖南大学专利>正文

基于差分梯度进行关键帧增强的视频理解方法及系统技术方案

技术编号:46410419 阅读:2 留言:0更新日期:2025-09-16 19:57
本发明专利技术公开了一种基于差分梯度进行关键帧增强的视频理解方法及系统,该方法包括步骤1:构建行为识别数据集;步骤2:对行为发生原始视频进行预处理;步骤3:时空梯度注意力运动增强;步骤4:将经过时空梯度注意力运动增强处理后的数据处理后,再进行时空平均池化和线性映射处理,实现对视频中包含的行为进行理解。将视频的差分梯度信息直接参与注意力权重的计算,能够得到符合人类直觉的注意力信息。由生成的注意力权重对空间维度信息进行动态调整,实现像素级的仿射变换,既保持了时序一致性,又能针对不同区域实施差异化处理,在计算效率和增强效果之间取得了显著优于传统方法的平衡。

【技术实现步骤摘要】

本专利技术属于视频处理,具体涉及一种基于差分梯度进行关键帧增强的视频理解方法及系统


技术介绍

1、film即feature-wise linear modulation(逐特征线性调制),是一种在视觉处理领域中有着重要应用的技术。film通过条件输入(如语言问题)生成特征级的缩放(γ)和偏移(β)参数,对目标网络(如cnn)的中间特征进行逐通道的线性变换。这种调制方式不依赖复杂的注意力机制或特征拼接,而是通过轻量化的参数动态调整特征分布,显著提升了模型的参数效率和计算效率。film的γ和β参数由一个独立的生成网络(如gru或mlp)根据条件输入(如文本问题)动态生成。例如,在视觉推理任务中,语言问题通过gru编码后生成不同层次的调制参数,逐层作用于视觉特征的残差块中。这种设计实现了语言与视觉信息的深度交互,而非仅在最后阶段融合。同时film层可直接嵌入到现有网络架构(如resnet)的中间层中,无需改变网络主体结构。实验表明,film对网络架构的鲁棒性强,即使移除批归一化层或调整残差块数量,性能依然稳定。然而,film 对静态图像的条件调制仅在通道维度生本文档来自技高网...

【技术保护点】

1.一种基于差分梯度进行关键帧增强的视频理解方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述预处理中帧抽取是从每段视频中均匀采样固定长度为64帧的帧序列;

3.根据权利要求1所述的方法,其特征在于,所述差分特征提取处理过程如下:

4.根据权利要求3所述的方法,其特征在于,所述高斯梯度增强处理过程如下:

5.根据权利要求1所述的方法,其特征在于,所述时序融合的处理过程如下:

6.根据权利要求5所述的方法,其特征在于,对经过时序融合处理后的数据再进行基于动态参数的时空调制,具体过程如下:</p>

7.根据...

【技术特征摘要】

1.一种基于差分梯度进行关键帧增强的视频理解方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述预处理中帧抽取是从每段视频中均匀采样固定长度为64帧的帧序列;

3.根据权利要求1所述的方法,其特征在于,所述差分特征提取处理过程如下:

4.根据权利要求3所述的方法,其特征在于,所述高斯梯度增强处理过程如下:

5.根据权利要求1所述的方法,其特征在于,所述时序融合的处理过程如下:

6.根据权利要求5所述的方法,其特征在于,对经过时序融合处理后的数据再进...

【专利技术属性】
技术研发人员:张辉吴读桑曹意宏杜瑞别克扎提·巴合提刘航王耀南毛建旭
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1