基于动态稀疏的视频理解方法、装置、设备及介质制造方法及图纸

技术编号:46553640 阅读:1 留言:0更新日期:2025-10-10 21:11
本申请涉及数据处理技术领域,公开了一种基于动态稀疏的视频理解方法、装置、设备及介质,该方案通过时空特征编码器对视频帧序列进行时空特征提取和转换,能够充分保留视频的时空信息,输出具有丰富语义的视频特征。利用动态稀疏注意力机制对视频语义特征进行稀疏注意力计算,根据视频内容的时空特性动态调整注意力分配,从而准确地捕捉到视频中重要的上下文信息,减少冗余计算,有效降低视频处理时的计算复杂度,从而提高视频理解的效率。通过文本生成编码器对上下文特征向量进行分析计算,实现高效精准的视频语义理解与文本描述生成,从而提高在金融领域处理海量交易数据和医疗领域处理高分辨率医学影像应用场景下的视频理解效率。

【技术实现步骤摘要】

本申请涉及视频理解,尤其涉及一种基于动态稀疏的视频理解方法、装置、设备及介质


技术介绍

1、在金融科技与医疗科技不断发展的当下,视频理解与文本生成技术作为计算机视觉与自然语言处理交叉领域的重要研究方向,具有广泛的应用前景。在金融领域,可对监控视频进行分析,辅助风险监控;在医疗领域,有助于对医疗操作视频进行记录和分析,生成详细的手术步骤等。其核心目标是从视频内容中提取语义准确的文本描述,为金融和医疗决策提供依据。

2、近年来,随着深度学习技术的飞速发展,基于注意力机制的模型在视频理解与文本生成领域取得了显著进展。传统的密集注意力机制,通过为视频帧的所有区域分配权重来实现内容聚焦,旨在全面捕捉关键信息。然而,这类方法存在计算复杂度高的问题,尤其对于长视频或高分辨率视频,其计算开销呈平方级增长。

3、为提升效率,稀疏注意力机制应运而生并被引入视频处理领域。例如,稀疏transformer通过固定模式剪枝注意力权重,减少了计算量。然而,现有技术采用的稀疏模式通常是静态预设的,无法适应视频内容中非均匀分布的时空复杂度,难以动态调整关注重点。本文档来自技高网...

【技术保护点】

1.一种基于动态稀疏的视频理解方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于动态稀疏的视频理解方法,其特征在于,所述基于时空特征编码器,对输入的视频帧序列进行时空特征提取和转换,输出视频语义特征,包括:

3.根据权利要求2所述的基于动态稀疏的视频理解方法,其特征在于,所述基于特征编码模型,对各所述局部时空特征进行全局时空上下文关系编码,获得所述视频语义特征,包括:

4.根据权利要求1所述的基于动态稀疏的视频理解方法,其特征在于,所述基于动态稀疏注意力机制,对所述视频语义特征进行稀疏注意力计算,获得上下文特征向量,包括

5....

【技术特征摘要】

1.一种基于动态稀疏的视频理解方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于动态稀疏的视频理解方法,其特征在于,所述基于时空特征编码器,对输入的视频帧序列进行时空特征提取和转换,输出视频语义特征,包括:

3.根据权利要求2所述的基于动态稀疏的视频理解方法,其特征在于,所述基于特征编码模型,对各所述局部时空特征进行全局时空上下文关系编码,获得所述视频语义特征,包括:

4.根据权利要求1所述的基于动态稀疏的视频理解方法,其特征在于,所述基于动态稀疏注意力机制,对所述视频语义特征进行稀疏注意力计算,获得上下文特征向量,包括:

5.根据权利要求4所述的基于动态稀疏的视频理解方法,其特征在于,所述基于所述稀疏掩码,对所述视频语义特征进行稀疏注意力计算,获得所述所述视频语义特征中至少一个目标位置元素的注意力权重,包括:

6.根据权利要求1所述...

【专利技术属性】
技术研发人员:舒畅陈远旭
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1