【技术实现步骤摘要】
本申请涉及视频理解,尤其涉及一种基于动态稀疏的视频理解方法、装置、设备及介质。
技术介绍
1、在金融科技与医疗科技不断发展的当下,视频理解与文本生成技术作为计算机视觉与自然语言处理交叉领域的重要研究方向,具有广泛的应用前景。在金融领域,可对监控视频进行分析,辅助风险监控;在医疗领域,有助于对医疗操作视频进行记录和分析,生成详细的手术步骤等。其核心目标是从视频内容中提取语义准确的文本描述,为金融和医疗决策提供依据。
2、近年来,随着深度学习技术的飞速发展,基于注意力机制的模型在视频理解与文本生成领域取得了显著进展。传统的密集注意力机制,通过为视频帧的所有区域分配权重来实现内容聚焦,旨在全面捕捉关键信息。然而,这类方法存在计算复杂度高的问题,尤其对于长视频或高分辨率视频,其计算开销呈平方级增长。
3、为提升效率,稀疏注意力机制应运而生并被引入视频处理领域。例如,稀疏transformer通过固定模式剪枝注意力权重,减少了计算量。然而,现有技术采用的稀疏模式通常是静态预设的,无法适应视频内容中非均匀分布的时空复杂度,难
...【技术保护点】
1.一种基于动态稀疏的视频理解方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于动态稀疏的视频理解方法,其特征在于,所述基于时空特征编码器,对输入的视频帧序列进行时空特征提取和转换,输出视频语义特征,包括:
3.根据权利要求2所述的基于动态稀疏的视频理解方法,其特征在于,所述基于特征编码模型,对各所述局部时空特征进行全局时空上下文关系编码,获得所述视频语义特征,包括:
4.根据权利要求1所述的基于动态稀疏的视频理解方法,其特征在于,所述基于动态稀疏注意力机制,对所述视频语义特征进行稀疏注意力计算,获得上下文特征向量,包括
5....
【技术特征摘要】
1.一种基于动态稀疏的视频理解方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于动态稀疏的视频理解方法,其特征在于,所述基于时空特征编码器,对输入的视频帧序列进行时空特征提取和转换,输出视频语义特征,包括:
3.根据权利要求2所述的基于动态稀疏的视频理解方法,其特征在于,所述基于特征编码模型,对各所述局部时空特征进行全局时空上下文关系编码,获得所述视频语义特征,包括:
4.根据权利要求1所述的基于动态稀疏的视频理解方法,其特征在于,所述基于动态稀疏注意力机制,对所述视频语义特征进行稀疏注意力计算,获得上下文特征向量,包括:
5.根据权利要求4所述的基于动态稀疏的视频理解方法,其特征在于,所述基于所述稀疏掩码,对所述视频语义特征进行稀疏注意力计算,获得所述所述视频语义特征中至少一个目标位置元素的注意力权重,包括:
6.根据权利要求1所述...
【专利技术属性】
技术研发人员:舒畅,陈远旭,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。