【技术实现步骤摘要】
本专利技术涉及多模态视频分析领域,尤其涉及一种多模态大模型自适应视频帧压缩方法及系统。
技术介绍
1、当前,基于transformer的多模态大模型(如video-llama、internvl、qwenvl等)经过大量的视频数据微调,在视频理解中表现优异;近期,面向长视频的理解模型通过扩展上下文窗口来处理更长的视频序列,从而实现长时序视频理解任务的稳定性能;而随着视频长度增加,越来越多研究也关注到了长视频理解中存在的信息冗余问题,从而提出了视觉特征剪枝方案,使模型关注高响应的视觉信息,从而减少信息冗余问题对模型性能造成的影响。
2、基于transformer的多模态大模型虽在视频理解中表现优异,但仍存在以下瓶颈:①时空冗余累积:长视频中连续帧的视觉特征高度重复,随着视频采样帧率的增加,视觉的冗余内容会成倍增加,长视频中连续帧的视觉特征高度重复,导致传统均匀采样策略导致令牌利用率不足30%,大量计算资源浪费于冗余信息处理;②语义割裂:现有方法依赖注意力权重进行对视觉特征进行动态丢弃,忽略用户指令与视频内容的时空关联性,关键帧易
...【技术保护点】
1.一种多模态大模型自适应视频帧压缩方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的多模态大模型自适应视频帧压缩方法,其特征在于,所述多粒度语义解析步骤,具体如下:
3.根据权利要求2所述的多模态大模型自适应视频帧压缩方法,其特征在于,所述提取采样视频帧的视觉特征,通过时空语义指令为视觉特征进行重要性打分,得到表示每一帧与用户文本指令关联重要性的语义权重矩阵,具体如下:
4.根据权利要求2所述的多模态大模型自适应视频帧压缩方法,其特征在于,所述文本编码器为T5-XL;所述跨模态预训练模型为BLIP-2,采用ViT-L/14
...【技术特征摘要】
1.一种多模态大模型自适应视频帧压缩方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的多模态大模型自适应视频帧压缩方法,其特征在于,所述多粒度语义解析步骤,具体如下:
3.根据权利要求2所述的多模态大模型自适应视频帧压缩方法,其特征在于,所述提取采样视频帧的视觉特征,通过时空语义指令为视觉特征进行重要性打分,得到表示每一帧与用户文本指令关联重要性的语义权重矩阵,具体如下:
4.根据权利要求2所述的多模态大模型自适应视频帧压缩方法,其特征在于,所述文本编码器为t5-xl;所述跨模态预训练模型为blip-2,采用vit-l/14作为视觉编码器用于提取空间实体与关系;所述使用跨模态预训练模型对解耦用户指令进行整合,编码为统一的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。