当前位置: 首页 > 专利查询>厦门大学专利>正文

一种多模态大模型自适应视频帧压缩方法及系统技术方案

技术编号:46596082 阅读:4 留言:0更新日期:2025-10-10 21:28
本发明专利技术公开了一种多模态大模型自适应视频帧压缩方法及系统,涉及多模态视频分析领域,方法包括:S1,获取用户文本指令和原始视频的采样视频帧;S2,将用户文本指令通过层级思维链推理转化为时空语义指令;S3,提取采样视频帧的视觉特征,通过时空语义指令为视觉特征进行重要性打分,得到语义权重矩阵;S4,基于语义权重矩阵,动态调整每帧的视觉特征数量与空间分辨率,基于新空间分辨率调整自适应池化参数并进行自适应加权池化,得到压缩精炼后的特征。本发明专利技术通过将用户文本指令解耦为时间、空间与上下文三维指令,生成动态语义权重矩阵,降低视觉‑文本语义对齐误差;基于权重矩阵自适应调整令牌密度,压缩合并冗余区域,降低计算复杂度。

【技术实现步骤摘要】

本专利技术涉及多模态视频分析领域,尤其涉及一种多模态大模型自适应视频帧压缩方法及系统


技术介绍

1、当前,基于transformer的多模态大模型(如video-llama、internvl、qwenvl等)经过大量的视频数据微调,在视频理解中表现优异;近期,面向长视频的理解模型通过扩展上下文窗口来处理更长的视频序列,从而实现长时序视频理解任务的稳定性能;而随着视频长度增加,越来越多研究也关注到了长视频理解中存在的信息冗余问题,从而提出了视觉特征剪枝方案,使模型关注高响应的视觉信息,从而减少信息冗余问题对模型性能造成的影响。

2、基于transformer的多模态大模型虽在视频理解中表现优异,但仍存在以下瓶颈:①时空冗余累积:长视频中连续帧的视觉特征高度重复,随着视频采样帧率的增加,视觉的冗余内容会成倍增加,长视频中连续帧的视觉特征高度重复,导致传统均匀采样策略导致令牌利用率不足30%,大量计算资源浪费于冗余信息处理;②语义割裂:现有方法依赖注意力权重进行对视觉特征进行动态丢弃,忽略用户指令与视频内容的时空关联性,关键帧易被错误压缩或遗漏;③本文档来自技高网...

【技术保护点】

1.一种多模态大模型自适应视频帧压缩方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的多模态大模型自适应视频帧压缩方法,其特征在于,所述多粒度语义解析步骤,具体如下:

3.根据权利要求2所述的多模态大模型自适应视频帧压缩方法,其特征在于,所述提取采样视频帧的视觉特征,通过时空语义指令为视觉特征进行重要性打分,得到表示每一帧与用户文本指令关联重要性的语义权重矩阵,具体如下:

4.根据权利要求2所述的多模态大模型自适应视频帧压缩方法,其特征在于,所述文本编码器为T5-XL;所述跨模态预训练模型为BLIP-2,采用ViT-L/14作为视觉编码器用于提...

【技术特征摘要】

1.一种多模态大模型自适应视频帧压缩方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的多模态大模型自适应视频帧压缩方法,其特征在于,所述多粒度语义解析步骤,具体如下:

3.根据权利要求2所述的多模态大模型自适应视频帧压缩方法,其特征在于,所述提取采样视频帧的视觉特征,通过时空语义指令为视觉特征进行重要性打分,得到表示每一帧与用户文本指令关联重要性的语义权重矩阵,具体如下:

4.根据权利要求2所述的多模态大模型自适应视频帧压缩方法,其特征在于,所述文本编码器为t5-xl;所述跨模态预训练模型为blip-2,采用vit-l/14作为视觉编码器用于提取空间实体与关系;所述使用跨模态预训练模型对解耦用户指令进行整合,编码为统一的...

【专利技术属性】
技术研发人员:纪荣嵘罗咏东郑侠武
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1