针对视频语言大模型的多视频联合理解系统技术方案

技术编号:46073940 阅读:8 留言:0更新日期:2025-08-12 18:00
一种针对视频语言大模型的多视频联合理解系统,包括:视频结构化模块、图融合模块、视觉映射器、视觉编码器和词嵌入层,通过结构化视频表征与图融合机制,避免冗余视觉信息的无效输入,降低模型输入负载,实现数据高效利用;通过跨视频时空信息的整合,有效缓解单视频知识不完整性问题,减少幻觉性回答,提升模型对复杂任务的处理能力,能够应用于多视频问答、多视频内容理解、多视频摘要、跨视频事件分析等多种人工智能应用领域。

【技术实现步骤摘要】

本专利技术涉及的是一种神经网络领域的技术,具体是一种针对视频语言大模型的多视频联合理解系统


技术介绍

1、随着大语言模型的快速发展,视频语言大模型已在视频理解任务中展现出卓越性能。然而,现有的视频语言大模型主要依赖单视频输入进行推理。由于单一视频在空间和时间维度上的信息存在不完整性,导致模型产生幻觉性回答和知识遗漏等问题。影响单视频理解准确性的因素包括但不限于:视频采样稀疏、目标遮挡、视角切换以及单一信息源的偏置等。此外,模型对复杂视频内容的理解能力亦受到视频上下文长度和视觉表征冗余等因素的制约。当前部分研究尝试通过多视频数据增强来弥补单视频信息不足,然而,直接将多个视频的视觉信息输入大模型会引入大量冗余和噪声信息,超长输入序列也会导致模型注意力分散,从而降低推理效率和准确性。


技术实现思路

1、本专利技术针对现有技术在涉及复杂任务或跨视频语义关联的问题上存在一定冗余和噪声干扰,导致生成的文本描述缺乏准确性的问题,提出一种针对视频语言大模型的多视频联合理解系统,通过结构化视频表征与图融合机制,避免冗余视觉信本文档来自技高网...

【技术保护点】

1.一种针对视频语言大模型的多视频联合理解系统,其特征在于,包括:视频结构化模块、图融合模块、视觉映射器、视觉编码器和词嵌入层,其中:视频结构化模块提取视频关键帧得到视频的详细描述文本,通过在文本层面解析得到以目标和交互关系组成的文本场景图并检测提取目标在视频帧中对应的视觉特征后,构建完整的视频时空结构化表征;图融合模块通过跨视频知识融合增强视频结构化表征;视觉编码器根据目标视频的视频信息,进行细粒度的特征编码处理,得到优化的视频表示;视觉映射器根据视觉编码器提供的视频表示,进行跨模态特征对齐处理,得到语义一致的融合特征;词嵌入层根据相关视频融合后的图特征、目标视频对应的原始视觉特征、问...

【技术特征摘要】

1.一种针对视频语言大模型的多视频联合理解系统,其特征在于,包括:视频结构化模块、图融合模块、视觉映射器、视觉编码器和词嵌入层,其中:视频结构化模块提取视频关键帧得到视频的详细描述文本,通过在文本层面解析得到以目标和交互关系组成的文本场景图并检测提取目标在视频帧中对应的视觉特征后,构建完整的视频时空结构化表征;图融合模块通过跨视频知识融合增强视频结构化表征;视觉编码器根据目标视频的视频信息,进行细粒度的特征编码处理,得到优化的视频表示;视觉映射器根据视觉编码器提供的视频表示,进行跨模态特征对齐处理,得到语义一致的融合特征;词嵌入层根据相关视频融合后的图特征、目标视频对应的原始视觉特征、问题文本按预设的多视频结构化提示词模板拼接,随后输入大语言模型生成最终答案。

2.根据权利要求1所述的针对视频语言大模型的多视频联合理解系统,其特征是,所述的视频结构化模块包括:事件检测器、视频描述器、场景图解析器、视觉定位器和时空关联器,其中:事件检测器根据待处理视频,采用轻量化场景检测算法分割视频时序场景,得到各场景中间帧作为关键帧,视频描述器根据待处理视频的详细描述文本,基于预训练视频语言模型对关键帧进行细粒度描述,生成涵盖目标、动作及环境的语义化文本,场景图解析器利用场景图解析器从描述文本中提取<主体-谓词-客体>三元组,得到以目标和交互关系组成的文本场景图,视觉定位器采用基于文本的检测器定位三元组中目标在关键帧中的空间位置,提取目标区域视觉特征的同时;通过视频目标跟踪算法建立跨帧目标id标签,实现同一目标的时域连续性表征,得到目标在视频帧中对应的视觉特征,时空关联器根据文本场景图中的谓词关系构建同一帧内目标间的交互边的同时,通过跟踪跨帧目标id标签建立目标跨帧的时序关联边,最终形成包含作为节点的目标特征、作为空域边的交互关系与作为时域边的时序关联的时空图结构化表征。

3.根据权利要求2所述的针对视频语言大模型的多视频联合理解系统,其特征是,所述的事件检测器基于轻量化场景检测算法对视频进行时序分割,并以事件的中间帧作为...

【专利技术属性】
技术研发人员:林巍峣何天尧
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1