基于大模型双模式推理的知识增强型体育视频理解方法技术

技术编号:46573928 阅读:2 留言:0更新日期:2025-10-10 21:18
本发明专利技术提出一种基于大模型双模式推理的知识增强型体育视频理解方法,属于视频理解领域,首先获取需要提问的体育视频以及问题文本,将体育视频、问题文本与提示词输入反应式推理智能体,反应式推理智能体根据问题文本与提示词对问题进行分类,若问题属于简单问题,则反应式推理智能体根据输入的体育视频对问题进行回答;若问题属于复杂问题,则通过深思式推理智能体进行回答,深思式推理智能体由动态运动分割器、关键片段选择器以及基于体育知识图谱的细粒度匹配器组成。本发明专利技术通过创新性地引入双模式推理系统,充分考虑了体育视频的动态性、领域特异性以及用户提问的多样性和复杂性,显著提升了(多模态)大语言模型在体育视频理解任务中的表现。

【技术实现步骤摘要】

本专利技术涉及视频理解领域,具体为一种基于大模型双模式推理的知识增强型体育视频理解方法


技术介绍

1、体育赛事因其激烈的动作、比赛的策略性以及卓越的运动表现,吸引了全球观众的广泛关注。随着科技的不断进步,观众对个性化和互动式观看体验的需求日益增加,在此背景下,视频问答(video question answering, videoqa)作为一项新兴技术,展现出在体育内容中提供实时洞察和用户驱动探索的巨大潜力。例如,观众可以通过自然语言提问,实时获取关于比赛规则、运动员表现或关键事件的详细解释,从而极大增强观赛体验。

2、基于多模态大语言模型((multimodal) large language models, (m)llms)的视频问答近年来在通用视频理解领域展现了巨大潜力,主要得益于其在多模态信息融合、自然语言理解以及复杂推理任务中的优异表现。然而,体育视频作为一种具有高度动态性、领域特异性和复杂语义的特殊视频类型,对现有的videoqa方法提出了更高要求。体育视频中快速变化的场景、丰富的领域知识以及用户提问的多样性和复杂性,使得将大模型本文档来自技高网...

【技术保护点】

1.一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:包括以下步骤:

2.根据权利要求1所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:采用的所述提示词内容包括:1)问题与视频的相关性;2)问题类型;3)推理需求;4)是否需要外部知识。

3.根据权利要求1所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:所述动态运动分割器包括视频内容分割模块、运动强度提取模块和片段分割模块;

4.根据权利要求3所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:所述视频内容分割模块采用SAM2...

【技术特征摘要】

1.一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:包括以下步骤:

2.根据权利要求1所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:采用的所述提示词内容包括:1)问题与视频的相关性;2)问题类型;3)推理需求;4)是否需要外部知识。

3.根据权利要求1所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:所述动态运动分割器包括视频内容分割模块、运动强度提取模块和片段分割模块;

4.根据权利要求3所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:所述视频内容分割模块采用sam2模型实现。

5.根据权利要求1所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:所述关键片段选择器包括多层对比解码模块、相关性计算模块以及排序模块;

6.根据权利要求5所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:从空间、时间、时空三个维度进行失真处理的具体过程为:

7.根据权利要求5所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:从空间、...

【专利技术属性】
技术研发人员:邵典王雨乐陈浩东尹新祥唐矗
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1