【技术实现步骤摘要】
本专利技术涉及视频理解领域,具体为一种基于大模型双模式推理的知识增强型体育视频理解方法。
技术介绍
1、体育赛事因其激烈的动作、比赛的策略性以及卓越的运动表现,吸引了全球观众的广泛关注。随着科技的不断进步,观众对个性化和互动式观看体验的需求日益增加,在此背景下,视频问答(video question answering, videoqa)作为一项新兴技术,展现出在体育内容中提供实时洞察和用户驱动探索的巨大潜力。例如,观众可以通过自然语言提问,实时获取关于比赛规则、运动员表现或关键事件的详细解释,从而极大增强观赛体验。
2、基于多模态大语言模型((multimodal) large language models, (m)llms)的视频问答近年来在通用视频理解领域展现了巨大潜力,主要得益于其在多模态信息融合、自然语言理解以及复杂推理任务中的优异表现。然而,体育视频作为一种具有高度动态性、领域特异性和复杂语义的特殊视频类型,对现有的videoqa方法提出了更高要求。体育视频中快速变化的场景、丰富的领域知识以及用户提问的多样性和
...【技术保护点】
1.一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:包括以下步骤:
2.根据权利要求1所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:采用的所述提示词内容包括:1)问题与视频的相关性;2)问题类型;3)推理需求;4)是否需要外部知识。
3.根据权利要求1所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:所述动态运动分割器包括视频内容分割模块、运动强度提取模块和片段分割模块;
4.根据权利要求3所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:所述视频内容
...【技术特征摘要】
1.一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:包括以下步骤:
2.根据权利要求1所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:采用的所述提示词内容包括:1)问题与视频的相关性;2)问题类型;3)推理需求;4)是否需要外部知识。
3.根据权利要求1所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:所述动态运动分割器包括视频内容分割模块、运动强度提取模块和片段分割模块;
4.根据权利要求3所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:所述视频内容分割模块采用sam2模型实现。
5.根据权利要求1所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:所述关键片段选择器包括多层对比解码模块、相关性计算模块以及排序模块;
6.根据权利要求5所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:从空间、时间、时空三个维度进行失真处理的具体过程为:
7.根据权利要求5所述一种基于大模型双模式推理的知识增强型体育视频理解方法,其特征在于:从空间、...
【专利技术属性】
技术研发人员:邵典,王雨乐,陈浩东,尹新祥,唐矗,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。