基于视频点轨迹约束的视频描述方法与系统技术方案

技术编号:45929136 阅读:18 留言:0更新日期:2025-07-25 17:55
本发明专利技术提出一种基于视频点轨迹约束的视频描述方法与系统,该方法包括:对关键帧图像采样并利用点跟踪算法获取连续帧间像素点的时空轨迹;对同一轨迹片段对应帧的视觉特征进行平均池化操作;对文本特征、视觉特征和轨迹特征先进行语义对齐再进行多头注意力特征融合;对轨迹片段对应的视觉区域进行语义相关性得分计算并按相关性得分降序排列,累积相关性得分并设定阈值;利用语言生成损失和聚焦损失联合优化视频点跟踪模型;对聚焦优化后的多源特征进行解码,得到最终的视频描述结果。本发明专利技术通过引入视频点轨迹聚合策略,在时空维度上显式建模目标的动态特征,保留了物体的空间外观与时间连贯性,有效解决了复杂场景下语义断裂和描述片段化问题。

【技术实现步骤摘要】

本专利技术涉及计算机视觉与视频处理,特别涉及基于视频点轨迹约束的视频描述方法与系统


技术介绍

1、视频内容描述技术旨在自动为输入视频生成语义合理、语言连贯的自然语言句子,是计算机视觉与自然语言处理交叉领域的核心任务,广泛应用于视频检索、智能监控、视障辅助等场景。现有方法通常采用帧级视觉特征提取与序列建模技术,结合注意力机制进行多模态融合与文本生成。然而,在遮挡、多目标交互或快速运动等复杂动态场景中,现有模型难以持续追踪目标语义,导致描述出现语义不连贯、片段化或冗余等问题;此外,跨模态注意力机制缺乏精准的指导,常导致模型聚焦于无关区域,语义对齐精度不足。


技术实现思路

1、鉴于上述状况,本专利技术的主要目的是为了提出基于视频点轨迹约束的视频描述方法与系统,以解决上述技术问题。

2、本专利技术提出一种基于视频点轨迹约束的视频描述方法,所述方法包括如下步骤:

3、步骤1、对视频中的关键帧图像进行采样,并利用点跟踪算法获取连续帧间像素点的时空轨迹,以构建得到视频目标的轨迹片段集合;

<本文档来自技高网...

【技术保护点】

1.一种基于视频点轨迹约束的视频描述方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的基于视频点轨迹约束的视频描述方法,其特征在于,在所述步骤1中,对视频中的关键帧图像进行采样,并利用点跟踪算法获取连续帧间像素点的时空轨迹,以构建得到视频目标的轨迹片段集合,对应过程存在的关系式如下:

3.根据权利要求2所述的基于视频点轨迹约束的视频描述方法,其特征在于,在所述步骤2中,基于视频目标的轨迹片段集合,对轨迹片段提取轨迹片段对应帧的视觉特征,并对同一轨迹片段对应帧的视觉特征进行平均池化操作,得到轨迹特征,具体包括如下步骤:

>4.根据权利要求3...

【技术特征摘要】

1.一种基于视频点轨迹约束的视频描述方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的基于视频点轨迹约束的视频描述方法,其特征在于,在所述步骤1中,对视频中的关键帧图像进行采样,并利用点跟踪算法获取连续帧间像素点的时空轨迹,以构建得到视频目标的轨迹片段集合,对应过程存在的关系式如下:

3.根据权利要求2所述的基于视频点轨迹约束的视频描述方法,其特征在于,在所述步骤2中,基于视频目标的轨迹片段集合,对轨迹片段提取轨迹片段对应帧的视觉特征,并对同一轨迹片段对应帧的视觉特征进行平均池化操作,得到轨迹特征,具体包括如下步骤:

4.根据权利要求3所述的基于视频点轨迹约束的视频描述方法,其特征在于,对从视频中均匀采样的帧进行空间感知计算,得到每一帧网格特征向量,对应过程存在的关系式如下:

5.根据权利要求4所述的基于视频点轨迹约束的视频描述方法,其特征在于,在所述步骤4中,对文本特征、视觉特征以及轨迹特征,先进行语义对齐后再进行多头注意力特征融合,以得到注意力分配权重向量和经过多头注意力后对应的输出特征,具体包括如下步骤:

6.根据权利要求5...

【专利技术属性】
技术研发人员:姜文晖肖景富方承炀方玉明邓辉钱峰赵小伟刘扬
申请(专利权)人:江西财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1