融合状态空间建模与语义引导的视频补全方法技术

技术编号:46544010 阅读:0 留言:0更新日期:2025-10-10 21:08
本发明专利技术公开了融合状态空间建模与语义引导的视频补全方法,涉及视频处理技术领域。本发明专利技术提出一种融合状态空间建模与语义引导机制的视频补全框架,命名为SAGE‑VI(State‑Aware and Guided Enhancement forVideo Inpainting),该框架由两个阶段组成:像素传播阶段与语义引导的参考生成阶段;在像素传播阶段,框架采用状态空间建模机制增强光流补全中的时序感知与结构一致性,从而提高像素传播的稳定性;在语义引导阶段,设计参考生成模块,结合图像特征构建区域级语义提示,引导缺失区域的内容生成,提升细节还原质量与语义合理性;在HQVI数据集上的实验结果表明,SAGE‑VI在定量指标和视觉质量方面均优于现有主流方法,验证了其在复杂场景下的补全性能与泛化能力。

【技术实现步骤摘要】

本专利技术涉及视频处理,具体为融合状态空间建模与语义引导的视频补全方法


技术介绍

1、随着视频内容生产的快速增长和历史影像数字化保护需求的不断增强,视频补全(video inpainting,vi)作为一种关键的视频修复与编辑技术,在历史胶片修复、影视后期制作、虚拟现实内容生成等领域展现出广泛的应用价值。其核心目标是填补因遮挡、老化或删除导致的视频缺失区域,在恢复内容可见性的同时,保持时序一致性与语义连贯性。与图像补全任务相比,视频补全不仅需要生成视觉自然的内容,还必须保证跨帧之间的结构一致性与时间稳定性,任务难度显著增加。

2、早期方法普遍采用耦合式的端到端建模策略,利用3d卷积网络或时间偏移模块直接从多帧输入中同时学习空间与时间信息,从而完成缺失区域的传播与生成。代表性方法如combcn、fvi与lgtsm通过扩大建模窗口与增强时序建模机制实现了跨帧补全能力。然而,由于依赖固定时间窗口,这类方法在处理长距离依赖或参考帧信息不足时,易出现结构扭曲与时序跳变的问题。为改善跨帧结构建模能力,后续方法如opn、sttn、fuseformer等引入本文档来自技高网...

【技术保护点】

1.融合状态空间建模与语义引导的视频补全方法,其特征在于:至少包括以下步骤:

2.根据权利要求1所述的融合状态空间建模与语义引导的视频补全方法,其特征在于:所述光流补全模块进行补全至少包括以下步骤:

3.根据权利要求2所述的融合状态空间建模与语义引导的视频补全方法,其特征在于:所述状态空间建模由状态空间建模模块执行,所述状态空间建模模块包括深度可分离卷积、潜在状态投影器与前馈网络;

4.根据权利要求3所述的融合状态空间建模与语义引导的视频补全方法,其特征在于:所述潜在状态投影器的流程至少包括以下步骤:

5.根据权利要求3所述的融合状态空间建...

【技术特征摘要】

1.融合状态空间建模与语义引导的视频补全方法,其特征在于:至少包括以下步骤:

2.根据权利要求1所述的融合状态空间建模与语义引导的视频补全方法,其特征在于:所述光流补全模块进行补全至少包括以下步骤:

3.根据权利要求2所述的融合状态空间建模与语义引导的视频补全方法,其特征在于:所述状态空间建模由状态空间建模模块执行,所述状态空间建模模块包括深度可分离卷积、潜在状态投影器与前馈网络;

4.根据权利要求3所述的融合状态空间建模与语义引导的视频补全方法,其特征在于:所述潜在状态投影器的流程至少包括以下步骤:

5.根据权利要求3所述的融合状态空间建模与语义引导的视频补全方法,其特征在于:所述像素传播模块用于实现对缺失区域的初步补全;

6.根据权利要求5所述的融合状态空间建模与语义引导的视频补全方法,其特征在于:所述光流一致性检测是通过比较同一像素在前向与后向传播路径上的差异,计算光流的一致性误差,仅保留误差低于预设阈值的光流信息作为可靠区域,检验后的有效光流定义如下:

7....

【专利技术属性】
技术研发人员:张栋唐昊包相杰刘乃昊潘丁瑶杨小春向滔李蓉罗清袁圣文
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1