一种基于可泛化傅里叶增强的无监督视频目标分割方法技术

技术编号：41274779 阅读：8 留言：0更新日期：2024-05-11 09:27

本发明专利技术公开了一种基于可泛化傅里叶增强的无监督视频目标分割方法，本发明专利技术适当处理图像傅里叶变换的幅度谱，生成各种多样化的场景风格来提高模型的泛化性能，首先对每一层中间空间域特征执行快速傅立叶变换，得到相应的频率表示，包括幅值部分和相位部分，接着，通过高斯采样产生各种样式特征来增强训练数据，从而提高模型的泛化能力，然后，本发明专利技术设计了一种相位特征更新策略，通过指数移动平均使用过去帧的相位特征进行在线更新，有助于模型学习跨域不变特征。本发明专利技术能够很好解决无监督视频目标分割任务的训练集和测试集发生分布偏移，而导致模型性能发生严重退化的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像处理领域，尤其涉及一种基于可泛化傅里叶增强的无监督视频目标分割方法。

技术介绍

1、现有的uvos方法在隐含的独立同分布假设下进行训练和测试(即训练和测试数据都是分布相同的样本)。尽管已经取得了一定的成功，但在实际应用中，由于零样本任务设置往往存在分布外的(ood)测试样本，这将导致uvos模型的性能退化。在uvos中，主要有两种情况可能导致测试样本存在分布变化。其中，第一种称为“场景偏移”，例如，测试视频中的目标与训练数据中的相同语义类别的目标相匹配，但由于纹理、颜色和对比度的不同场景风格而导致测试视频中的目标出现严重的外观变化。第二种称为“语义偏移”，例如，测试视频中的目标可能是训练数据中不存在的类别。如果不考虑这些ood挑战，现有的uvos方法无法获得令人满意的泛化能力。

技术实现思路

1、专利技术目的：为了解决上述现有技术存在的问题，本专利技术提供了一种基于可泛化傅里叶增强的无监督视频目标分割方法。

2、技术方案：本专利技术提供了一种基于可泛化傅里叶增强的无监督视频目标分割方法，具体为：采用了端到端的transformer模型进行无监督视频目标分割，端到端的transformer模型包括transformer层编码器和解码器；

3、在编码器阶段，首先将rgb图像和光流图的输入分成一组大小为4×4像素的图符，然后，将这些图符输入到重叠图幅层以产生嵌入向量，随后，将这些向量输入到4个transformer层，每个层包含n层transfo

4、在解码器阶段，包括若干个transformer层，每个transformer层中的增强空间特征都被输入到一个上采样层，上采样层包括一个1×1卷积层和一个插值层，以生成具有相同分辨率的特征，然后讲上采样层的输出的特征进行拼接后依次输入到一个1×1卷积层和激活参数层，产生最终的预测分割掩模。

5、进一步的，所述端到端的transformer模型的损失函数为：

6、

7、其中，为交叉熵损失，为交并比损失，λ为权重系数。

8、进一步的，在编码器阶段采用ema策略在线更新相位特征。

9、有益效果：本专利技术设计一种新颖的通用傅里叶增强框架，用于学习强大的领域不变特征，有效提高uvos模型的泛化能力。本专利技术提出在幅值特征上进行不确定性建模的采样方法，可以生成多样的场景感知风格特征，以解决“场景偏移”问题。本专利技术设计一种相位特征的在线更新策略，更好地学习跨领域不变特征，可以减轻“语义偏移”问题，进一步提高模型的泛化能力。

本文档来自技高网...

【技术保护点】

1.一种基于可泛化傅里叶增强的无监督视频目标分割方法，其特征在于，具体为：采用了端到端的Transformer模型进行无监督视频目标分割，端到端的Transformer模型包括Transformer层编码器和解码器；

2.根据权利要求1所述的一种基于可泛化傅里叶增强的无监督视频目标分割方法，其特征在于，所述端到端的Transformer模型的损失函数L为：

3.根据权利要求1所述的一种基于可泛化傅里叶增强的无监督视频目标分割方法，其特征在于，在编码器阶段采用EMA策略在线更新相位特征。

【技术特征摘要】

1.一种基于可泛化傅里叶增强的无监督视频目标分割方法，其特征在于，具体为：采用了端到端的transformer模型进行无监督视频目标分割，端到端的transformer模型包括transformer层编码器和解码器；

2.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员：苏天康，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人