一种基于潜在扩散模型的双目图像生成方法及系统技术方案

技术编号：40323503 阅读：4 留言：0更新日期：2024-02-09 14:18

本发明专利技术涉及双目图像生成领域，具体涉及一种基于潜在扩散模型的双目图像生成方法及系统。本发明专利技术提供的基于潜在扩散模型的双目图像生成方法，包括如下步骤：获取原始双目图像数据集，并标注所述原始双目图像数据集中任一对原始双目图像的双目视差；利用标注后的原始双目图像数据集，搭建并训练基于所述双目视差监督的扩散模型；设置目标双目图像风格，并根据所述目标双目图像风格利用训练好的扩散模型生成目标双目图像数据集。本发明专利技术通过引入潜在扩散模型，结合扩散过程和反向重建过程，在生成过程中考虑了噪声、视差和图像风格等因素，提高了生成图像在不同场景和风格下的逼真度，从而增强了双目视觉算法的跨域泛化性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及双目图像生成领域，具体涉及一种基于潜在扩散模型的双目图像生成方法及系统。

技术介绍

1、目前，在双目视觉领域，数据不足和跨域泛化性差的问题是主要挑战之一。已有的双目图像数据集如kitti和middlebury虽然是衡量双目视觉算法性能的标准，但数量有限且制作成本高昂，限制了算法的性能提升和实际应用。此外，传统的监督训练方式采用“预训练+微调”，在不同场景中表现不一致，跨域泛化性差。为了克服数据不足的问题，一些研究者提出利用图像生成算法来扩展数据量。然而，现有的生成算法存在图像多样性不足、训练时间长、易受模式崩溃影响等问题，限制了它们生成逼真双目图像的能力。因此，亟需一种基于潜在扩散模型的双目图像生成方法及系统，通过潜在扩散模型生成逼真的双目图像，以解决双目视觉领域中存在的数据不足和跨域泛化性差的问题。

技术实现思路

1、针对现有技术的不足以及实际应用的需求，本专利技术提供了一种基于潜在扩散模型的双目图像生成方法及系统，旨在通过潜在扩散模型生成逼真的双目图像，以解决双目视觉领域中存在的数据不足和跨域泛化性差的问题。

2、第一方面，本专利技术提供了一种基于潜在扩散模型的双目图像生成方法，所述基于潜在扩散模型的双目图像生成方法包括如下步骤：获取原始双目图像数据集，并标注所述原始双目图像数据集中任一对原始双目图像的双目视差；利用标注后的原始双目图像数据集，搭建并训练基于所述双目视差监督的扩散模型；设置目标双目图像风格，并根据所述目标双目图像风格利用训练好的扩散模型

3、可选地，所述原始双目图像数据集中包括一对或者多对原始双目图像，其中，任一对原始双目图像均包括原始左视图像和原始右视图像。本可选项所提供的原始双目图像数据集，能够使扩散模型在训练过程中能够充分利用左右视图之间的双目视差信息，进而有助于生成更准确、逼真的双目图像，对于双目视觉算法的性能提升具有积极意义。

4、可选地，所述标注所述原始双目图像数据集中任一对原始双目图像的双目视差，包括如下步骤：获取原始双目图像中原始左视图像对应的左视像素灰度分布矩阵；获取原始双目图像中原始右视图像对应的右视像素灰度分布矩阵；分别在左视像素灰度分布矩阵和右视像素灰度分布矩阵中提取特征像素；以所述左视像素灰度分布矩阵中的特征像素为参考，匹配所述右视像素灰度分布矩阵中对应的特征像素；根据匹配结果获取所述特征像素的位置差异，并根据所述位置差异标注所述原始双目图像的双目视差。本可选项基于像素级的匹配和位置差异，为扩散模型提供了准确的双目视差信息，有助于生成更具深度和真实感的双目图像，提高了扩散模型的性能。

5、可选地，所述以所述左视像素灰度分布矩阵中的特征像素为参考，匹配所述右视像素灰度分布矩阵中对应的特征像素，包括如下步骤：获取所述左视像素灰度分布矩阵中的特征像素的特征信息，所述特征信息包括特征像素的灰度值，以及所述特征像素的周围像素的灰度值；根据所述左视像素灰度分布矩阵中的特征像素，在所述右视像素灰度分布矩阵中匹配具有相同或相似特征信息的特征像素。本可选所提供的特征匹配方法提高了匹配的准确性，为标注双目视差提供了更可靠的依据，增强了扩散模型的精度。

6、可选地，以所述左视像素灰度分布矩阵中的特征像素为参考，匹配位置处的双目视差满足如下表征公式：，其中，表示左视像素灰度分布矩阵中特征像素相对于右视像素灰度分布矩阵中特征像素的双目视差，表示左视像素灰度分布矩阵中特征像素与右视像素灰度分布矩阵中之间的水平位置差异，表示左视像素灰度分布矩阵中特征像素与右视像素灰度分布矩阵中之间的垂直位置差异。本可选项通过引入水平位置差异和垂直位置差异来计算双目视差，采用更细致的位置信息，增强了匹配的准确性和可靠性。

7、可选地，所述扩散模型包括基于transformer注意力机制的unet网络和域编码器；其中，所述基于transformer注意力机制的unet网络用于通过扩散过程学习原始双目图像的双目视差标签与两视图相同语义结构的对应关系，并用于根据所述对应关系重构具有目标双目图像风格和双目视差的目标双目图像；所述域编码器用于解析目标双目图像风格，并用于根据解析结果在所述基于ansformer注意力机制的unet网络的重构过程中引入所述目标双目图像风格。本可选项所提供的扩散模型，首先利用unet网络通过transformer注意力机制学习原始双目图像的双目视差标签与语义结构的对应关系，实现了对目标双目图像风格和视差的高效重构；再利用域编码器解析目标双目图像风格，并在unet网络的重构过程中引入目标风格，从而增强了生成图像的风格一致性和逼真度。这种结合transformer机制和域编码器的提高了扩散模型的性能，在处理不同风格和语义结构下的图像生成任务上具有显著优势。

8、可选地，所述扩散模型的目标损失函数为：所述扩散模型的目标损失函数为：，其中，表示扩散模型的整体损失，，表示在扩散过程中的时间步长序号，表示扩散过程的噪声叠加次数，表示期望值，表示扩散过程中添加的随机噪声，表示扩散模型对噪声的预测值，表示第个时间步长添加噪声后的样本数据，表示扩散模型超参数，表示原始左视图像与原始右视图像之间的双目视差图像。本可选项所提供的损失函数综合考虑了噪声、视差和图像风格等因素之间的关系，以指导扩散模型学习更真实的图像分布。

9、可选地，所述扩散模型在t步加噪后获得的左视噪声图和右视噪声图的分布满足如下表达式：，，其中，表示扩散模型在t-1步加噪后获得的左视噪声图，表示扩散模型在t-1步加噪后获得的右视噪声图，表示设定常数，，表示随机噪声。

10、可选地，所述扩散模型在重构过程中，以第t次加噪后的左视噪声图和右视噪声图，双目视差图像,目标双目图像风格的解析结果作为重构初始输入，基于第t次加噪的重构出对应的左视噪声图和右视噪声图；再通过左视噪声图和右视噪声图，基于第t-1次加噪的，重构出对应的左视噪声图和右视噪声图；在进行若干次重构操作直至获得原始双目图像中原始左视图像和原始右视图像分别对应的目标左视图像和目标左视图像。本可选项所提供的反构过程综合考虑了噪声、视差、图像风格和网络参数，提高生成的目标双目图像的逼真度和多样性。

11、第二方面，本专利技术还提供了一种基于潜在扩散模型的双目图像生成系统，所述基于潜在扩散模型的双目图像生成系统包括输入设备、处理器、存储器和输出设备，所述输入设备、所述处理器、所述存储器和所述输出设备相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于本文档来自技高网...

【技术保护点】

1.一种基于潜在扩散模型的双目图像生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于潜在扩散模型的双目图像生成方法，其特征在于，所述原始双目图像数据集中包括一对或者多对原始双目图像，其中，任一对原始双目图像均包括原始左视图像和原始右视图像。

3.根据权利要求1所述的基于潜在扩散模型的双目图像生成方法，其特征在于，所述标注所述原始双目图像数据集中任一对原始双目图像的双目视差，包括如下步骤：

4.根据权利要求3所述的基于潜在扩散模型的双目图像生成方法，其特征在于，所述以所述左视像素灰度分布矩阵中的特征像素为参考，匹配所述右视像素灰度分布矩阵中对应的特征像素，包括如下步骤：

5.根据权利要求4所述的基于潜在扩散模型的双目图像生成方法，其特征在于，以所述左视像素灰度分布矩阵中的特征像素为参考，匹配位置处的双目视差满足如下表征公式：，其中，表示左视像素灰度分布矩阵中特征像素相对于右视像素灰度分布矩阵中特征像素的双目视差，表示左视像素灰度分布矩阵中特征像素与右视像素灰度分布矩阵中之间的水平位置差异，表示左视像素灰度分布矩阵中特征

6.根据权利要求1所述的基于潜在扩散模型的双目图像生成方法，其特征在于，所述扩散模型包括基于Transformer注意力机制的UNet网络和域编码器；

7.根据权利要求6所述的基于潜在扩散模型的双目图像生成方法，其特征在于，所述扩散模型的目标损失函数为：，其中，表示扩散模型的整体损失，，表示在扩散过程中的时间步长序号，表示扩散过程的噪声叠加次数，表示期望值，表示扩散过程中添加的随机噪声，表示扩散模型对噪声的预测值，表示第个时间步长添加噪声后的样本数据，表示扩散模型超参数，表示原始左视图像与原始右视图像之间的双目视差图像。

8.根据权利要求7所述的基于潜在扩散模型的双目图像生成方法，其特征在于，所述扩散模型在t步加噪后获得的左视噪声图和右视噪声图的分布满足如下表达式：，，其中，表示扩散模型在t-1步加噪后获得的左视噪声图，表示扩散模型在t-1步加噪后获得的右视噪声图，表示设定常数，，表示随机噪声。

9.根据权利要求8所述的基于潜在扩散模型的双目图像生成方法，其特征在于，所述扩散模型在重构过程中，以第T次加噪后的左视噪声图和右视噪声图，双目视差图像,目标双目图像风格的解析结果作为重构初始输入，基于第T次加噪的重构出对应的左视噪声图和右视噪声图；再通过左视噪声图和右视噪声图，基于第T-1次加噪的，重构出对应的左视噪声图和右视噪声图；在进行若干次重构操作直至获得原始双目图像中原始左视图像和原始右视图像分别对应的目标左视图像和目标左视图像。

10.一种基于潜在扩散模型的双目图像生成系统，其特征在于，包括输入设备、处理器、存储器和输出设备，所述输入设备、所述处理器、所述存储器和所述输出设备相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1至9任一项所述的基于潜在扩散模型的双目图像生成方法。

...

【技术特征摘要】

1.一种基于潜在扩散模型的双目图像生成方法，其特征在于，包括如下步骤：

6.根据权利要求1所述的基于潜在扩散模型的双目图像生成方法，其特征在于，所述扩散模型包括基于transformer注意力机制的unet网络和域编码器；

7.根据权利要求6所述的基于潜在扩散模型的双目图像生成方法，其特征在于，所述扩散模型的目标损失函数为：，其中，表示扩散模型...

【专利技术属性】
技术研发人员：杨文帮，
申请(专利权)人：贵州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人