一种基于扩散模型和注意力机制的跨视角全景合成方法技术

技术编号：41974904 阅读：25 留言：0更新日期：2024-07-10 16:54

本发明专利技术涉及计算机视觉技术领域，公开了一种基于扩散模型和注意力机制的跨视角全景合成方法，包括以下步骤：对全景图像和卫星图像进行跨视角的像素级对齐，得到对齐后的像素；将对齐后的像素进行地理空间自适应纹理混合，得到掩码图像；通过卷积神经网络对全景图像和卫星图像进行特征提取，分别得到全景特征图和卫星特征图；通过掩码跨视角注意力机制对全景特征图和卫星特征图进行融合，得到优化后的特征；通过优化后的特征，指导跨视角扩散模型进行去噪，得到合成图；能够生成纹理细节更加丰富、更贴合真实全景、更符合人眼感官的全景图像。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，具体涉及一种基于扩散模型和注意力机制的跨视角全景合成方法。

技术介绍

1、基于卫星图像和全景图像合成全景图是一个涉及多个步骤的过程，包括图像获取、预处理、配准、融合。以下是一个基本的流程：

2、图像获取：首先，需要获取卫星图像和全景图像。卫星图像和全景图像均可以通过专业的遥感软件获取。确保获取的图像分辨率足够高，以便在合成全景图时获得清晰的细节。

3、预处理：对获取的图像进行预处理是必要的步骤。这可能包括去除噪声、调整色彩平衡、增强对比度等，以改善图像质量。

4、图像配准：配准是将不同来源的图像对齐的过程。对于卫星图像和全景图像，可能需要手动或自动地调整它们的位置和角度，以确保它们在合成时能够无缝衔接。

5、图像融合：在图像配准后，下一步是将它们融合成一个全景图。这通常涉及到一些复杂的算法，用于处理图像之间的过渡区域，以确保合成的全景图在视觉上是一致的。

6、需要注意的是，由于卫星图像和全景图像在获取方式、分辨率和视角等方面存在差异，因此合成全景图可能会面临一些挑战。例如，由于卫星图像通常是俯视图，而全景图像是从地面视角获取的，因此在合成时可能需要处理视角差异带来的问题。此外，不同图像之间的光照条件、色彩差异等也可能需要特别处理。

7、最新的现有技术中，会先预测卫星图像的高度图，然后用高度图来做3d视角变换得到全景视角的高度图，再用全景视角的高度图去进行最终的预测。但该方法的存在生成的图片纹理较差、不真实、内容混乱的问题。因为上述方

技术实现思路

1、为解决上述技术问题，本专利技术提供一种基于扩散模型和注意力机制的跨视角全景合成方法，能够生成纹理细节更加丰富、更贴合真实全景、更符合人眼感官的全景图像。

2、为解决上述技术问题，本专利技术采用如下技术方案：

3、一种基于扩散模型和注意力机制的跨视角全景合成方法，包括以下步骤：

4、步骤一，对全景图像和卫星图像进行跨视角的像素级对齐，得到对齐后的像素；

5、步骤二，将对齐后的像素进行地理空间自适应纹理混合，得到掩码图像；

6、步骤三，对全景图像和卫星图像使用卷积神经网络进行特征提取，分别得到全景特征图和卫星特征图；通过掩码跨视角注意力机制对全景特征图和卫星特征图进行融合，得到优化后的特征；

7、步骤四，通过优化后的特征，指导跨视角扩散模型进行去噪，不断循环，得到合成图。

8、进一步地，步骤一中，对全景图像和卫星图像进行跨视角的像素级对齐得到对齐后的像素时，具体包括：

9、首先使用卫星高度图构建一个三维体素网格，然后根据全景图像的坐标去计算三维体素网格的仰角θ和方位角φ，对于全景图像中的像素(xpano,ypano)：

10、

11、

12、其中，和分别表示全景图像的高度和宽度；卫星高度图可通过所在地区的经纬度获取其建筑物高度。

13、随后，模拟一条光线将从三维体素网格的中心射出；根据计算好的仰角θ和方位角φ以及光线的长度r，通过中心偏移，得到最终的映射点坐标：

14、xsate＝xcenter+r·cos(θ)·sin(φ)；

15、ysate＝ycenter-r·cos(θ)·cos(φ)；

16、xsate和ysate为全景图像中的像素在卫星视图中的横坐标和纵坐标，而xcenter,ycenter表示卫星图像的中心偏移横坐标和纵坐标，光线的长度r为光线与三维体素网格的第一个交点到中心点的距离。

17、对齐后的像素指的就是全景图像和卫星图像的坐标一一映射了。

18、进一步地，步骤二中，所述将对齐后的像素进行地理空间自适应纹理混合得到掩码图像，具体包括：

19、通过自适应加权机制，利用卫星图像中映射点周围的环境来增强全景图像中的纹理细节，映射的权重基于映射点与卫星图像中其他像素之间的距离变化而变化；权重mj为：

20、

21、pj*表示从全景图像映射到卫星图像的第j个点，pj表示卫星图像中的第j个像素点，j∈[1,n]，n是卫星图像中像素的数量，‖·‖表示欧氏距离，参数β控制sigmoid函数sigmoid(·)的变化速率，权重mj表示卫星图像中的pj对全景图像中的pj*的重要性；得到权重mj，即得到所述掩码图像。

22、进一步地，步骤三中，所述通过掩码跨视角注意力机制对全景特征图和卫星特征图进行融合得到优化后的特征，具体包括：

23、基于transformer模型，将权重mj所形成的权重矩阵应用于卫星图像中的每个像素，以强调相关特征，将信息融合到全景值中；掩码跨视角注意力机制的公式如下：

24、

25、表示查询特征，表示卫星特征图，hp×wp表示全景图像的分辨率，hs×ws表示卫星图像的分辨率；⊙表示逐元素乘法；a′表示重新加权的亲和矩阵，即所述的优化后的特征。

26、与现有技术相比，本专利技术的有益技术效果是：

27、在全景合成方面，本专利技术在表1和图3中呈现了定量比较结果，并在图4和图5中展示了定性结果。在定量比较中，与最先进的方法(sat2density)相比，本专利技术的方法在cvusa上的ssim和fid方面分别提高了21.7％和47.3％，在omnicity上分别提高了15.8％和69.2％。在定性比较中，结果显示基于生成对抗的方法可以合成出漂亮的全景图像，但在cvusa上很难恢复卫星图像中的结构信息。然而，在omnicity(见图4)中，一个富含建筑的城市场景数据集上，基于gan的方法生成的图像不仅在结构上存在缺陷，而且不真实且模糊。相比之下，本专利技术的方法在两个数据集上生成了结构良好且逼真的全景图像。不足的是，crossviewdiff生成的全景图像在一定程度上仍然受到一定程度的颜色偏移以及相对于gts的额外细节的影响。

28、基于定量和定性结果，本专利技术得出以下结论：1)crossviewdiff成功地能够在城市和农村场景中生成高质量的图像。这主要归功于stable diffusion的生成能力以及本专利技术对结构丰富和纹理丰富的条件输入的融合。2)尽管本专利技术基于天空蒙版和卫星图像融合了丰富的结构和纹理信息，但两个视点之间的差距仍然很大，而stable diffusion更擅长于创建细节。因此，在图像的较少受限区域，如天空，crossviewdiff的生成与gts略有不同，从而导致相对较低的psnr。

本文档来自技高网...

【技术保护点】

1.一种基于扩散模型和注意力机制的跨视角全景合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于扩散模型和注意力机制的跨视角全景合成方法，其特征在于，步骤一中，对全景图像和卫星图像进行跨视角的像素级对齐得到对齐后的像素时，具体包括：

3.根据权利要求1所述的基于扩散模型和注意力机制的跨视角全景合成方法，其特征在于，步骤二中，所述将对齐后的像素进行地理空间自适应纹理混合得到掩码图像，具体包括：

4.根据权利要求3所述的基于扩散模型和注意力机制的跨视角全景合成方法，其特征在于，步骤三中，所述通过掩码跨视角注意力机制对全景特征图和卫星特征图进行融合得到优化后的特征，具体包括：

【技术特征摘要】

1.一种基于扩散模型和注意力机制的跨视角全景合成方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的基于扩散模型和注意...

【专利技术属性】
技术研发人员：陈源坤，叶五一，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人