一种基于非真实感图片的三维物体生成方法技术

技术编号：38891920 阅读：24 留言：0更新日期：2023-09-22 14:16

本发明专利技术公开了一种基于非真实感图片的三维物体生成方法，该方法通过基于文本提示词和深度图通过预训练扩散模型得到生成图像的概率分布，通过该生成图像的概率分布与目标图像的概率分布的KL散度进行损失函数以更新神经辐射场的参数，从而不依赖深度估计器也能使得已更新的神经辐射场生成的三维几何模型更加精确。本发明专利技术将通过漂浮伪影损失函数即关于密度图与主体语义掩膜的损失函数抑制语义掩膜外的非主体物的密度从而消除漂浮伪影的产生，鼓励语义掩膜内的密度增长以形成较为准确的三维几何模型。三维几何模型。三维几何模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于非真实感图片的三维物体生成方法

[0001]本专利技术属于深度学习图像处理技术和三维物体生成领域，具体涉及一种基于非真实感图片的三维物体生成方法。

技术介绍

[0002]近年来，神经辐射场（Neural Radiance Fields，NeRF）在生成逼真三维物体建模领域取得了巨大的进展。基于NeRF的三维生成方法通过训练一个神经网络，从一系列二维图像学习三维模型。另一方面，扩散模型（Diffusion Models）显著推动了文本到图像生成的发展。利用扩散模型生成图像的先验分布，基于NeRF的三维生成方法可以实现无需相机参数和位置的生成流程。
[0003]现有的扩散模型蒸馏引导的NeRF生成方法中，由NeRF通过可微分渲染过程得到的渲染图（分布）被要求与扩散模型的生成的目标图像（分布）接近，包括得分蒸馏采样（Score Distillation Sampling，SDS）和变分分数蒸馏（Variational Score Distillation，VSD）两类方法。其中，前者优化单个目标图和单个渲染图之间的...

【技术保护点】

【技术特征摘要】
1.一种基于非真实感图片的三维物体生成方法，其特征在于，包括：基于非真实感图片集对基础扩散模型进行微调得到预训练扩散模型；构建包括预训练扩散模型、神经辐射场、ControlNet网络和语义分割网络的训练系统，其中，将文本提示词输入预训练扩散模型得到目标图像的概率分布，基于神经辐射场得到渲染图像的概率分布以及渲染图像对应的深度图和密度图，基于文本提示词采用ControlNet网络根据深度图控制预训练扩散模型得到生成图像的概率分布，采用语义分割网络对渲染图进行语义分割得到主体语义掩膜；构建包括变分分数蒸馏损失函数、几何优化损失函数和漂浮伪影损失函数的总损失函数，其中：通过变分分数蒸馏损失函数使得渲染图像与目标图像的概率分布的KL散度的期望不高于第一损失阈值，通过几何优化损失函数使得生成图像与目标图像的概率分布的KL散度的期望不高于第二损失阈值，通过漂浮伪影损失函数使得关于密度图与主体语义掩膜的损失函数值的期望不高于第三损失阈值；基于文本提示词和多个相机位姿利用总损失函数通过训练系统训练一组神经辐射场得到多个最终神经辐射场；将相机位姿输入至多个最终神经辐射场中随机选出的一个最终神经辐射场得到三维物体的渲染图。2.根据权利要求1所述的基于非真实感图片的三维物体生成方法，其特征在于，所述几何优化损失函数是基于目标图像与生成图像的概率分布的KL散度在不同扩散步骤下的期望构建得到，通过几何优化损失函数使得生成图像接近目标图像以更新深度图，通过更新深度图来更新神经辐射场的参数。3.根据权利要求1所述的基于非真实感图片的三维物体生成方法，其特征在于，所述漂浮伪影损失函数是基于不同相机位姿下密度图与主体语义掩膜构建得到，通过漂...

【专利技术属性】
技术研发人员：徐浩然，李泽健，陈培，孙凌云，王小松，陈晓皎，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人