一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法及系统技术方案

技术编号：40939604 阅读：3 留言：0更新日期：2024-04-18 14:57

本发明专利技术公开了一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法及系统。根据输入文本生成初始场景图和深度图。在初始相机位姿附近选择多个位姿，生成对应图像，形成支撑数据集。为实现新视角场景图生成，设计三平面特征提取模型和神经辐射场解码模型。采取逐帧渲染方式，针对每一位姿进行处理：利用三平面特征进行粗糙渲染得到初步结果，再输入几何感知优化模型进行细致修正。重复此过程完成所有采样点，更新支撑数据集。根据预设相机轨迹从支撑数据集中提取图像序列，合成漫游视频。该方法采用三平面特征能有效降低参数量，而几何优化模型能修正粗糙结果，提高生成质量。本发明专利技术可以生成任意轨迹漫游的室内外场景，解决了传统方法局限性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及三维场景构建及视频生成领域，具体涉及一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法及系统。

技术介绍

1、近年来，随着对元宇宙应用的3d创作工具需求不断增长，对3d场景生成技术的关注也在迅速增加。现有工具通常需要专业建模师操作，并需要大量的手动劳动，这既耗时又低效。因此，为了减少3d场景创作对专业建模师的需求、简化3d建模的流程并降低3d建模的门槛，通过文本描述生成可控3d场景的技术或软件具有非常大的潜力和需求。

2、然而，基于描述性文本生成沉浸式3d场景从多个角度来看都具有挑战性，包括文本-3d数据对的数量局限性以及生成场景过程中如何确保场景语义和几何信息的对齐等等。

3、近期，神经辐射场(neural radiance fields,nerf)和扩散模型的结合使基于描述性文本生成3d场景的技术有了进一步的发展，一些方法采用了强大的预训练文本生成图像的扩散模型作为优化3d表示的强先验来解决3d数据有限的问题，但由于2d先验扩散模型缺乏对3d模型的感知，此类方法生成的场景通常缺乏三维一致性，并且生成的几何形状相对简单。另一部分方法引入了单目深度估计模型作为强大的几何先验，并采用形变-补全(warping-inpainting)的方法进行渐进式三维场景重建，尽管这类方法部分解决了一致性问题，但它们主要集中在室内场景的重建并且难以处理大规模的室外场景生成，主要原因为两方面：(1)由于该类方法采用显示的3d网格作为统一的三维表示，室外场景深度估计的噪声会导致场景几何形状的大幅拉伸而失真。(

技术实现思路

1、本专利技术针对现有技术的不足，提供一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法及系统，本专利技术旨在根据对室内或室外场景的纯文本描述和预设定的一组相机轨迹，在保证三维一致性的前提下对相应场景图片进行生成和三维建模，合成符合相机轨迹的三维漫游视频。

2、本专利技术的目的是通过以下技术方案实现的：一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法，该方法包括以下步骤：

3、(1)获取相机轨迹输入和文本提示词输入，并使用预训练的文本-图像潜在扩散生成模型，根据输入文本提示词生成相机轨迹初始位姿下的初始场景图；

4、(2)采用预训练的单目图像深度估计模型提取初始场景图像的深度图先验；

5、(3)在初始相机位姿附近选择多个相机位姿点，基于初始相机位姿下的场景图和深度图渲染出选定相机位姿点下的场景图，并利用预训练的图像潜在扩散生成模型对新的场景图的空白处进行补全，将得到的所有场景图，及其对应的深度图和预训练的图像特征提取模型提取的二维特征图作为支撑数据集；

6、(4)构建三平面特征提取模型将特征图的二维特征映射为三平面特征，构建神经辐射场解码模型根据三平面特征采样解码出粗糙场景图，设计光度损失，通过支撑数据集训练优化三平面特征提取模型和神经辐射场解码模型；构建用于优化粗糙场景图的具有几何感知的渲染图像优化模型并进行预训练；

7、(5)取相机轨迹的下一个位姿，从三平面特征空间中进行采样，并通过神经辐射场解码模型进行体渲染得到新的相机位姿下的粗糙场景图和相关特征图；

8、(6)将粗糙场景图和相关特征图作为条件输入具有几何感知的渲染图像优化模型进行细化；

9、(7)对经过细化的新相机位姿场景图的部分光线，以及支撑数据集中部分场景图的部分光线进行随机采样，进一步优化三平面特征对三维场景的表达，并将经过细化的新相机位姿场景图合并入支撑数据集；重复步骤(5)-步骤(7)直到相机轨迹中的所有相机位姿都得到对应的场景图；

10、(8)根据相机轨迹依此从支撑数据集中取出场景图，按照特定帧率合成漫游视频。

11、进一步地，步骤(3)中，基于初始相机位姿和初始场景图渲染出初始相机位姿附近位姿对应的有缺失场景图的方法为：对于初始场景图i0中的像素值q和对应深度图d0中的深度值z，根据以下公式计算出目标场景图中的相关像素值q0→i和深度值z0→i：

12、

13、其中，k表示相机内参矩阵，pi表示视角i下的相机位姿，p0表示初始相机位姿。

14、进一步地，作为支撑数据集的图像特征采用预训练的图像特征提取模型，将支撑数据集中的所有图像送入预训练的图像特征提取模型，通过多层特征提取之后得到的低分辨率二维特征作为输出特征；支撑数据集中的深度图采用预训练的单目图像深度估计模型，以所有支撑数据集图像作为输入，每张图像的对应深度图作为输出。

15、进一步地，所述三平面特征提取模型由二维特征投影模型和三平面特征压缩模型构成；所述二维特征投影模型通过在可见体素上获取和聚合支撑数据集中相邻视图的二维特征，将二维平面特征转换为三维全局体特征；所述三平面特征压缩模型采用三个独立的多层感知机编码器将三维全局体特征投影到三个正交的特征平面上，得到三平面特征。

16、进一步地，所述将二维平面特征转换为三维全局体特征，具体为：

17、对于每个相邻视角i和其对应的二维特征图fi，构建一个三维全局体特征ui；针对三维全局体特征中的某个体素u，根据体素中心坐标v和某相机射线原点oi的连线找到该射线与像平面的交点，进一步确定该体素在该相机位姿pi下对应的二维图像特征，从而得到每个相机位姿下某体素对应的二维图像特征其中未在相机位姿pi下有对应二维图像特征的体素在该相机位姿下对应的二维图像特征最后，将提取的二维图像特征进行平均并填充到对应的三维体素中得到三维全局体特征ui。

18、进一步地，所述神经辐射场解码模型的具体实现方法为：

19、给定一个沿着方向d打出的相机光线r上三维空间点p，其坐标为(i，j，k)，将该点正交投影到三平面特征空间的每一个面上，三平面分别记为mxy、myz、mxz，通过双线性插值采样该点在三平面上的条件特征mp＝[mxy(i，j)，myz(j，k)，mxz(i，k)]，利用多层感知机预测该点的体素密度，得到该光线上所有采样点的体素密度后，利用体渲染公式得到该相机光线r对应场景图像素点的颜色预测值

20、

21、其中，r(t)＝o+td表示从相机中心o发射的方向为d的相机光线上的采样点的三维坐标；t表示光线上的点到原点的距离，tn和tf分别表示最近和最远的采样边界；e表示语义编码；σθ(r(t)，mp)和cθ(r(t)，d，mp，e)分别表示沿着d方向射出的光线上各个采样点的神经辐射场预测得到的体素密度和颜色；t(t)表示累积透射率；

22、对应目标相机位姿深度图的深度预测值通过以下公式计算得出：

23、

24、进一步地，用于训练三平面特征提取模型和神经辐射场解码模型的光度损失由像素损失和深度损失组成，所述像素损失约束生成场景图的内容一致性，所述深度损失用来约束生成场景图的几何一致本文档来自技高网...

【技术保护点】

1.一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法，其特征在于，步骤(3)中，基于初始相机位姿和初始场景图渲染出初始相机位姿附近位姿对应的有缺失场景图的方法为：对于初始场景图I0中的像素值q和对应深度图D0中的深度值z，根据以下公式计算出目标场景图中的相关像素值q0→i和深度值Z0→i：

3.根据权利要求1所述的一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法，其特征在于，作为支撑数据集的图像特征采用预训练的图像特征提取模型，将支撑数据集中的所有图像送入预训练的图像特征提取模型，通过多层特征提取之后得到的低分辨率二维特征作为输出特征；支撑数据集中的深度图采用预训练的单目图像深度估计模型，以所有支撑数据集图像作为输入，每张图像的对应深度图作为输出。

4.根据权利要求1所述的一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法，其特征在于，所述三平面特征提取模型由二维特征投影模型和三平面特征压缩模型构成；所述二维特征投影模型通

5.根据权利要求4所述的一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法，其特征在于，所述将二维平面特征转换为三维全局体特征，具体为：

6.根据权利要求1所述的一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法，其特征在于，所述神经辐射场解码模型的具体实现方法为：

7.根据权利要求1所述的一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法，其特征在于，用于训练三平面特征提取模型和神经辐射场解码模型的光度损失由像素损失和深度损失组成，所述像素损失约束生成场景图的内容一致性，所述深度损失用来约束生成场景图的几何一致性。

8.根据权利要求1所述的一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法，其特征在于，具有几何感知的渲染图像优化模型由经过微调的预训练的图像潜在扩散生成模型构成，具体包括：

9.一种纯文本引导的任意轨迹三维场景构建及漫游视频生成系统，包括相互连接的微处理器和存储器，其特征在于，所述微处理器被编程或配置以执行权利要求1～8中任意一项所述的纯文本引导的任意轨迹三维场景构建及漫游视频生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其特征在于，所述计算机程序用于被微处理器编程或配置以执行权利要求1～8中任意一项所述的纯文本引导的任意轨迹三维场景构建及漫游视频生成方法。

...

【技术特征摘要】

1.一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法，其特征在于，步骤(3)中，基于初始相机位姿和初始场景图渲染出初始相机位姿附近位姿对应的有缺失场景图的方法为：对于初始场景图i0中的像素值q和对应深度图d0中的深度值z，根据以下公式计算出目标场景图中的相关像素值q0→i和深度值z0→i：

4.根据权利要求1所述的一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法，其特征在于，所述三平面特征提取模型由二维特征投影模型和三平面特征压缩模型构成；所述二维特征投影模型通过在可见体素上获取和聚合支撑数据集中相邻视图的二维特征，将二维平面特征转换为三维全局体特征；所述三平面特征压缩模型采用三个独立的多层感知机编码器将三维全局体特征投影到三个正交的特征平面上，得到三平面特征。

<...

【专利技术属性】
技术研发人员：张菘淳，郭羿宏，邹常青，王子仪，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人