一种支持文本查询的神经辐射场重建方法和装置制造方法及图纸

技术编号：40879539 阅读：5 留言：0更新日期：2024-04-08 16:50

本发明专利技术提供一种支持文本查询的神经辐射场重建方法和装置，包括：步骤S1、获取相机拍摄的多视图图像并估计相机位姿；步骤S2、根据多视图图像，得到多视图图像的极线点特征；步骤S3、根据极线点特征，得到跨视图聚合特征；步骤S4、根据跨视图聚合特征，进行渲染集成；步骤S5、根据跨视图聚合特征和渲染集成结果训练语义嵌入场模型；步骤S6、根据语义嵌入场模型合成场景新视图，得到注意力图渲染场景深度图；步骤S7、根据语义嵌入场模型，渲染文本查询相关性图。采用本发明专利技术的技术方案，能够交互式地渲染查询对象的具有多视图一致的密集相关性图，另外避免使用经典可微分体渲染管道。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于视觉处理，尤其涉及一种支持文本查询的神经辐射场重建方法和装置。

技术介绍

1、基于神经辐射场(neural radiance field，nerf)的三维重建方法通过对隐式神经场景表示进行体渲染，能够生成给定新视角下的高保真图像，因而在虚拟现实游戏、电影和电视特效以及专业体育赛事的自由视角回放等方面有着广泛的应用前景。然而，nerf模型的直接输出是缺乏意义或上下文内容的颜色密度场，这阻碍了与生成的3d场景进行交互的应用。且该颜色密度场往往依赖经典体渲染公式进行新视图的合成，其过度简化了固体表面的光学建模，限制了nerf模型在具有不同光学效应的场景中的泛化性能。

技术实现思路

1、本专利技术要解决的技术问题是，提供一种支持文本查询的神经辐射场重建方法和装置。

2、为实现上述目的，本专利技术采用如下的技术方案：

3、一种支持文本查询的神经辐射场重建方法，包括：步骤s1、获取相机拍摄的多视图图像并估计相机位姿；步骤s2、根据多视图图像，得到多视图图像的极线点特征；步骤s3、根据极线点特征，得到跨视图聚合特征；步骤s4、根据跨视图聚合特征，进行渲染集成；步骤s5、根据跨视图聚合特征和渲染集成结果训练语义嵌入场模型；步骤s6、根据语义嵌入场模型合成场景新视图，得到注意力图渲染场景深度图；步骤s7、根据语义嵌入场模型，渲染文本查询相关性图。

4、作为优选，所述语义嵌入场模型为将关联文本描述与图像内容的clip嵌入引入训练的nerf模型。

5、作为优选，步骤s4中，根据跨视图聚合特征基于光线进行渲染集成。

6、作为优选，步骤s6中由光线聚合模型rt得到注意力图渲染场景深度图，即：

7、

8、作为优选，根据查询自然语言文本，计算其clip嵌入q，并与语义嵌入场模型的语言嵌入进行比较，计算相关性分数，选择产生最高相关性分数的物理尺度用于渲染输出。

9、本专利技术还提供一种支持文本查询的神经辐射场重建装置，包括：获取模块，用于获取相机拍摄的多视图图像及相机位姿；提取模块，用于根据多视图图像，得到多视图图像的极线点特征；聚合模块，用于根据极线点特征，得到跨视图聚合特征；集成模块，用于根据跨视图聚合特征，进行渲染集成；训练模块，用于根据跨视图聚合特征和渲染集成结果训练语义嵌入场模型；合成模块，用于根据语义嵌入场模型合成场景新视图，得到注意力图渲染场景深度图；渲染模块，用于根据语义嵌入场模型，渲染文本查询相关性图。

10、作为优选，所述语义嵌入场模型为将关联文本描述与图像内容的clip嵌入引入训练的nerf模型。

11、作为优选，集成模块根据跨视图聚合特征基于光线进行渲染集成。

12、作为优选，合成模块通过光线聚合模型rt得到注意力图渲染场景深度图，即：

13、

14、作为优选，渲染模块根据查询自然语言文本，计算其clip嵌入q，并与语义嵌入场模型的语言嵌入进行比较，计算相关性分数，选择产生最高相关性分数的物理尺度用于渲染输出。

15、为了更好地支持3d场景理解相关的下游应用，例如通过输入自然语言文本查询当前场景中的“水杯”、“篮球”等广泛的对象，或是查询“蓝色”等视觉属性相关的物体，本专利技术将能够关联文本描述与图像内容的clip嵌入引入训练的nerf模型，从而使模型能够交互式地渲染查询对象的具有多视图一致的密集相关性图。此外，本专利技术基于transformer模型实现可学习的光线渲染，使用注意力在光线行进期间直接学习渲染目标像素，从而避免使用经典可微分体渲染管道。

本文档来自技高网...

【技术保护点】

1.一种支持文本查询的神经辐射场重建方法，其特征在于，包括：步骤S1、获取相机拍摄的多视图图像并估计相机位姿；步骤S2、根据多视图图像，得到多视图图像的极线点特征；步骤S3、根据极线点特征，得到跨视图聚合特征；步骤S4、根据跨视图聚合特征，进行渲染集成；步骤S5、根据跨视图聚合特征和渲染集成结果训练语义嵌入场模型；步骤S6、根据语义嵌入场模型合成场景新视图，得到注意力图渲染场景深度图；步骤S7、根据语义嵌入场模型，渲染文本查询相关性图。

2.如权利要求1所述的支持文本查询的神经辐射场重建方法，其特征在于，所述语义嵌入场模型为将关联文本描述与图像内容的CLIP嵌入引入训练的NeRF模型。

3.如权利要求2所述的支持文本查询的神经辐射场重建方法，其特征在于，步骤S4中，根据跨视图聚合特征基于光线进行渲染集成。

4.如权利要求3所述的支持文本查询的神经辐射场重建方法，其特征在于，步骤S6中由光线聚合模型RT得到注意力图渲染场景深度图，即：

5.如权利要求4所述的支持文本查询的神经辐射场重建方法，其特征在于，根据查询自然语言文本，计算其CL

6.一种支持文本查询的神经辐射场重建装置，其特征在于，包括：获取模块，用于获取相机拍摄的多视图图像及相机位姿；提取模块，用于根据多视图图像，得到多视图图像的极线点特征；聚合模块，用于根据极线点特征，得到跨视图聚合特征；集成模块，用于根据跨视图聚合特征，进行渲染集成；训练模块，用于根据跨视图聚合特征和渲染集成结果训练语义嵌入场模型；合成模块，用于根据语义嵌入场模型合成场景新视图，得到注意力图渲染场景深度图；渲染模块，用于根据语义嵌入场模型，渲染文本查询相关性图。

7.如权利要求6所述的支持文本查询的神经辐射场重建装置，其特征在于，所述语义嵌入场模型为将关联文本描述与图像内容的CLIP嵌入引入训练的NeRF模型。

8.如权利要求7所述的支持文本查询的神经辐射场重建装置，其特征在于，集成模块根据跨视图聚合特征基于光线进行渲染集成。

9.如权利要求8所述的支持文本查询的神经辐射场重建装置，其特征在于，合成模块通过光线聚合模型RT得到注意力图渲染场景深度图，即：

10.如权利要求9所述的支持文本查询的神经辐射场重建装置，其特征在于，渲染模块根据查询自然语言文本，计算其CLIP嵌入q，并与语义嵌入场模型的语言嵌入进行比较，计算相关性分数，选择产生最高相关性分数的物理尺度用于渲染输出。

...

【技术特征摘要】

1.一种支持文本查询的神经辐射场重建方法，其特征在于，包括：步骤s1、获取相机拍摄的多视图图像并估计相机位姿；步骤s2、根据多视图图像，得到多视图图像的极线点特征；步骤s3、根据极线点特征，得到跨视图聚合特征；步骤s4、根据跨视图聚合特征，进行渲染集成；步骤s5、根据跨视图聚合特征和渲染集成结果训练语义嵌入场模型；步骤s6、根据语义嵌入场模型合成场景新视图，得到注意力图渲染场景深度图；步骤s7、根据语义嵌入场模型，渲染文本查询相关性图。

2.如权利要求1所述的支持文本查询的神经辐射场重建方法，其特征在于，所述语义嵌入场模型为将关联文本描述与图像内容的clip嵌入引入训练的nerf模型。

3.如权利要求2所述的支持文本查询的神经辐射场重建方法，其特征在于，步骤s4中，根据跨视图聚合特征基于光线进行渲染集成。

4.如权利要求3所述的支持文本查询的神经辐射场重建方法，其特征在于，步骤s6中由光线聚合模型rt得到注意力图渲染场景深度图，即：

5.如权利要求4所述的支持文本查询的神经辐射场重建方法，其特征在于，根据查询自然语言文本，计算其clip嵌入q，并与语义嵌入场模型的语言嵌入进行比较，计算相关性分数，选择产生最高相关性分数的物理尺度用于渲染输出。

6.一种...

【专利技术属性】
技术研发人员：赵艳明，王淳，李绍彬，李朝晖，蒋伟，
申请(专利权)人：中国传媒大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人