基于注意力机制的NERF优化的方法、装置、设备及可读介质制造方法及图纸

技术编号:34488505 阅读:11 留言:0更新日期:2022-08-10 09:06
本发明专利技术提供了一种基于注意力机制的NERF优化的方法、装置、设备及可读介质,该方法包括:获取3D场景中不同位置拍摄的若干数量的图片和图片的信息,并设定将图片的中的像素以像素patch为单位进行处理的参数;将光束的坐标维度按照参数进行处理,并使用注意力机制将1个patch中的所有像素点的坐标信息进行一次编码;在光束中均匀采样若干个采样点,根据光束的坐标维度的信息得到若干个采样点中每个采样点的RGB值;对若干个采样点进行体渲染合成颜色RGB,并基于每个点对光束颜色贡献的概率选取出精细采样点,并对精细采样点进行体渲染合成以得到颜色RGB的值。通过使用本发明专利技术的方案,能够加快模型训练和推理的速度,可以提高模型的渲染效果。模型的渲染效果。模型的渲染效果。

【技术实现步骤摘要】
基于注意力机制的NERF优化的方法、装置、设备及可读介质


[0001]本专利技术涉及计算机领域,并且更具体地涉及一种基于注意力机制的NERF优化的方法、装置、设备及可读介质。

技术介绍

[0002]计算机图形学中的渲染是指用计算机模拟现实物理世界中拍照的光学过程。通常在研究渲染技术时,还包括3D场景建模及表示,只有在计算机中实现了3D场景,渲染才能基于此来完成。目前广泛应用的渲染技术是基于计算机图形学的相关方法实现的,比如光栅化、光线投射、光线/路径追踪,上述方法在完成3D建模之后模拟光线的运动过程,将运动中产生的颜色在屏幕中显示。随着对画质的要求提高,比如游戏、电影等行业,光线/路径追踪等算法不断精确,业界也基于GPU等硬件进行计算加速,但是精度与效率之间的问题仍然困扰着众多应用。
[0003]近些年,基于深度学习的计算机视觉技术取得了长足的发展,如目标跟踪/图像分割等场景。2019

2020年,计算机图形与深度学习(神经网络)迎来了众多优秀的工作,很大一部分工作致力于3D场景的重构及其渲染,比如2019年的Occupancy Field以及DeepSDF,2020年出现的NERF等。
[0004]NERF(神经辐射场)是其中对目前影响力最大的,众多基于NERF的改进在这两年呈爆发式增长。NERF实现了对3D场景的隐式重建以及多角度渲染,有潜力使用在数字孪生场景中的3D建模渲染及可视化,数字人脸部及姿态重建及动画等元宇宙数字场景。NERF的基本思想是用神经网络作为一个3D场景的隐式表达,代替传统的点云、网格、体素、TSDF等方式,同时通过这样的网络可以直接渲染任意角度任意位置的投影图像。其主要的工作包括:1)提出一种用5D神经辐射场(Neural Radiance Field)来表达复杂的几何+材质连续场景的方法,该辐射场使用MLP网络进行参数化;2)提出一种基于经典体素渲染(Volume Rendering)改进的可微渲染方法,能够通过可微渲染得到RGB图像,并将此作为优化的目标。该部分包含采用分层采样的加速策略,来将MLP的容量分配到可见的内容区域。其主要的训练和推理流程:1、创建NERF模型(MLP模型初始化)。2、获取光束及预处理,光束的维度为(N,ro+rd,H,W,3),其中N代表数据集样本的总数量,HW代表分辨率,ro代表光束起点,rd代表光束方向,3代表3D坐标;在光束维度上,增加每一条光束对应的RGB颜色,即维度更改为(N,ro+rd+RGB,H,W,3)。3、选batch条光束信息,并在光束上进行均匀采样,使用前述定义的MLP计算各个采样点的RGB及不透明度a,对这些光束点进行体渲染合成颜色;根据采样点所带表的不透明度的权重重新精细采样,仍然使用MLP计算RGB和不透明度a,对新采样的光束点进行体渲染合成颜色。上述即为前向推理,反向传播使用的loss为光束中添加的RGB图像信息为gt,与计算得到的RGB做比对,求取loss并反向传播实现即可。注意力机制在计算机视觉和NLP领域有众多应用,它的核心思想是关注重点,建立更密切的相关量之间的联系。注意力机制是人类大脑的一种天生的能力。当我们看到一幅图片时,先是快速扫过图片,然后锁定需要重点关注的目标区域。注意力机制的输入是多个相关量,输出是相关量对
整体贡献的概率。
[0005]现有技术中以FaseNerf为代表的,用存储换取计算的方式来加速NERF的推理过程,用存储换计算在不改变算法的基础上是最有效的手段,但是如今的神经网络大部分基于GPU做推理,将数据存入显存是不够经济现实的,存入内存通信开销比较大。FastNeRF的基本思路是预先保存所有NeRF表征函数的输出值,这样渲染时无需深度模型计算,查表即可。但原始NeRF是5D坐标输入,即使每维1024分辨率,也需要保存1024T的体素特征。为了使得需要保存的值减少到现代显卡可处理的规模,FastNeRF提出利用场景渲染的特性将NeRF模型分解为体素3D位置和投影2D视角两个表征网络分别计算,再组合形成体素色彩特征。
[0006]现有技术中以AutoInt为代表的用神经网络代替求数值积分的过程,即用反向传播的过程代替正向传播的网络输入端值进行求解,仍然无法摆脱众多光线逐条计算的问题,以一幅1080P图像为例(1920*1080),需要计算200万条光线;autoInt将容积渲染中一条射线的投影看作是定积分,并定义对应的神经网络G代表积分过程,然后对该神经网络G求导得到对应的导数网络D。显然,神经网络G,D具有共同的网络参数。AutoInt首先训练导数网络D,然后将优化的参数代入积分函数网络G。给定投影线的起始点,容积投影可通过计算神经网络函数G在两点的差值来计算,即两次对G的前向计算就确定了投影值。

技术实现思路

[0007]有鉴于此,本专利技术实施例的目的在于提出一种基于注意力机制的NERF优化的方法、装置、设备及可读介质,通过使用本专利技术的技术方案,能够加快模型训练和推理的速度,可以提高模型的渲染效果。
[0008]基于上述目的,根据本专利技术的一个方面,提供了一种基于注意力机制的NERF优化的方法,包括以下步骤:
[0009]获取3D场景中不同位置拍摄的若干数量的图片和图片的信息,并设定将图片的中的像素以像素patch为单位进行处理的参数;
[0010]将光束的坐标维度按照参数进行处理,并使用注意力机制将1个patch中的所有像素点的坐标信息进行一次编码;
[0011]在光束中均匀采样若干个采样点,根据光束的坐标维度的信息得到若干个采样点中每个采样点的RGB值;
[0012]对若干个采样点进行体渲染合成颜色RGB,并基于每个点对光束颜色贡献的概率选取出精细采样点,并对精细采样点进行体渲染合成以得到颜色RGB的值。
[0013]根据本专利技术的一个实施例,设定将图片的中的像素以像素patch为单位进行处理的参数包括:
[0014]将像素patch的参数设定为5*5,其中5*5表示将图片中横向5个像素乘以纵向5个像素共25个像素作为一个像素patch进行处理。
[0015]根据本专利技术的一个实施例,在光束中均匀采样若干个采样点,根据光束的坐标维度的信息得到若干个采样点中每个采样点的RGB值包括:
[0016]在MLP模型处理的光束上均匀采样64个采样点;
[0017]将光束的坐标维度中的3D坐标放入MLP模型中得到输出的透明度和表征向量,将表征向量拼接注意力机制中得到的方向信息放入MLP模型得到一个采样点的RGB的值,重复
该步骤,直到获得64个采样点的RGB的值。
[0018]根据本专利技术的一个实施例,对若干个采样点进行体渲染合成颜色RGB,并基于每个点对光束颜色贡献的概率选取出精细采样点,并对精细采样点进行体渲染合成以得到颜色RGB的值包括:
[0019]对光束上64个采样点进行体渲染合成颜色RGB,并利用注意力机制计算64个采样点中的每一个对光束颜色贡献的概率值;
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的NERF优化的方法,其特征在于,包括以下步骤:获取3D场景中不同位置拍摄的若干数量的图片和图片的信息,并设定将图片的中的像素以像素patch为单位进行处理的参数;将光束的坐标维度按照所述参数进行处理,并使用注意力机制将1个patch中的所有像素点的坐标信息进行一次编码;在光束中均匀采样若干个采样点,根据光束的坐标维度的信息得到若干个采样点中每个采样点的RGB值;对若干个采样点进行体渲染合成颜色RGB,并基于每个点对光束颜色贡献的概率选取出精细采样点,并对精细采样点进行体渲染合成以得到颜色RGB的值。2.根据权利要求1所述的方法,其特征在于,设定将图片的中的像素以像素patch为单位进行处理的参数包括:将像素patch的参数设定为5*5,其中5*5表示将图片中横向5个像素乘以纵向5个像素共25个像素作为一个像素patch进行处理。3.根据权利要求1所述的方法,其特征在于,在光束中均匀采样若干个采样点,根据光束的坐标维度的信息得到若干个采样点中每个采样点的RGB值包括:在MLP模型处理的光束上均匀采样64个采样点;将光束的坐标维度中的3D坐标放入MLP模型中得到输出的透明度和表征向量,将表征向量拼接注意力机制中得到的方向信息放入MLP模型得到一个采样点的RGB的值,重复该步骤,直到获得64个采样点的RGB的值。4.根据权利要求3所述的方法,其特征在于,对若干个采样点进行体渲染合成颜色RGB,并基于每个点对光束颜色贡献的概率选取出精细采样点,并对精细采样点进行体渲染合成以得到颜色RGB的值包括:对光束上64个采样点进行体渲染合成颜色RGB,并利用注意力机制计算64个采样点中的每一个对光束颜色贡献的概率值;将计算得到的概率值进行排序,选择概率值最高的16个采样点;以16个采样点为中心各自再获取8个采样点以得到128个精细采样点;获取128个精细采样点的RGB的值,并对精细采样点进行体渲染合成以得到颜色RGB的值。5.一种基于注意力机制的NERF优化的装置,其特征在于,所述装置包括:设定模块,所述设定模块配置为获取3D场景中不同位置拍摄的若干数量的图片和图片...

【专利技术属性】
技术研发人员:王鹏飞
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1