【技术实现步骤摘要】
本说明书涉及使用神经网络处理图像。
技术介绍
1、神经网络是采用一个或多个非线性单元层来预测所接收的输入的输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作到网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每一层根据相应的一组参数的当前值从所接收的输入生成输出。
技术实现思路
1、本说明书描述了一种在一个或多个计算机上被实现为计算机程序的系统,该系统根据基于解码器的累积分数采样(dass)损失来执行图像编辑。
2、在一些实现方式中,该系统使用dass损失和扩散神经网络来直接优化输入图像,以便对输入图像应用编辑,例如以增强输入图像或者对输入图像进行去噪。换句话说,该系统通过使用dass损失(即,无条件或以文本描述为条件)编辑输入图像来生成输出图像。
3、在一些其他实现方式中,该系统使用dass损失和扩散神经网络来调整生成输入图像的可微分渲染器,即,通过使图像空间梯度反向传播通过可微分渲染器(的参数)来调整该可微分渲染器。
...【技术保护点】
1.一种由一个或多个计算机执行的方法,所述方法包括:
2.如权利要求1所述的方法,其中n是大于或等于二的整数值。
3.如权利要求2所述的方法,其中n是三和十之间的整数值。
4.如权利要求1至3中任一项所述的方法,其中所述去噪输出包括所述中间潜在表示的噪声估计。
5.如权利要求1至4中任一项所述的方法,其中所述扩散神经网络是对潜在图像进行操作的预训练的文本到图像扩散神经网络。
6.如权利要求1至5中任一项所述的方法,其中所述输入图像是目标对象实例的2D渲染图像,并且其中获得所述图像包括:
7.如权利
...【技术特征摘要】
1.一种由一个或多个计算机执行的方法,所述方法包括:
2.如权利要求1所述的方法,其中n是大于或等于二的整数值。
3.如权利要求2所述的方法,其中n是三和十之间的整数值。
4.如权利要求1至3中任一项所述的方法,其中所述去噪输出包括所述中间潜在表示的噪声估计。
5.如权利要求1至4中任一项所述的方法,其中所述扩散神经网络是对潜在图像进行操作的预训练的文本到图像扩散神经网络。
6.如权利要求1至5中任一项所述的方法,其中所述输入图像是目标对象实例的2d渲染图像,并且其中获得所述图像包括:
7.如权利要求6所述的方法,其中生成所述目标对象实例的所述2d渲染图像包括:
8.如权利要求7所述的方法,其中确定对所述2d渲染图像的所述一个或多个更新包括:
9.如权利要求7至8中任一项所述的方法,其中所述可微分渲染器包括:
10.如权利要求9所述的方法,其中所述nerf模型是nerf多层感知器(mlp)模型,并且其中更新所述可微分渲染器包括更新所述nerf mlp模型的参数值。
11.如权利要求6至10中任一项所述的方法,其中所述图像空间目标函数还包括纹理重建损失项,所述纹理重建损失项衡量(i)已通过使用所述扩散神经网络从所述输入图像生成的所述目标对象实例的增强的图像与(ii...
【专利技术属性】
技术研发人员:V·贾姆帕尼,CH·尧,A·拉杰,WC·洪,MH·杨,M·鲁宾斯坦,Y·李,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。