当前位置: 首页 > 专利查询>辉达公司专利>正文

使用一个或更多个神经网络的图像生成制造技术

技术编号:34944216 阅读:14 留言:0更新日期:2022-09-17 12:19
本公开提出了生成增强图像的装置、系统和技术。在至少一个实施例中,将一个或更多个神经网络用于修改在图像中的一个或更多个第一对象,所述修改至少部分地基于待对所述图像中的一个或更多个第二对象进行的修改。的一个或更多个第二对象进行的修改。的一个或更多个第二对象进行的修改。

【技术实现步骤摘要】
【国外来华专利技术】使用一个或更多个神经网络的图像生成
[0001]相关申请的交叉引用
[0002]本申请是于2020年8月31日提交的第17/007,079号美国专利申请的PCT申请。该申请的公开内容通过全文引用并入本文以用于所有目的。


[0003]至少一个实施例涉及用于执行和促进人工智能的处理资源。例如,至少一个实施例涉及用于根据本文描述的各种新颖技术来训练神经网络的处理器或计算系统。

技术介绍

[0004]主要使用数字成像来捕获或生成图像和视频内容。数字图像或视频数据的优点是,与基于胶卷的成像相比,它更易于编辑或处理。然而,在许多情况下,编辑或处理数字图像内容仍然需要大量的手动操作才能产生既满足预期目标又具有视觉吸引力或真实的结果。例如,各种图像增强技术是不够好的,因为它们不能以受约束的方式自动修改图像中的特定对象,并且没有考虑这些对象之间的关系以保持一致性。
附图说明
[0005]将参照附图描述根据本公开的各个实施例,在附图中:
[0006]图1A、图1B、图1C和图1D示出了根据至少一个实施例的输入和输出图像;
[0007]图2示出了根据至少一个实施例的用于生成图像或视频内容的设备;
[0008]图3示出了根据至少一个实施例的图像增强模块;
[0009]图4示出了根据至少一个实施例的用于生成增强图像的过程;
[0010]图5示出了根据至少一个实施例的用于修改图像中的一个或多个对象的过程;
[0011]图6A示出了根据至少一个实施例的推理和/或训练逻辑;
[0012]图6B示出了根据至少一个实施例的推理和/或训练逻辑;
[0013]图7示出了根据至少一个实施例的示例数据中心系统;
[0014]图8示出了根据至少一个实施例的计算机系统;
[0015]图9示出了根据至少一个实施例的计算机系统;
[0016]图10示出了根据至少一个实施例的计算机系统;
[0017]图11示出了根据至少一个实施例的计算机系统;
[0018]图12A示出了根据至少一个实施例的计算机系统;
[0019]图12B示出了根据至少一个实施例的计算机系统;
[0020]图12C示出了根据至少一个实施例的计算机系统;
[0021]图12D示出了根据至少一个实施例的计算机系统;
[0022]图12E和图12F示出了根据至少一个实施例的共享编程模型;
[0023]图13示出了根据至少一个实施例的示例性集成电路和相关联的图形处理器;
[0024]图14A

14B示出了根据至少一个实施例的示例性集成电路和相关联的图形处理
器;
[0025]图15A

15B示出了根据至少一个实施例的附加的示例性图形处理器逻辑;
[0026]图16示出了根据至少一个实施例的计算机系统;
[0027]图17A示出了根据至少一个实施例的并行处理器;
[0028]图17B示出了根据至少一个实施例的分区单元;
[0029]图17C示出了根据至少一个实施例的处理集群;
[0030]图17D示出了根据至少一个实施例的图形多处理器;
[0031]图18示出了根据至少一个实施例的多图形处理单元(GPU)系统;
[0032]图19示出了根据至少一个实施例的图形处理器;
[0033]图20示出了根据至少一个实施例的处理器的微架构;
[0034]图21示出了根据至少一个实施例的深度学习应用处理器;
[0035]图22示出了根据至少一个实施例的示例神经元形态处理器;
[0036]图23和图24示出了根据至少一个实施例的图形处理器的至少部分;
[0037]图25示出了根据至少一个实施例的图形处理器核心的至少部分;
[0038]图26A

26B示出了根据至少一个实施例的图形处理器核心的至少部分;
[0039]图27示出了根据至少一个实施例的并行处理单元(“PPU”);
[0040]图28示出了根据至少一个实施例的通用处理集群(“GPC”);
[0041]图29示出了根据至少一个实施例的并行处理单元(“PPU”)的存储器分区单元;
[0042]图30示出了根据至少一个实施例的流式多处理器;
[0043]图31是根据至少一个实施例的用于高级计算管线的示例数据流程图;
[0044]图32是根据至少一个实施例的用于在高级计算管线中训练、适配、实例化和部署机器学习模型的示例系统的系统图;
[0045]图33A示出了根据至少一个实施例的用于训练机器学习模型的过程的数据流程图;以及
[0046]图33B是根据至少一个实施例的用于利用预训练的注释模型来增强注释工具的客户端

服务器架构的示例图示。
具体实施方式
[0047]在至少一个实施例中,如图1A所示,用户可以获得包括场景或其他感兴趣内容的图像100。在至少一个实施例中,该图像可对应于由物理相机捕获的照片(或视频帧),或基于从虚拟相机的视角由图像生成过程生成的图像。在至少一个实施例中,可以具有包括在该图像中的或在图像中表示的一个或更多个对象,用户希望增强或以其他方式修改该图像的一个或更多个对象。在至少一个实施例中,这可以包括一个或更多个对象,诸如枪,在本例中是步枪102,用户希望用不同类型的枪取代步枪102。在至少一个实施例中,用户能够提供单独的参考图像110,在本例中包含手枪112的表示,用户更喜欢使其包含在该图像中。在至少一个实施例中,用户也能够以其他方式指定该对象,诸如通过从菜单中选择或者进入文本字段。在至少一个实施例中,在此提出的过程可以识别参考图像110中的对象的类型,在此情况下可对应于“枪”或“武器”,并且可以识别在输入图像100中出现“枪”或“武器”类型的对象的任何情形。在至少一个实施例中,这样的过程随后可以产生如在图1B中所示的
包含该场景中的其他对象的输出图像120,同时修改在此图像中表示的枪的类型。在至少一个实施例中,这样的过程可以尝试包括与在参考图像110中提供的相同的手枪,或者可以包括“手枪”类型或子类型的另一个对象。
[0048]在至少一个实施例中,这样的过程可以根据参考图像110仅修改该武器。然而,在至少一个实施例中,这将导致图1A中所示的步枪子弹104在输出图像120中与手枪一起表示,这可能不会是逼真的,因为一个人不能把步枪子弹装入标准手枪。在至少一个实施例中,本文所述的过程可以确定图像中的对象之间的关系,并且可以基于这些关系对一个或更多个对象进行修改。在至少一个实施例中,这可以包括确定输入图像100中的步枪对象与一个或多个步枪子弹对象或步枪弹药对象有关。在至少一个实施例中,当用户请求增强或修改该步枪对象以代替表示手枪对象时,这样的过程可以至少部分地根据它们的关系来确定这些步枪子弹对象也应该被修改。在至少一个实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种处理器,包括:一个或更多个电路,用于使用一个或更多个神经网络以至少部分地基于要对图像中的一个或更多个第二对象进行的修改来修改所述图像中的一个或更多个第一对象。2.根据权利要求1所述的处理器,其中所述一个或更多个电路进一步用于使用所述一个或更多个神经网络以在确定修改所述一个或更多个第一对象之前进一步确定所述一个或更多个第一对象和所述一个或更多个第二对象之间的至少一种关系,所述至少一种关系包括逻辑关系或物理关系中的至少一者。3.根据权利要求2所述的处理器,其中所述一个或更多个电路进一步用于使用所述神经网络来识别所述图像中对象的特征、位置、和状态信息,所述对象包括所述一个或更多个第一对象和所述一个或更多个第二对象,并且其中所述一个或更多个神经网络包括多个变分自动编码器(VAE),所述多个变分自动编码器被训练以将所述特征、位置、状态信息和至少一种关系编码到隐空间中。4.根据权利要求3所述的处理器,其中所述一个或更多个神经网络包括生成式对抗网络(GAN),所述生成式对抗网络用于基于所述图像的图像内容来生成输出图像,并且使用所述隐空间作为约束以使得所述输出图像包括对所述一个或更多个第一对象和所述一个或更多个第二对象的所述修改。5.根据权利要求1所述的处理器,其中所述一个或更多个电路进一步用于使用所述神经网络以在对所述一个或更多个第一对象和所述一个或更多个第二对象进行修改后检测所述图像中的一个或更多个异常,并且使得所述图像被重新生成以尝试去除所述一个或更多个异常。6.根据权利要求1所述的处理器,其中要对所述一个或更多个第二对象进行的所述修改包括对对象位置、方向或状态中的至少一者的修改,并且其中所述修改至少部分地基于输入参考图像来确定,所述输入参考图像包括与所述一个或更多个第二对象类似的至少一个对象分类中的至少一个对象。7.一种系统,包括:一个或更多个处理器,用于使用一个或更多个神经网络以至少部分地基于要对图像中的一个或更多个第二对象进行的修改来修改所述图像中的一个或更多个第一对象。8.根据权利要求7所述的系统,其中所述一个或更多个处理器进一步用于使用所述一个或更多个神经网络以在确定修改所述一个或更多个第一对象之前进一步确定所述一个或更多个第一对象和所述一个或更多个第二对象之间的至少一种关系,所述至少一种关系包括逻辑关系或物理关系中的至少一者。9.根据权利要求8所述的系统,其中所述一个或更多个处理器进一步用于使用所述神经网络来识别所述图像中对象的特征、位置和状态信息,所述对象包括所述一个或更多个第一对象和所述一个或更多个第二对象,并且其中所述一个或更多个神经网络包括多个变分自动编码器(VAE),所述多个变分自动编码器被训练以将所述特征、位置、状态信息和至少一种关系编码到隐空间中。10.根据权利要求9所述的系统,其中所述一个或更多个神经网络包括生成式对抗网络(GAN),所述生成式对抗网络用于基于所述图像的图像内容来生成输出图像,并且使用所述隐空间作为约束以使得所述输出图像包括对所述一个或更多个第一对象和所述一个或更
多个第二对象的所述修改。11.根据权利要求7所述的系统,其中所述一个或更多个处理器进一步用于使用所述神经网络以在对所述一个或更多个第一对象和所述一个或更多个第二对象进行修改后检测所述图像中的一个或更多个异常,并且使得所述图像被重新生成以尝试去除所述一个或更多个异常。12.根据权利要求7所述的系统,其中要对所述一个或更多个第二对象进行的所述修改包括对对象位置、方向或状态中的至少一者的修改,并且其中所述修改至少部分地基于输入参考图像来确定,所述输入参考图像包括与所述一个或更多个第二对象类似的至少一个对象分类中的至少一个对象。13.一种方法,包括:使用一个或更多个神经网络以至少部分地基于要对图像中的一个或更多个第二对象进行的修改来修改所述图像中的一个或更多个第一对象。14.根据权利要求13所述的方法,进一步包括:在确定修改所述一个或更多个第一对象之前,确定所述一个或更多个第一对象和所述一个或更多个第二对象之间的至少一种关系,所述至少一种关系包括逻辑关系或物理关系中的至少一者。15.根据权利要求14所述的方法,进一步包括:识别所述图像中的对象的特征、位置、和状态信息,所述对象包括所述一个或更多个第一对象和所述一个或更多个第二对象,并且其中所述一个或更多个神经网络包括多个变分自动编码器(VAE),所述多个变分自动编码器被训练以将所述特征、位置、状态信息和至少一种关系编码到隐空间中。16.根据权利要求15所述的方法,其中所述一个或更多个神经网络包括生成式对抗网络(GAN),所述生成式对抗网络用于基于所述图像的图像内容来生成输出图像,并且使用所述隐空间...

【专利技术属性】
技术研发人员:S
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1