当前位置: 首页 > 专利查询>辉达公司专利>正文

用于训练神经网络模型的合成图像的生成制造技术

技术编号:21972816 阅读:24 留言:0更新日期:2019-08-28 01:45
本发明专利技术公开了用于训练神经网络模型的合成图像的生成。训练深度神经网络需要大量经标记的训练数据。常规地,通过收集手动标记的真实图像来生成经标记的训练数据,这非常耗时。使用域随机化技术生成自动标记的训练数据,而不是手动标记训练数据集。所生成的训练数据可用于训练神经网络以用于对象检测和分割(标记)任务。在一实施例中,所生成的训练数据包括通过渲染3D场景中的三维(3D)感兴趣对象而生成的合成输入图像。在一实施例中,所生成的训练数据包括通过在2D背景图像上渲染3D的感兴趣对象而生成的合成输入图像。3D的感兴趣对象是训练神经网络以检测和/或标记的对象。

Composite Image Generation for Training Neural Network Model

【技术实现步骤摘要】
用于训练神经网络模型的合成图像的生成优先权要求本申请要求2018年2月14日提交的序列号为62/630,722(案卷号为NVIDP1212+/17BL0293US01)、标题为“使用非现实合成数据训练计算机视觉系统的系统和方法(ASystemandMethodforTrainingaComputerVisionSystemUsingNon-RealisticSyntheticData)”的美国临时申请的优先权,其全部内容通过引用并入本文。
本公开涉及合成图像,并且更具体地涉及生成用于训练神经网络模型的合成图像。
技术介绍
训练深度神经网络需要大量经标记的训练数据。常规地,通过收集手动标记的真实图像来生成经标记的训练数据,手动标记非常耗时。需要解决与现有技术相关联的这些问题和/或其他问题。
技术实现思路
描述了用于生成自动经标记的训练数据的域随机化技术。生成的训练数据可用于训练神经网络以用于对象检测和分割任务。在一实施例中,所生成的训练数据包括通过渲染3D场景中的三维(3D)感兴趣对象而生成的合成输入图像。在一实施例中,所生成的训练数据包括通过在2D背景图像上渲染3D感兴趣对象而生成的合成输入图像。3D感兴趣对象是训练神经网络以检测和/或分割的对象。公开了一种用于生成用于训练神经网络模型的合成图像的方法、计算机可读介质和系统。渲染三维(3D)感兴趣对象以产生感兴趣对象的渲染图像,其中输入图像包括感兴趣对象的渲染图像和背景图像。计算与感兴趣对象相对应的任务专用训练数据,并且与感兴趣对象相对应的任务专用训练数据和输入图像作为测试对被包括在用于训练神经网络的训练数据集中。附图说明图1A示出了根据实施例的经标记的训练数据生成系统的框图。图1B示出了根据实施例的背景图像、感兴趣对象的渲染图像以及具有任务专用训练数据的输入图像。图1C示出了根据实施例的用于生成经标记的训练数据的方法的流程图。图2A示出了根据实施例的另一经标记的训练数据生成系统的框图。图2B示出了根据实施例的背景图像、经渲染的3D几何形状以及具有任务专用的训练数据的另一输入图像。图2C示出了根据实施例的用于生成经标记的训练数据的另一方法的流程图。图2D示出了根据实施例的神经网络模型训练系统的框图。图3示出了根据实施例的并行处理单元。图4A示出了根据实施例的图3的并行处理单元内的通用处理集群。图4B示出了根据实施例的图3的并行处理单元的存储器分区单元。图5A示出了根据实施例的图4A的流式多处理器。图5B是根据实施例的使用图3的PPU实现的处理系统的概念图。图5C示出了可以在其中实现各种先前实施例的各种架构和/或功能的示例性系统。图6是根据实施例的由图3的PPU实现的图形处理管线的概念图。具体实施方式训练深度神经网络需要大量经标记的训练数据。描述了用于生成自动标记的训练数据的域随机化技术。生成的训练数据可用于训练神经网络以用于对象检测和分割(segment)任务。域随机化通过以非照片般真实的方式随机扰动环境(例如,通过添加随机纹理)来迫使神经网络模型学习为专注于图像的基本特征而有意地放弃照片般真实感。更具体地,神经网络模型被训练为检测感兴趣对象并忽略图像中的其他对象。在一实施例中,所生成的训练数据用于训练用于对象检测任务的神经网络模型。在一实施例中,所生成的训练数据用于训练用于实例分割任务的神经网络模型。在一实施例中,所生成的训练数据用于训练用于语义分割任务的神经网络模型。图1A示出了根据实施例的经标记的训练数据生成系统100的框图。经标记的训练数据生成系统100包括图形处理单元(GPU)110、任务专用训练数据计算单元115和输入图像生成器120。尽管在处理单元的上下文中描述了经标记的训练数据生成系统100,但是GPU110、任务专用训练数据计算单元115和输入图像生成器120中的一个或更多个可以由程序、定制电路或由定制电路和程序的组合执行。例如,任务专用训练数据计算单元115可以由GPU110或附加GPU110、CPU(中央处理单元)或能够计算任务专用训练数据的任何处理器实现。在一实施例中,图3的并行处理单元(PPU)300被配置为实现经标记的训练数据生成系统100。此外,本领域普通技术人员将理解,执行经标记的训练数据生成系统100的操作的任何系统都在本公开的实施例的范围和精神内。GPU110接收3D合成对象(感兴趣对象)和渲染参数。GPU110根据渲染参数处理3D对象以生成3D对象的渲染图像,具体地说,是感兴趣对象的渲染图像。重要的是,渲染图像是合成的感兴趣对象的图像,而不是照片般真实的图像或从照片般真实的图像中提取的对象。渲染参数可指定3D场景中感兴趣对象的位置和/或取向(orientation),虚拟相机的位置和/或取向,一个或更多个纹理映射,包括颜色、类型、强度、位置和/或取向等的一个或更多个光线。在一实施例中,可以根据不同的渲染参数渲染感兴趣对象,以产生感兴趣对象的附加渲染图像。在一实施例中,可以根据相同或不同的渲染参数渲染一个或更多个不同的感兴趣对象,以产生感兴趣对象的附加渲染图像。任务专用训练数据计算单元115接收一个或更多个感兴趣对象的一个或更多个渲染图像,并计算任务专用训练数据。在一实施例中,任务是对象检测,并且训练数据计算单元115计算一个或更多个感兴趣对象的一个或更多个渲染图像的边界框。训练数据计算单元115可以从输入图像生成器120接收位置坐标,其定义感兴趣对象的每个渲染图像的输入图像中的位置。在一实施例中,任务专用训练数据包括包围感兴趣对象的每个渲染图像的边界框的位置和维度。在一实施例中,任务是分割,并且训练数据计算单元115确定感兴趣对象的每个渲染图像的对象标识符,并将任务专用训练数据计算为与输入图像对应的分割映射。对于语义分割,可以确定用于每个感兴趣对象的不同的对象标识符,并且分割映射包括输入图像,其中,由渲染图像覆盖的每个像素根据所确定的用于感兴趣对象的对象标识符进行着色。例如分割,可以确定用于输入图像中的渲染图像的每个实例的不同的对象标识符,并且分割映射包括输入图像,其中由渲染图像覆盖的每个像素根据所确定的用于该实例的对象标识符进行着色。输入图像生成器120接收背景图像和感兴趣对象的渲染图像。输入图像生成器120构造输入图像,该输入图像组合背景图像和一个或更多个感兴趣对象的一个或更多个渲染图像。输入图像与任务专用训练数据配对以产生用于所生成的经标记的训练数据的测试对,经标记的训练数据用于训练神经网络模型。经渲染的感兴趣对象是可以训练神经网络模型以检测和/或分割的3D合成对象。在一实施例中,输入图像生成器120将一个或更多个感兴趣对象的一个或更多个渲染图像与二维(2D)背景图像相组合或合成以产生输入图像。在一实施例中,背景图像是合成图像。在一实施例中,背景图像是照片般真实的图像。在一实施例中,3D场景由GPU110或另一处理器渲染以产生背景图像。在一实施例中,省略输入图像生成器120,并且GPU110在与背景图像对应的3D场景内渲染一个或更多个感兴趣对象,生成包括背景图像和一个或更多个感兴趣对象的一个或更多个渲染图像两者的输入图像。现在将根据用户的期望,阐述关于可以采用其实现前述框架的各种可选架构和特征的更多本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:渲染三维(3D)感兴趣对象以产生所述感兴趣对象的渲染图像,其中输入图像包括所述感兴趣对象的所述渲染图像和背景图像;计算与所述感兴趣对象相对应的任务专用训练数据;以及将与所述感兴趣对象相对应的所述任务专用训练数据和所述输入图像作为测试对包括在用于训练神经网络的训练数据集中。

【技术特征摘要】
2018.02.14 US 62/630,722;2019.01.24 US 16/256,8201.一种计算机实现的方法,包括:渲染三维(3D)感兴趣对象以产生所述感兴趣对象的渲染图像,其中输入图像包括所述感兴趣对象的所述渲染图像和背景图像;计算与所述感兴趣对象相对应的任务专用训练数据;以及将与所述感兴趣对象相对应的所述任务专用训练数据和所述输入图像作为测试对包括在用于训练神经网络的训练数据集中。2.根据权利要求1所述的计算机实现的方法,还包括接收用于渲染所述3D感兴趣对象的光的位置和取向。3.根据权利要求2所述的计算机实现的方法,还包括接收用于渲染所述3D感兴趣对象的光的颜色。4.根据权利要求2所述的计算机实现的方法,还包括接收用于渲染所述3D感兴趣对象的光的强度。5.根据权利要求1所述的计算机实现的方法,还包括渲染一个或更多个3D几何形状以产生一个或更多个经渲染的几何形状,其中所述一个或更多个经渲染的几何形状包括在所述输入图像中。6.根据权利要求5所述的计算机实现的方法,其中,从所述任务专用训练数据中省略所述一个或更多个经渲染的几何形状。7.根据权利要求5所述的计算机实现的方法,其中,渲染所述一个或更多个3D几何形状包括将纹理映射应用于所述一个或更多个3D几何形状中的至少一个3D几何形状。8.根据权利要求1所述的计算机实现的方法,还包括:渲染附加的3D感兴趣对象以产生附加的经渲染的感兴趣对象,其中所述附加的经渲染的感兴趣对象包括在所述输入图像中;以及计算对应于所述附加的感兴趣对象的附加任务专用训练数据,其中所述附加任务专用训练数据包括在所述测试对中。9.根据权利要求8所述的计算机实现的方法,其中,所述附加的经渲染的感兴趣对象遮挡所述经渲染的感兴趣对象的一部分,并且当所述部分大于预定阈值时,修改对应于所述感兴趣对象的所述任务特定训练数据。10.根据权利要求1所述的计算机实现的方法,其中渲染所述3D感...

【专利技术属性】
技术研发人员:J·特伦布莱A·普拉卡什M·A·布罗菲V·扬帕尼C·阿尼尔S·T·伯奇菲尔德T·H·多D·J·阿库纳·马雷罗
申请(专利权)人:辉达公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1