当前位置: 首页 > 专利查询>辉达公司专利>正文

神经网络的小样本训练制造技术

技术编号:26067319 阅读:25 留言:0更新日期:2020-10-28 16:40
本发明专利技术公开了神经网络的小样本训练的技术。训练神经网络以识别图像的一个或更多个特征。使用少量原始图像训练神经网络,从中得出多个附加图像。通过在由自动编码器生成的潜在空间中旋转和解码图像的嵌入生成附加图像。通过旋转和解码生成的图像对于特征显示出与旋转量成比例的变化。

【技术实现步骤摘要】
神经网络的小样本训练
技术介绍
小样本学习(Few-shotlearning)是用于神经网络的训练技术,当难以获得足够数量的训练样本时,它可能是有用的。小样本学习被应用于分类问题,其中训练神经网络以将对象进行分类。但是,通常尚未应用小样本学习来解决回归问题(regressionproblems)。一个这样的问题涉及从包括人的表示的输入图像估计人的注视(gaze)的方向。附图说明图1示出了根据一个实施例的针对回归问题的小样本训练;图2示出了根据一个实施例的自动编码器的编码器部分的示例;图3示出了根据一个实施例的自动编码器的旋转和解码部分的示例;图4示出了根据一个实施例的用于训练自动编码器的示例过程;图5示出了根据一个实施例的用于神经网络的小样本训练以解决回归问题的示例过程;图6示出了根据一个实施例的并行处理单元(“PPU”)的示例;图7示出了根据一个实施例的通用处理集群(“GPC”)的示例;图8示出了根据一个实施例的存储器分区单元的示例;图9示出了根据一个实施例的流式多处理器的示例;以及图10示出了根据一个实施例的可以在其中实现各种示例的计算机系统。具体实施方式本文描述的是用于训练一个或更多个神经网络以识别图像中的特征的处理器、系统、方法和计算机程序产品的实施例。在一个示例实施例中,处理器被配置为基于神经网络识别图像内的一个或更多个特征,该神经网络使用从一个或更多个等变潜在空间(equivariantlatentspaces)中的编码点和旋转点生成的图像进行训练。所识别出的特征可以包括由神经网络计算的作为对回归问题的解决方案的数值估计。在一个实施例中,使用小样本学习训练神经网络以解决回归问题。如本文所使用的,小样本学习涉及使用相对较小的训练集来训练神经网络以解决回归问题。作为回归问题的一个示例,考虑训练神经网络以确定人正在看哪里。这可以被称为观察方向(viewdirection),并且可以被视作注视方向的合成,注视方向有时也称为注视角度(gazeangle)、头部旋转(headrotation)以及其他可能的因素。为了估计观察方向,可以训练神经网络以根据个人图像估计人的注视角度、人的头部旋转角度等。这些估计也可以被称为预测(predictions)。回归问题可能通常需要大量的训练集,包括涵盖可能值的整个范围的示例。但是,收集此类训练集可能很困难,尤其是在解决方案的准确性需要个性化训练的情况下。例如,关于眼睛注视问题,物理解剖学上的各种差异使通用解决方案变得困难。为了提高准确性,可以将训练个性化,但是从终端用户那里收集此类训练集可能会出现问题。然而,在本文描述的实施例中,小样本训练过程可以应用于解决这些和其他回归问题。例如,本文描述的技术的实施例可适用于医学诊断、音频或涉及关于特定个体的特征或特性的神经网络的训练的其他应用。在一个实施例中,基于由自动编码器生成的训练图像来训练神经网络以解决回归问题,该自动编码器被训练为将图像嵌入到等变潜在空间中。所生成的图像有时可以被称为幻觉(hallucinated)训练图像,因为它们是人为生成的。在此,训练图像可以基于相对少量的原始图像或真实图像。在某些情况和实施例中,使用少至一个真实图像。幻觉图像是通过训练自动编码器以生成训练图像而生成的,其中感兴趣的属性(例如,注视方向)跨一系列值连续变化。在一个实施例中,基于由自动编码器生成的代码来训练神经网络以解决回归问题,该自动编码器被训练为将图像嵌入到等变潜在空间中。可以旋转该原始代码以产生原始代码的变体。然后可以使用这些变体训练神经网络以解决回归问题。在一实施例中,教导自动编码器将图像的特征嵌入到一个或更多个等变潜在空间中。如本文所使用的,等变潜在空间具有以下属性:如果将图像的嵌入在等变潜在空间中旋转一个量r,则对经旋转的嵌入的解码将生成图像,其中感兴趣的属性变化的量与r成比例。图1示出了根据一个实施例的针对回归问题的小样本训练。在图1的示例100中,自动编码器102生成变体图像或变体代码以用于训练过程108。在一个实施例中,自动编码器102被预训练为将输入图像xa嵌入到围绕感兴趣的属性等变的潜在空间中。自动编码器102可以包括编码器104和解码器106。在本文中更详细地讨论了训练自动编码器的各个方面,包括关于图4。在一个实施例中,输入图像xa是在小样本训练过程中收集的相对少量的图像之一。收集输入图像xa,以便知道图像xa中显示的感兴趣属性的相应值。一旦被收集,编码器104将图像xa嵌入到等变空间。然后旋转该嵌入并解码多次,以生成幻觉图像幻觉图像显示出感兴趣的属性的宽范围的值。在实施例中,旋转和解码的过程使得图像跨所需范围显示感兴趣的属性的值,并且具有足够的粒度以在训练神经网络中使用以解决回归问题。在某些情况和实施例中,旋转和解码的每次迭代包括旋转的量,该旋转的量被选择为在幻觉图像中产生足够的细粒度差异以有效地训练网络。注意,尽管示例100描述了单个输入图像xa的使用,但是实施例可以采用更多数量的图像。例如,在一个实施例中,通过为每个90°象限收集一个“真实(real)”图像来获得感兴趣的属性的360°范围。该示例旨在说明潜在的实施例,而不是限制,并且因此不应以将本公开的范围限制为仅包括所提供的特定示例的那些实施例的方式来解释。在一个实施例中,幻觉图像每个均显示出感兴趣的属性的值,该值至少近似地与等变潜在空间中的旋转度成比例。这样允许将图像中的每个图像标记一个相应的属性值,以供在排水(draining)期间使用。在实施例中,图像的标记针对每次旋转进行更新和保存,并保留以用于随后的神经网络训练。在一个实施例中,幻觉图像在训练过程108中用于训练神经网络110以解决回归问题。例如,可以训练神经网络110以生成输出y,该输出y包括由输入图像xi显示的属性的估计值。神经网络110可以包括多种神经网络架构中的任何一种,并且可以采用多种训练技术中的任何一种,作为合适的给定所选网络架构和可用的所生成的图像集。在一个实施例中,替代生成幻觉图像或除了生成幻觉图像之外,还使用通过在等变潜在空间中旋转嵌入所生成的代码来训练神经网络110。例如,可以基于通过将xa的一个或更多个属性嵌入到潜在空间中并旋转该嵌入所生成的代码,来训练神经网络110以生成输出y,该输出y包括输入图像xi所显示的属性的估计值。图2示出了根据一个实施例的自动编码器的编码器部分的示例。特别地,示例200示出了针对估计个人正在看的方向的问题的自动编码器。将理解的是,提供示例200是为了说明本公开的潜在实施例的各个方面,并且因此不应以将本公开的范围限制为仅包括所提供的特定示例的那些实施例的方式来解释。在一个实施例中,一个或更多个自动编码器被训练以生成与眼睛注视问题相关的属性的等变潜在空间。注意,虽然图2描述了单个编码器202,但是实施例可以使用与所描述的编码器202类似的一个或更多个编码器。在一个实施例中,将图像xa提供给编码器2本文档来自技高网...

【技术保护点】
1.一种处理器,包括:/n一个或更多个算术逻辑单元(ALU),其被配置为至少部分地基于一个或更多个神经网络识别图像内的一个或更多个特征,所述一个或更多个神经网络使用所述一个或更多个特征的一个或更多个经编码的方向进行训练。/n

【技术特征摘要】
20190419 US 16/389,8321.一种处理器,包括:
一个或更多个算术逻辑单元(ALU),其被配置为至少部分地基于一个或更多个神经网络识别图像内的一个或更多个特征,所述一个或更多个神经网络使用所述一个或更多个特征的一个或更多个经编码的方向进行训练。


2.根据权利要求1所述的处理器,其中所述一个或更多个特征的识别包括形成数值估计。


3.根据权利要求1所述的处理器,其中所述一个或更多个经编码的方向用于生成用于训练所述一个或更多个神经网络的图像。


4.根据权利要求1所述的处理器,其中所述经编码的方向至少部分地基于将嵌入旋转一定量来生成。


5.根据权利要求4所述的处理器,其中基于经旋转的嵌入生成的图像对于所述一个或更多个特征中的至少一个特征显示出与所述嵌入的旋转的所述量成比例的变化。


6.根据权利要求1所述的处理器,其中经编码的方向至少部分地基于被训练为将输入映射到等变潜在空间中的点的编码器来生成。


7.一种系统,包括:
一个或更多个计算机,其包括一个或更多个处理器,用于训练一个或更多个神经网络,以识别图像中的一个或更多个特征,所述一个或更多个神经网络使用所述一个或更多个特征的一个或更多个经编码的方向进行训练。


8.根据权利要求7所述的系统,其中所述一个或更多个特征的识别包括形成数值估计。


9.如权利要求7所述的系统,其中所述一个或更多个经编码的方向是在潜在空间中的一个或更多个嵌入,所述潜在空间能够被旋转同时保留感兴趣的属性。


10.根据权利要求7所述的系统,其中所述经编码的方向至少部分地基于将嵌入旋转一定量来生成。


11.根据权利要求10所述的系统,其中基于经旋转的嵌入生成的图像对于所述一个或更多个特征中的至少一个特征显示出与所述嵌入的旋转的所述量成比例的变化。


12.根据权利要求7所述的系统,其中经编码的方向至少部分地基于被训练为将输入嵌入到等变潜在空间的编码器来生成。


13.根据权利要求12所述的系统,其中所述编码器至少部分地基于将被预测为显示出所述一个或更多个特征中的至少一个特征的值的第一图像与已知为显示出所述值的第二图像进行比较来训练,其中所述第一图像通过旋转和解码所述潜在空间中的嵌入来生成。


14.一种机器可读介质,其上存储有指...

【专利技术属性】
技术研发人员:S·帕克S·D·梅洛P·莫尔恰诺夫U·伊克巴尔J·考茨
申请(专利权)人:辉达公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1