使用自举潜在表示的自监督表示学习制造技术

技术编号:35809987 阅读:22 留言:0更新日期:2022-12-03 13:29
一种计算机实现的训练神经网络的方法。该方法包括:利用目标神经网络处理训练数据项(例如图像)的第一变换视图以生成目标输出,利用在线神经网络处理训练数据项(例如图像)的第二变换视图以生成目标输出的预测,更新在线神经网络的参数以最小化目标输出的预测和目标输出之间的误差,以及基于在线神经网络的参数更新目标神经网络的参数。该方法可以有效地训练编码器神经网络,而不使用带标签的训练数据项,并且不使用对比损失,即不需要包括不同数据项的变换视图的“负样例”。。。

【技术实现步骤摘要】
【国外来华专利技术】使用自举潜在表示的自监督表示学习
[0001]相关申请的交叉引用
[0002]本申请要求2020年6月5日提交的美国临时申请第63/035,583号和2020年6月15日提交的美国临时申请第63/039,343号的优先权。该在先申请的公开内容被认为是本申请公开内容的一部分,并通过引用并入于此。

技术介绍

[0003]本说明书涉及使用机器学习模型的图像处理。
[0004]神经网络是采用一层或多层非线性单元对接收到的输入来预测输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一个层的输入,即下一个隐藏层或输出层。网络的每一层根据相应参数集的当前值从接收到的输入生成输出。

技术实现思路

[0005]本说明书描述了一种被实现为位于一个或多个位置的一个或多个计算机上的计算机程序的系统,该系统被配置成通过自监督学习过程来学习诸如图像之类的数据项的表示。
[0006]本公开的第一方面提供了一种计算机实现的训练神经网络的方法。该方法包括:用目标神经网络处理训练数据项(例如图像)的第一变换视图以生成目标输出,用在线神经网络处理训练数据项(例如图像)的第二变换视图以生成目标输出的预测,更新在线神经网络的参数以最小化目标输出的预测和目标输出之间的误差,以及基于在线神经网络的参数更新目标神经网络的参数。
[0007]术语“变换视图”是指例如图像之类的训练数据项的变换版本,并且用于将训练数据项经历了变换(例如图像变换)之后的训练数据项与原始(未变换的)训练数据项区分开。
[0008]神经网络的参数可以包括神经网络的权重,并且更新神经网络的参数可以包括调整权重的值。
[0009]更新目标神经网络的一个或多个参数可以包括用在线神经网络的参数的移动平均值来更新目标神经网络的一个或多个参数。移动平均值可以是指数移动平均值。
[0010]更新目标神经网络的一个或多个参数可以包括根据ξ

τξ+(1

τ)θ来确定目标神经网络的一个或多个参数的更新值,其中ξ代表目标神经网络的参数,θ代表在线神经网络的参数,并且τ是衰减率。衰减率可以是零和一之间的值。
[0011]在线神经网络和目标神经网络可以各自包括相应的编码器神经网络。由此,该方法还可以包括由每个编码器神经网络执行操作,这些操作包括接收例如图像之类的训练数据项的变换视图,以及处理例如图像之类的训练数据项的变换视图,以生成训练数据项的表示。
[0012]可选地,每个编码器神经网络可以包括残差神经网络,即在神经网络的一层或多层周围具有一个或多个残差或跳过连接的神经网络。
[0013]当在线神经网络已经被训练时,在线神经网络的编码器神经网络可以用于生成任何合适的输入数据项的表示,例如输入图像(的像素)的表示。如此生成的图像表示可以被其他下游任务使用。
[0014]例如,可以对图像表示执行图像分类操作。作为另一个示例,可以对图像表示执行图像分割操作。可选地或附加地,可以执行其他图像处理任务。
[0015]在线神经网络和目标神经网络可以各自包括相应的投影神经网络。该方法还可以包括由每个投影神经网络执行操作,所述操作包括接收例如图像之类的训练数据项的表示,以及处理例如图像之类的训练数据项的表示,以减少表示的维数。可选地,每个投影神经网络可以包括多层感知器。
[0016]投影神经网络的使用是可选的,因为在线神经网络可以直接预测由目标神经网络生成的例如图像之类的训练数据项的表示(而不是预测表示的投影)。然而,使用投影神经网络可以提供改进的性能。
[0017]在线神经网络可以包括预测神经网络。该方法还可以包括;由预测神经网络执行操作,所述操作包括接收例如图像之类的训练数据项的表示,,以及使用由预测神经网络的参数体现的回归模型来处理训练数据项的表示,以生成目标输出的预测。可选地,预测神经网络可以包括多层感知器。预测神经网络的使用不是必需的,但是可以帮助提高训练的稳定性。在实现方式中,目标神经网络不包括预测神经网络。
[0018]因此,在实现方式中,在线神经网络和目标神经网络可以具有相同的神经网络结构,但是具有不同的参数值,除了在神经网络之一中,具体是在线神经网络中的一个或多个附加处理阶段。
[0019]目标神经网络可以具有停止梯度(“sg”)。停止梯度防止反向传播到目标神经网络中,使得当误差被最小化时,不更新目标神经网络的参数。
[0020]该方法可以进一步包括将在线神经网络和/或目标神经网络的参数初始化为随机值。
[0021]该方法还可以包括将第一数据项变换(例如图像变换)应用于训练数据项(例如图像)以生成训练数据项的第一变换视图,以及将第二数据项变换(例如图像变换)应用于训练数据项以生成训练数据项(例如图像)的第二变换视图。第二数据项变换(例如图像变换)不同于第一数据项变换(例如图像变换)。
[0022]在训练数据项包括训练图像的情况下,第一图像变换和第二图像变换可以包括以下任意一个或多个的任意组合:随机裁剪;沿着水平和/或垂直轴翻转;颜色抖动;转换为灰度;高斯模糊;或者过度曝光(solarization)。可替换地或附加地,可以使用其他图像变换。通过使用训练图像的变换视图,在线神经网络基于同一训练图像的另一变换视图的目标网络表示进行学习。
[0023]尽管本公开关注其中将训练数据项(例如图像)的两个不同的变换视图输入到在线神经网络和目标神经网络的示例,但是在其他示例中,可以仅仅将训练数据项(例如图像)的变换视图输入到在线神经网络和目标神经网络之一。在这些示例中,将原始(未变换的)训练数据项,例如图像,输入到在线神经网络和目标神经网络中的另一个。
[0024]更新在线神经网络的一个或多个参数可以涉及使用机器学习优化器,例如基于随机性梯度下降,以最小化上述误差。更新在线神经网络的一个或多个参数可以包括对目标
输出的预测进行归一化;以及最小化目标输出的归一化预测和目标输出之间的平方误差。
[0025]可以针对包括多个训练数据项的一批中的每个训练数据项迭代地执行以下操作:用目标神经网络处理训练数据项的第一变换视图、用在线神经网络处理训练数据项的第二变换视图、更新在线神经网络的一个或多个参数,以及更新目标神经网络的一个或多个参数。可以在该批中的每个训练数据项被处理后更新在线神经网络和目标神经网络的参数。
[0026]本公开的另一方面提供了一种处理数据项(例如处理图像)的计算机实现的方法。该方法包括向在线神经网络(即向经训练的在线神经网络的一部分)提供输入数据项(例如图像),该在线神经网络已经根据本公开进行了训练;通过在线神经网络(即使用经训练的在线神经网络的一部分)处理输入数据项(例如图像);从在线神经网络(即从经训练的在线神经网络的一部分)将输入数据项的表示进行输出;以及处理输入数据项(例如图像)的表示。
[0027]在线神经网络可以包括残差神经网络,该残差神经网络被配置成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种训练神经网络的计算机实现的方法,该方法包括:利用目标神经网络处理训练数据项的第一变换视图,以生成目标输出;利用在线神经网络处理所述训练数据项的第二变换视图,以生成所述目标输出的预测;更新所述在线神经网络的一个或多个参数,以最小化所述目标输出的预测和所述目标输出之间的误差;和基于所述在线神经网络的参数更新所述目标神经网络的一个或多个参数。2.根据权利要求1所述的方法,其中,更新所述目标神经网络的一个或多个参数包括:利用所述在线神经网络的参数的移动平均值来更新所述目标神经网络的一个或多个参数。3.根据权利要求1或2所述的方法,其中,更新所述目标神经网络的一个或多个参数包括:根据ξ

τξ+(1

τ)θ来确定所述目标神经网络的所述一个或多个参数的更新值,其中,ξ代表所述目标神经网络的参数,θ代表所述在线神经网络的参数,并且t是衰减率。4.根据前述权利要求中任一项所述的方法,其中,所述在线神经网络和所述目标神经网络各自包括相应的编码器神经网络,并且其中,所述方法进一步包括由每个编码器神经网络执行包括以下的操作:接收所述训练数据项的变换视图;和处理所述训练数据项的变换视图以生成所述训练数据项的表示。5.根据权利要求4所述的方法,其中,每个编码器神经网络包括残差神经网络。6.根据权利要求4

5中任一项所述的方法,其中,所述在线神经网络和所述目标神经网络各自包括相应的投影神经网络,并且其中,所述方法进一步包括由每个投影神经网络执行包括以下的操作:接收所述训练数据项的表示;和处理所述训练数据项的表示以降低所述表示的维度。7.根据权利要求6所述的方法,其中,每个投影神经网络包括多层感知器。8.根据权利要求4

7中任一项所述的方法,其中,所述在线神经网络包括预测神经网络,其中,所述方法进一步包括通过所述预测神经网络执行包括以下的操作:接收所述训练数据项的表示;和使用由所述预测神经网络的参数体现的回归模型来处理所述训练数据项的表示,以生成所述目标输出的预测。9.根据权利要求8所述的方法,其中,所述预测神经网络包括多层感知器。10.根据前述权利要求中任一项所述的方法,进一步包括:将所述在线神经网络和/或所述目标神经网络的参数初始化为随机值。11.根据前述权利要求中任一项所述的方法,进一步包括:对所述训练数据项应用第一数据项变换,以生成所...

【专利技术属性】
技术研发人员:JBFL格里尔F施特鲁布F阿尔奇C塔莱克P里士满BA皮雷斯Z郭MG阿扎尔B皮奥特R穆诺斯M瓦尔科
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1