利用增强神经网络的转移学习制造技术

技术编号:27572427 阅读:13 留言:0更新日期:2021-03-09 22:20
本申请的各实施例涉及利用增强神经网络的转移学习。选择用于以具有子模型的增强模型配置进行操作的预训练模型。使用与第二域对应的训练数据来训练子模型,而预训练模型被训练以对第一域的数据进行操作。通过将从预训练模型中的层输出的第一特征图与从子模型中的层输出的第二特征图组合,用子模型对预训练模型进行增强以形成增强模型配置。组合形成组合特征图。组合特征图被输入到子模型中的不同层中。中。中。

【技术实现步骤摘要】
利用增强神经网络的转移学习


[0001]本专利技术总体上涉及用于训练神经网络的方法、系统和计算机程序产品。更具体地,本专利技术涉及一种用于利用增强神经网络来进行转移学习的方法、系统和计算机程序产品。

技术介绍

[0002]人工神经网络(ANN)(也简称为神经网络(NN))是由很多简单高度互连的处理元件(节点)组成的计算系统,这些处理元件(节点)通过其对外部输入的动态状态响应来处理信息。ANN是在哺乳动物大脑皮层的神经元结构之后被松散地建模但是规模要小得多的处理设备(算法和/或硬件)。大型ANN可能具有数百或数千个处理器单元,而哺乳动物的大脑具有数十亿个神经元,它们的整体交互和突发行为的大小对应地增加。
[0003]ANN用于多种数据分析目的,包括但不限于自然语言处理(NLP)、图像分析、各种类型的数据(诸如数字、文本、语音、图像或甚至噪声)的分类、以及很多其他应用。
[0004]前馈神经网络是其中单元之间的连接没有形成循环的人工神经网络。在机器学习中,卷积神经网络(CNN)是一种前馈人工神经网络,其中结点(神经元)之间的连接模式受到动物视觉皮层的组织的激发,动物视觉皮层的各个神经元被布置为响应于形成视野的重叠区域。卷积网络模仿生物过程,并且被配置为旨在在处理诸如数字图像等数据时使用最少预处理的多层感知器的变体。
[0005]循环神经网络(RNN)是一种人工神经网络,其旨在识别数据序列中的模式,诸如发源于传感器、股票市场和政府机构的文本、基因组、手写、口语或数字时间序列数据。RANN使用在网络拓扑中形成循环的递归连接(与“正常”信号流在相反方向上行进)。
[0006]深度神经网络(DNN)是在输入层与输出层之间具有多个隐藏单元层的人工神经网络。类似于浅层ANN,DANN可以对复杂的非线性关系进行建模。例如用于对象检测和解析的DNN架构生成合成模型,其中对象被表示为图像基元的分层合成。额外的层使得能够合成来自较低层的特征,以与类似地执行的浅层网络相比,具有用更少的单元来建模复杂数据的潜力。
[0007]通常,在ANN中,节点经由ANN层中的加权连接与一个或多个其他节点连接。通过将一个层的输出耦合到另一层的输入,可以将一个层连接到ANN中的另一层。
[0008]特征是被标识为在ANN的层中很重要的伪像或值。ANN的层在一个或多个输出通道上产生输出。ANN中的层输出特征图。特征图包括给定数目的通道上的每个通道的一组特征矩阵。特征矩阵包括一组特征,该组特征将作为数据矩阵被输出。特征矩阵包括与在矩阵中表示的对应特征相关联的偏差。权重或偏差是用于指示主题值的重要性的与主题值相关联的值。例如,相对较低加权的连接不如相对较高加权的连接重要,具有相对较高偏差的特征比具有相对较低偏差的另一特征更重要。
[0009]层接受由前一层作为输出而提供的特征图作为输入。接受层可以被配置为使得该层按原样接受提供层的特征图输出。替代地,接受层可以被配置为使得该层在诸如偏差改变、特征减少或在特征图被输入到接受层之前应用于特征图的其他操作等一些处理之后接
受提供层的特征图输出。
[0010]必须先对ANN进行训练,然后才能将ANN用于有用目的。除非在使用时明确区分,否则经训练ANN在本文中也称为“模型”。
[0011]ANN训练使ANN经受经训练模型将在其中操作的类型和主题的训练数据。训练包括调节节点间连接的权重、层间连接的权重、用于在层处进行摄取的特征矩阵配置、层的输出处的特征图配置、特征矩阵中的特征加权或偏差、各层的输入/输出处的通道偏差、以及很多其他操作。
[0012]训练ANN在计算上是昂贵的。在其他条件相同的情况下,使用大量训练数据而训练的ANN可以但不一定必须比使用少量数据而训练的ANN更为准确。训练ANN而消耗的计算量和时间不仅是训练数据的大小的因素,而且还是ANN的大小的因素。典型的ANN可以包括数百个层中的数万个节点,调谐这些节点会消耗大量时间和计算资源。

技术实现思路

[0013]说明性实施例提供了一种方法、系统和计算机程序产品。实施例选择用于以具有子模型的增强模型配置进行操作的预训练模型。实施例使用处理器和存储器,使用与第二域对应的训练数据来训练子模型,其中预训练模型被训练以对第一域的数据进行操作。实施例用子模型对预训练模型进行增强以形成增强模型配置。增强包括:将从预训练模型中的层输出的第一特征图与从子模型中的层输出第二特征图组合以形成组合特征图,以及将组合特征图输入到子模型中的不同层中。
[0014]实施例选择用于以具有子模型的增强模型配置进行操作的预训练模型。实施例使用处理器和存储器,使用与第二域对应的训练数据来训练子模型,其中预训练模型被训练以对第一域的数据进行操作。实施例用子模型对预训练模型进行增强以形成增强模型配置。增强包括调节从预训练模型中的层输出的第一特征图中的通道的关注值,其中调节引起第一特征图中的通道的第一特征矩阵相对于第一特征图中的不同通道的第二特征矩阵具有更大权重。增强还包括:将第一特征图中的通道的第一特征矩阵与从子模型中的层输出的第二特征图组合以形成组合特征图;以及将组合特征图输入到子模型中的不同层中。
[0015]实施例选择用于以具有子模型的增强模型配置进行操作的预训练模型。实施例使用处理器和存储器,使用与第二域对应的训练数据来训练子模型,其中预训练模型被训练以对第一域的数据进行操作。实施例用子模型对预训练模型进行增强以形成增强模型配置。增强包括:将通道选择参数应用于从预训练模型中的层输出的第一特征图中的第一通道,其中应用引起第一特征图中的第一通道的第一特征矩阵相对于第一特征图中的不同通道的第二特征矩阵具有更大权重;重新布置来自预训练模型中的层的输出的通道的子集,子集包括通道选择参数引起通道具有大于阈值权重的权重的通道,重新布置还根据相关性准则而将第二权重向量应用于通道的子集,子集包括第一通道作为最高加权通道;将第一特征图中的第一通道的第一特征矩阵与从子模型中的层输出的第二特征图组合以形成组合特征图;以及将组合特征图输入到子模型中的不同层中。
[0016]实施例包括一种计算机可用程序产品。该计算机可用程序产品包括计算机可读存储设备以及存储在该存储设备上的程序指令。
[0017]实施例包括一种计算机系统。该计算机系统包括处理器、计算机可读存储器和计
算机可读存储设备、以及存储在该存储设备上以供处理器经由存储器来执行的程序指令。
附图说明
[0018]被认为是本专利技术的特征的某些新颖特征在所附权利要求中提出。然而,在结合附图阅读说明性实施例的以下详细说明时,将能够最好地理解本专利技术本身及其优选使用方式、其他目的和优点,在附图中:
[0019]图1描绘了可以在其中实现说明性实施例的数据处理系统的网络的框图;
[0020]图2描绘了可以在其中实现说明性实施例的数据处理系统的框图;
[0021]图3描绘了可以通过说明性实施例来改进的现有技术的ANN训练方法的框图;
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:选择用于以具有子模型的增强模型配置进行操作的预训练模型;使用处理器和存储器,使用与第二域对应的训练数据来训练所述子模型,其中所述预训练模型被训练以对第一域的数据进行操作;以及用所述子模型对所述预训练模型进行增强以形成所述增强模型配置,所述增强包括:将从所述预训练模型中的层输出的第一特征图与从所述子模型中的层输出第二特征图组合以形成组合特征图;以及将所述组合特征图输入到所述子模型中的不同层中。2.根据权利要求1所述的方法,还包括:作为所述组合的一部分,将所述第一特征图和所述第二特征图级联。3.根据权利要求1所述的方法,还包括:调节原始特征图的维度,所述原始特征图是来自所述预训练模型中的所述层的原始输出,所述调节导致在所述组合中使用的所述第一特征图。4.根据权利要求3所述的方法,其中所述调节包括减小所述原始特征图的所述维度。5.根据权利要求4所述的方法,其中所述减小包括将1
×
1卷积应用于所述原始特征图。6.根据权利要求1所述的方法,其中所述子模型根据选自包括以下各项的一组因素中的至少一个因素而小于所述预训练模型:(i)所述子模型中的节点的总数,以及(ii)所述子模型中的层的总数。7.根据权利要求1所述的方法,其中所述子模型根据模型参数的总数而小于所述预训练模型。8.一种系统,包括处理器;以及与所述处理器通信的存储器,所述存储器包含程序指令,所述程序指令在由所述处理器执行时,被配置为引起所述处理器执行根据权利要求1至7中的任一项所述的方法的步骤。9.一种计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有利用其被体现的程序指令,所述程序指令由计算机可执行以引起所述计算机执行根据权利要求1至7中的任一项所述的方法的步骤。10.一种装置,包括用于执行根据权利要求1至7中的任一项所述的方法的步骤的装置。11.一种方法,包括:选择用于以具有子模型的增强模型配置进行操作的预训练模型;使用处理器和存储器,使用与第二域对应的训练数据来训练所述子模型,其中所述预训练模型被训练以对第一域的数据进行操作;以及用所述子模型对所述预训练模型进行增强以形成所述增强模型配置,所述增强包括:调节从所述预训练模型中的层输出的第一特征图中的通道的关注值,其中所述调节引起所述第一特征图中的所述通道的第一特征矩阵相对于所述第一特征图中的不同通道的第二特征矩阵具有更大权重;将所述第一特征图中的所述通道的第一特征矩阵与从所述子模型中的层输出的第二特征图组合以形成组合特征图;以及
将所述组合特征图输入到所述子模型中的不同层中。12.根据权利要求11所述的方法,还包括:调节从所述子模型中的层输出的第二特征图中的第二通道的第二关注值,其中所述调节所述第二关注值引起所述第二特征图中的所述第二通道的第一特征矩阵相对于所述第二特征图中的不同的第二通道的第二特征矩阵具有更大权重,并且其中所述组合将所述第二特征图中的所述第二通道的所述第一特征矩阵与所述第一特征图中的所述通道的所述第一特征矩阵组合。13.根据权利要求11所述的方法,还包括:将缩放因子应用于来自所述第一特征图和所述第二特征图中的至少一者的多个加权特征矩阵。14.根据权利要求11所述的方法,还包括:在输入所述组合特征图之前,将逐通道多路复用应用于所述组合特征图。15.根据权利要求11所述的方法,其中所述子模型根据选自包括以下各项的一组因素中的至少一个因素而小于所述预训练模型:(i)所述子模型中的节点的总数,以及(ii)所述子模型中的层的总数。16.根据权利要求11所述的方法,其中所述子模型根据模型参数的总数而小于所述预训练...

【专利技术属性】
技术研发人员:刘忠国姜范铢赵敏植
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1