利用增强神经网络的转移学习制造技术

技术编号：27572427 阅读：13 留言：0更新日期：2021-03-09 22:20

本申请的各实施例涉及利用增强神经网络的转移学习。选择用于以具有子模型的增强模型配置进行操作的预训练模型。使用与第二域对应的训练数据来训练子模型，而预训练模型被训练以对第一域的数据进行操作。通过将从预训练模型中的层输出的第一特征图与从子模型中的层输出的第二特征图组合，用子模型对预训练模型进行增强以形成增强模型配置。组合形成组合特征图。组合特征图被输入到子模型中的不同层中。中。中。

全部详细技术资料下载

【技术实现步骤摘要】
利用增强神经网络的转移学习

[0001]本专利技术总体上涉及用于训练神经网络的方法、系统和计算机程序产品。更具体地，本专利技术涉及一种用于利用增强神经网络来进行转移学习的方法、系统和计算机程序产品。

技术介绍

[0002]人工神经网络(ANN)(也简称为神经网络(NN))是由很多简单高度互连的处理元件(节点)组成的计算系统，这些处理元件(节点)通过其对外部输入的动态状态响应来处理信息。ANN是在哺乳动物大脑皮层的神经元结构之后被松散地建模但是规模要小得多的处理设备(算法和/或硬件)。大型ANN可能具有数百或数千个处理器单元，而哺乳动物的大脑具有数十亿个神经元，它们的整体交互和突发行为的大小对应地增加。
[0003]ANN用于多种数据分析目的，包括但不限于自然语言处理(NLP)、图像分析、各种类型的数据(诸如数字、文本、语音、图像或甚至噪声)的分类、以及很多其他应用。
[0004]前馈神经网络是其中单元之间的连接没有形成循环的人工神经网络。在机器学习中，卷积神经网络(CNN)是一种前馈人工神经网络，其中结点(神经元)之间的连接模式受到动物视觉皮层的组织的激发，动物视觉皮层的各个神经元被布置为响应于形成视野的重叠区域。卷积网络模仿生物过程，并且被配置为旨在在处理诸如数字图像等数据时使用最少预处理的多层感知器的变体。
[0005]循环神经网络(RNN)是一种人工神经网络，其旨在识别数据序列中的模式，诸如发源于传感器、股票市场和政府机构的文本、基因组、手写、口语或数字时间序列数据。RANN使用在网络拓...

【技术保护点】

【技术特征摘要】
1.一种方法，包括：选择用于以具有子模型的增强模型配置进行操作的预训练模型；使用处理器和存储器，使用与第二域对应的训练数据来训练所述子模型，其中所述预训练模型被训练以对第一域的数据进行操作；以及用所述子模型对所述预训练模型进行增强以形成所述增强模型配置，所述增强包括：将从所述预训练模型中的层输出的第一特征图与从所述子模型中的层输出第二特征图组合以形成组合特征图；以及将所述组合特征图输入到所述子模型中的不同层中。2.根据权利要求1所述的方法，还包括：作为所述组合的一部分，将所述第一特征图和所述第二特征图级联。3.根据权利要求1所述的方法，还包括：调节原始特征图的维度，所述原始特征图是来自所述预训练模型中的所述层的原始输出，所述调节导致在所述组合中使用的所述第一特征图。4.根据权利要求3所述的方法，其中所述调节包括减小所述原始特征图的所述维度。5.根据权利要求4所述的方法，其中所述减小包括将1
×
1卷积应用于所述原始特征图。6.根据权利要求1所述的方法，其中所述子模型根据选自包括以下各项的一组因素中的至少一个因素而小于所述预训练模型：(i)所述子模型中的节点的总数，以及(ii)所述子模型中的层的总数。7.根据权利要求1所述的方法，其中所述子模型根据模型参数的总数而小于所述预训练模型。8.一种系统，包括处理器；以及与所述处理器通信的存储器，所述存储器包含程序指令，所述程序指令在由所述处理器执行时，被配置为引起所述处理器执行根据权利要求1至7中的任一项所述的方法的步骤。9.一种计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有利用其被体现的程序指令，所述程序指令由计算机可执行以引起所述计算机执行根据权利要求1至7中的任一项所述的方法的步骤。10.一种装置，包括用于执行根据权利要求1至7中的任一项所述的方法的步骤的装置。11.一种方法，包括：选择用于以具有子模型的增强模型配置进行操作的预训练模型；使用处理器和存储器，使用与第二域对应的训练数据来训练所述子模型，其中所述预训练模型被训练以对第一域的数据进行操作；以及用所述子模型对所述预训练模型进行增强以形成所述增强模型配置，所述增强包括：调节从所述预训练模型中的层输出的第一特征图中的通道的关注值，其中所述调节引起所述第一特征图中的所述通道的第一特征矩阵相对于所述第一特征图中的不同通道的第二特征矩阵具有更大权重；将所述第一特征图中的所述通道的第一特征矩阵与从所述子模型中的层输出的第二特征图组合以形成组合特征图；以及
将所述组合特征图输入到所述子模型中的不同层中。12.根据权利要求11所述的方法，还包括：调节从所述子模型中的层输出的第二特征图中的第二通道的第二关注值，其中所述调节所述第二关注值引起所述第二特征图中的所述第二通道的第一特征矩阵相对于所述第二特征图中的不同的第二通道的第二特征矩阵具有更大权重，并且其中所述组合将所述第二特征图中的所述第二通道的所述第一特征矩阵与所述第一特征图中的所述通道的所述第一特征矩阵组合。13.根据权利要求11所述的方法，还包括：将缩放因子应用于来自所述第一特征图和所述第二特征图中的至少一者的多个加权特征矩阵。14.根据权利要求11所述的方法，还包括：在输入所述组合特征图之前，将逐通道多路复用应用于所述组合特征图。15.根据权利要求11所述的方法，其中所述子模型根据选自包括以下各项的一组因素中的至少一个因素而小于所述预训练模型：(i)所述子模型中的节点的总数，以及(ii)所述子模型中的层的总数。16.根据权利要求11所述的方法，其中所述子模型根据模型参数的总数而小于所述预训练...

【专利技术属性】
技术研发人员：刘忠国，姜范铢，赵敏植，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人