随时间推移使用深度学习网络的系统和方法技术方案

技术编号:28329202 阅读:27 留言:0更新日期:2021-05-04 13:11
本发明专利技术的方法涉及一种能够在深度学习背景下进行终生学习的系统。该系统包括深度学习网络,该深度学习网络被配置为处理输入数据集以及执行来自第一组任务中的一个或多个任务。作为示例,深度学习网络可为成像系统(诸如医学成像系统)的一部分,或者可用于工业应用中。该系统还包括学习单元,该学习单元通信地耦接到深度学习网络102并且被配置为修改深度学习网络以便使其能够执行第二任务列表中的一个或多个任务,而不会失去执行来自第一列表的任务的能力。

【技术实现步骤摘要】
【国外来华专利技术】随时间推移使用深度学习网络的系统和方法
技术介绍
本说明书的实施方案整体涉及深度学习网络,并且更具体地涉及用于终生学习的系统和方法。深度学习系统越来越多地用于解决现实世界问题,诸如,多维医学图像数据集的分析、海量生物数据中的知识发现、自适应语音识别、自适应智能预测和控制系统、能够适应和学习的基于人工智能的工业系统等。此类系统被配置为在特定背景中学习给定训练数据集。通常,深度学习网络是基于人工神经网络,并且学习算法是基于多层感知器(MLP)和反向传播技术。然而,已建立的神经网络和人工智能(AI)技术在应用于基于在线知识的学习时具有困难。在许多场景中,常规深度学习算法缺乏在部署之后连续学习的能力。在其他情况下,用来自同一任务的更多数据增量地调整深度学习网络或从旧数据集或新数据集学习新任务的要求未得到充分满足。照惯例,可采用来自先前任务的演练重放信息技术来为较新的场景重新训练神经网络。然而,此类技术需要过多且不断增加的数据存储容量,这在诸如医疗保健和工业应用的领域中可能是禁止的。进一步地,演练重放还需要更高的计算能力并且需要更长的训练持续时间来生成适应性学习网络。固定特征表示学习重新训练了分类层,而增量演进表示学习技术则针对的是用较新的任务和数据集来演进网络。然而,重新训练深度学习网络的朴素方法会导致失败,因为网络忘记了其最初被设计用于的先前任务。已尝试通过模拟生成旧数据表示来进行伪重放,以避免朴素学习的失败以及在不需要存储旧数据集的情况下模仿演练重放。然而,这些方法的性能仍与基线方法(完整的重新训练)相距甚远并且需要进一步改进。其他混合技术提出存储旧数据集的一部分并使用数据模型来生成伪数据以补充旧数据集的未被存储的部分。另外,使用正则化技术约束的神经网络与性能增强有限的常规技术和混合技术一起使用。然而,这些方法中没有一种方法在性能和/或灵活性方面完全令人满意。
技术实现思路
下文概述了与最初要求保护的主题范围相称的某些实施方案。这些实施方案并非旨在限制要求保护的主题的范围,而是这些实施方案仅旨在提供可能的实施方案的简要概述。实际上,本专利技术可包括多种形式,这些形式可类似于或不同于下文所述的实施方案。根据本技术的一个方面,公开了一种能够终生学习的系统。在某些具体实施中,该系统包括:深度学习网络,该深度学习网络被配置为执行来自第一任务列表的至少一个任务;和学习单元,该学习单元通信地耦接到深度学习网络并且被配置为更新深度学习网络以用于执行来自第二任务列表的至少一个任务。在一个实施方案中,学习单元包括数据集发生器,该数据集发生器通信地耦接到深度学习网络并且被配置为接收对应于第一训练数据集的第一组参数。在一个此类具体实施中,第一组参数包括第一特征提取器和第一分类器。数据集发生器还被配置为接收对应于第二组任务的第二训练数据集。数据集发生器也被配置为接收基于第一训练数据集和第一特征提取器确定的第一特征集。学习单元还包括特征变换器单元,该特征变换器单元通信地耦接到数据集发生器并且被配置为基于第一特征提取器和第二训练数据集来确定中间特征集。特征变换器单元还被配置为基于中间特征集、第一特征集和第二训练数据集来训练特征变换器。学习单元还包括深度学习网络发生器,该深度学习网络发生器通信地耦接到特征变换器单元。在一个实施方案中,提供了一种用于随时间推移更新深度学习网络的方法。根据一个此类实施方案,该方法包括从深度学习网络接收第一组参数的步骤。深度学习网络使用第一训练数据集来进行训练以执行第一组任务。第一组参数指定用于执行第一组任务的第一特征提取器和第一分类器中的一者或两者。还接收了对应于第一训练数据集的第一特征集以及包括第二组任务和第二训练数据集的输入。生成了第二组参数,该第二组参数指定第二特征提取器和第二分类器中的一者或两者,以供深度学习网络使用。使用第一组参数、输入和第一特征集生成了第二组参数。修改了深度学习网络以使用第二组参数,使得深度学习网络被训练为在不劣化的情况下执行来自第一组任务和第二组任务的任务。在又一实施方案中,提供了一种系统。根据该实施方案,该系统包括:深度学习网络,该深度学习网络最初使用第一训练数据集来训练以执行第一组任务;和学习单元,该学习单元与深度学习网络通信。学习单元包括:一个或多个存储器部件,该一个或多个存储器部件存储数据和计算机逻辑;和一个或多个处理器,该一个或多个处理器被配置为执行存储在一个或多个存储器部件上的计算机逻辑。计算机逻辑在被执行时致使要执行的行动包括:从深度学习网络接收第一组参数,其中第一组参数指定用于执行第一组任务的第一特征提取器和第一分类器中的一者或两者;接收对应于第一训练数据集的第一特征集;接收包括第二组任务和第二训练数据集的输入;生成第二组参数,该第二组参数指定第二特征提取器和第二分类器中的一者或两者,以供深度学习网络使用,其中该第二组参数是使用第一组参数、输入和第一特征集来生成的;以及修改深度学习网络以使用第二组参数,使得深度学习网络被训练为在不劣化的情况下执行来自第一组任务和第二组任务的任务。附图说明当参考附图阅读以下详细描述时,将更好地理解本专利技术实施方案的这些和其他特征和方面,其中附图中相同的符号在所有附图中表示相同的部分,其中:图1是根据本说明书的各方面的用于终生学习的系统的图解示意图;图2是根据本说明书的各方面的示出了终生学习的示意图;图3是根据本说明书的各方面的示出了特征变换的示意图;图4是根据本说明书的各方面的示出了特征变换技术的增强性能的曲线图;图5是根据本说明书的各方面的示出了通过特征变换实现的性能和信息容量折衷的表格;图6是根据本说明书的各方面的示出了图1的终生学习系统的性能的表格;图7是根据本说明书的各方面的用于终生学习的深度学习网络的一个示例的结构;图8是根据本说明书的各方面的用于终生学习系统的记忆增强神经网络(MaNN)的框图;图9是根据本说明书的各方面的示出了图1的终生学习系统的性能的表格;图10是根据本说明书的各方面的示出了图1的终生学习系统的性能的第一条形图;图11是根据本说明书的各方面的示出了图1的终生学习系统的性能的第二条形图;并且图12是根据本说明书的各方面的终生学习方法的流程图。具体实施方式如将在下文中详细描述的,呈现了用于深度学习网络的系统和方法。更具体地,本说明书中呈现的系统和方法涉及深度学习网络背景下的终生学习。进一步,所描述的系统和方法为终生学习框架提供了统一表示框架。如本文所用,短语“终生学习”是指学习技术,该学习技术用于利用最近获取的数据执行已经学习的任务或利用新近或先前获取的数据来获取执行较新任务(即,先前未学习的任务)的能力。短语“训练数据集”是指可用于实现学习技术的输入数据和对应输出数据的多个组合。短语“特征提取器”是指应用于输入数据向量上以确定对应特征向量的运算符。短语“分类器”或“神经网络分类器”是指应用于特征提取器的输出上以生成分类标签的运算符。短语“深度学习网络”可指基本文档来自技高网
...

【技术保护点】
1.一种用于随时间推移更新深度学习网络的方法,所述方法包括以下步骤:/n从深度学习网络接收第一组参数,其中所述深度学习网络使用第一训练数据集来进行训练以执行第一组任务,其中所述第一组参数指定用于执行所述第一组任务的第一特征提取器和第一分类器中的一者或两者;/n接收对应于所述第一训练数据集的第一特征集;/n接收包括第二组任务和第二训练数据集的输入;/n生成第二组参数,所述第二组参数指定第二特征提取器和第二分类器中的一者或两者,以供所述深度学习网络使用,其中所述第二组参数是使用所述第一组参数、所述输入和所述第一特征集来生成的;以及/n修改所述深度学习网络以使用所述第二组参数,使得所述深度学习网络被训练为在不劣化的情况下执行来自所述第一组任务和所述第二组任务的任务。/n

【技术特征摘要】
【国外来华专利技术】20180927 IN 201841036423;20190725 US 16/522,3671.一种用于随时间推移更新深度学习网络的方法,所述方法包括以下步骤:
从深度学习网络接收第一组参数,其中所述深度学习网络使用第一训练数据集来进行训练以执行第一组任务,其中所述第一组参数指定用于执行所述第一组任务的第一特征提取器和第一分类器中的一者或两者;
接收对应于所述第一训练数据集的第一特征集;
接收包括第二组任务和第二训练数据集的输入;
生成第二组参数,所述第二组参数指定第二特征提取器和第二分类器中的一者或两者,以供所述深度学习网络使用,其中所述第二组参数是使用所述第一组参数、所述输入和所述第一特征集来生成的;以及
修改所述深度学习网络以使用所述第二组参数,使得所述深度学习网络被训练为在不劣化的情况下执行来自所述第一组任务和所述第二组任务的任务。


2.根据权利要求1所述的方法,其中所述深度学习网络包括记忆增强神经网络。


3.根据权利要求2所述的方法,其中所述第一特征集被存储在所述记忆增强神经网络的存储器中。


4.根据权利要求1所述的方法,其中所述深度学习网络被训练为处理医学图像或工业图像中的一者或多者。


5.根据权利要求1所述的方法,其中所述第一组参数是通过使用所述第一训练数据集训练所述深度学习网络以执行所述第一组任务来生成。


6.根据权利要求1所述的方法,其中所述第二组参数使得所述深度学习网络能够在不劣化的情况下执行来自第一任务列表的所述任务。


7.根据权利要求1所述的方法,其中所述方法的所述步骤是在与所述深度学习网络相关联的学习单元上执行,并且使用所述学习单元的一个或多个处理器单元和至少一个存储器单元来实现。


8.根据权利要求7所述的方法,其中所述学习单元包括数据集发生器,所述数据集发生器被配置为接收至少所述第一组参数、所述第一特征集和所述第二训练数据集,以及基于所述第一特征提取器和所述第二训练数据集来生成中间特征集。


9.根据权利要求7所述的方法,其中所述学习单元包括特征变换器单元,所述特征变换器单元被配置为至少基于所述第二训练数据集来训练特征变换器。


10.根据权利要求9所述的方法,其中所述特征变换器是通过使模型损失成本函数最小化来训练。


11.根据权利要求7所述的方法,其中所述学习单元包括深度学习网络参数发生器,所述深度学习网络参数发生器被配置为至少基于特征变换器来生成所述第二组参数。
<...

【专利技术属性】
技术研发人员:拉胡尔·文卡塔拉马尼S·安那曼德拉哈里哈兰·瑞维享卡普拉撒度·苏达卡尔
申请(专利权)人:通用电气公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1