一种在线类增量连续学习的对比多级回放方法及组件技术

技术编号:39820019 阅读:9 留言:0更新日期:2023-12-22 19:39
本发明专利技术涉及深度学习技术领域,提供一种在线类增量连续学习的对比多级回放方法及组件,根据人工智能的智能体模型的内存中的旧样本和接收的新样本确定通用经验回放约束;根据旧样本和新样本分别确定智能体模型的第一

【技术实现步骤摘要】
一种在线类增量连续学习的对比多级回放方法及组件


[0001]本专利技术涉及深度学习
,尤其涉及一种在线类增量连续学习的对比多级回放方法及组件


技术介绍

[0002]随着人工智能和计算机计算能力的显著发展,以
ANNs(Artificial Neural Networks
,人工神经网络
)
为代表的深度学习技术,得到全球广泛的关注和研究,并在各领域都取得了突破性进展

这些成绩得益于大量完整标注的训练数据和大规模计算昂贵的离线训练

在本质上,
ANNs
是一组可调节权重的人工神经节点的集合,每一层都学习把输入数据转化成更加抽象和复杂的表征,进而通过多层的非线性模型逐步提取原始数据更高级别的特征

但是,基于连接主义的
ANNs
在生物学意义上并不是足够智能的,面对外界环境的变化缺乏足够的适应性和灵活性
。ANNs
经过训练学习得到的复杂映射往往由输入决定并且是单一固定的,当数据分布随着环境不断变化或连续学习多个任务时,
ANNs
会忘记在先前任务中学到的知识,即发生“灾难性遗忘”。
因此,灾难性遗忘是目前的增量学习领域最为关注的问题,为了使得
ANNs
具有高的可塑性来学习新任务和高稳定性来保留过去的知识

[0003]作为一个更具挑战的学习范式,连续学习
(Continual Learning)r/>,又被称为终身学习
(Lifelong Learning)
,旨在从随时间变化的数据流中智能体模型灵活的在线不断地学习和累积新知识,同时保留过去学得的经验以克服智能体模型的“灾难性遗忘”。
连续学习作为实现人类水平智能的核心关键,近年来得到越来越多的科研机构和学者的研究

[0004]当前的学习设定通常简化了连续学习严苛的约束优化条件,允许在训练和评估过程中使用任务边界和任务身份等先验知识,这些信息在实际场景中往往是不存在的

此外,当前的基于回放的连续学习方法往往只从单一维度考虑内存样本的使用以缓解智能体模型的遗忘,并没有充分挖掘样本的潜力,进而忽略了很多可以进一步利用的有价值信息


技术实现思路

[0005]本专利技术提供一种在线类增量连续学习的对比多级回放方法及组件,用以解决现有技术中没有充分挖掘样本的潜力,忽略很多可以进一步利用的有价值信息的缺陷,在线类增量连续学习任务时,从多维度考虑内存样本的使用以缓解智能体模型的灾难性遗忘,在有限内存样本使用的情况下,利用对比多级回放约束来充分挖掘训练样本的潜力,可以从过去的样本中压榨出更多过去的知识来加强监督,能够显著提高智能体模型在连续学习任务上的性能

[0006]本专利技术提供一种在线类增量连续学习的对比多级回放方法,包括:根据人工智能的智能体模型的内存中的旧样本和接收的新样本确定通用经验回放约束;根据所述旧样本和所述新样本分别确定所述智能体模型的第一
logits
和第二
logits
,以根据所述第一
logits
和所述第二
logits
确定响应约束;根据所述通用经验回放约束和所述响应约束确定对比多级回放约束,进行马尔可夫决策过程的在线类增量连续学习

[0007]根据本专利技术提供的一种在线类增量连续学习的对比多级回放方法,所述根据人工智能的智能体模型的内存中的旧样本和接收的新样本确定通用经验回放约束,包括:将所述旧样本和所述新样本结合,得到结合后的样本集;根据所述结合后的样本集,基于第一预设公式确定经验回放约束;所述第一预设公式为:
[0008][0009]其中,
L
c
为所述经验回放约束,
B
avg
为所述结合后的样本集,
l
ce
为交叉墒损失函数,
E
(x,y)
为关于
x,y
的损失函数,
f(x

θ
)
为预测器,
x
为样本,
θ
为模型参数,
y
为样本标签

[0010]根据本专利技术提供的一种在线类增量连续学习的对比多级回放方法,所述根据所述旧样本和所述新样本分别确定所述智能体模型的第一
logits
和第二
logits
,以根据所述第一
logits
和所述第二
logits
确定响应约束,包括:将所述旧样本输入至所述智能体模型中,所述智能体模型的最后一个全连接层的对应输出为所述第一
logits
;将所述新样本输入至所述智能体模型中,所述智能体模型的最后一个全连接层的对应输出为所述第二
logits
;根据所述第一
logits
和所述第二
logits
,基于第二预设公式确定响应约束;所述第二预设公式为:
[0011][0012]其中,
L
log
为所述响应约束,
B
M
为所述旧样本,
E
(x,z)
为关于
x,z
的损失函数,
l2为
L2
损失函数,
ψ
(x

θ
)

logits
提取器,
x
为样本,
θ
为模型参数,
z
为内存中的
logits
信息

[0013]根据本专利技术提供的一种在线类增量连续学习的对比多级回放方法,所述根据所述通用经验回放约束和所述响应约束确定对比多级回放约束之前,还包括:利用对比目标最大化过去特征和当前特征的互信息,构建特征约束,以根据所述通用经验回放约束

所述响应约束和所述特征约束确定所述对比多级回放约束

[0014]根据本专利技术提供的一种在线类增量连续学习的对比多级回放方法,所述利用对比目标最大化过去特征和当前特征的互信息,构建特征约束,包括:基于对比思想和贝叶斯规则确定过去特征和当前特征之间的互信息;最大化所述互信息的下界,并基于第三预设公式,得到利用对比目标的特征约束;所述第三预设公式为:
[0015][0016]其中,
L
fea
为所述特征约束,
F
M
为所述过去特征,
F
C
为所述当前特征,
E
q
为关于
q
的损失函数,
q
为潜变量
η
的分布,为特征对来自联合分布,为特征对来自边缘分布的乘积,...

【技术保护点】

【技术特征摘要】
1.
一种在线类增量连续学习的对比多级回放方法,其特征在于,包括:根据人工智能的智能体模型的内存中的旧样本和接收的新样本确定通用经验回放约束;根据所述旧样本和所述新样本分别确定所述智能体模型的第一
logits
和第二
logits
,以根据所述第一
logits
和所述第二
logits
确定响应约束;根据所述通用经验回放约束和所述响应约束确定对比多级回放约束,进行马尔可夫决策过程的在线类增量连续学习
。2.
根据权利要求1所述的在线类增量连续学习的对比多级回放方法,其特征在于,所述根据人工智能的智能体模型的内存中的旧样本和接收的新样本确定通用经验回放约束,包括:将所述旧样本和所述新样本结合,得到结合后的样本集;根据所述结合后的样本集,基于第一预设公式确定经验回放约束;所述第一预设公式为:其中,
L
c
为所述经验回放约束,
B
avg
为所述结合后的样本集,
l
ce
为交叉墒损失函数,
E(x,y)
为关于
x,y
的损失函数,
f(x

θ
)
为预测器,
x
为样本,
θ
为模型参数,
y
为样本标签
。3.
根据权利要求1所述的在线类增量连续学习的对比多级回放方法,其特征在于,所述根据所述旧样本和所述新样本分别确定所述智能体模型的第一
logits
和第二
logits
,以根据所述第一
logits
和所述第二
logits
确定响应约束,包括:将所述旧样本输入至所述智能体模型中,所述智能体模型的最后一个全连接层的对应输出为所述第一
logits
;将所述新样本输入至所述智能体模型中,所述智能体模型的最后一个全连接层的对应输出为所述第二
logits
;根据所述第一
logits
和所述第二
logits
,基于第二预设公式确定响应约束;所述第二预设公式为:其中,
L
log
为所述响应约束,
B
M
为所述旧样本,
E
(x,z)
为关于
x,z
的损失函数,
l2为
L2
损失函数,
ψ
(x

θ
)

logits
提取器,
x
为样本,
θ
为模型参数,
z
为内存中的
logits
信息
。4.
根据权利要求1至3任一项所述的在线类增量连续学习的对比多级回放方法,其特征在于,所述根据所述通用经验回放约束和所述响应约束确定对比多级回放约束之前,还包括:利用对比目标最大...

【专利技术属性】
技术研发人员:路圣汉
申请(专利权)人:北京汉勃科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1