一种基于三元组多样范例集和梯度正则化的增量学习方法、计算机及存储介质技术

技术编号:30702936 阅读:62 留言:0更新日期:2021-11-06 09:42
本发明专利技术提出了一种基于三元组多样范例集和梯度正则化的增量学习方法、计算机及存储介质,属于人工智能领域。首先,得到的预测样本特征和真实标签,并输入损失函数进行反向传播更新模型参数;其次,计算批次数据的原型表示;再其次,计算每个类别应保存的正例样本的数量和反例样本的数量;再其次,更新已有类别的范例集应存储的范例的数量;再其次,对正例集合范例集中的样本进行打分,根据样本的分数构建当前类别范例集;再其次,随机取样获得重演样本集,然后对重演样本集和批次数据中的样本进行前向传播;再其次,计算三种损失函数的梯度;最后,对三种不同梯度进行正则化,得到最终的梯度值进行反向传播更新。本发明专利技术解决了灾难性遗忘的问题。忘的问题。忘的问题。

【技术实现步骤摘要】
一种基于三元组多样范例集和梯度正则化的增量学习方法、计算机及存储介质


[0001]本专利技术涉及一种增量学习方法,尤其涉及一种基于三元组多样范例集和梯度正则化的增量学习方法、计算机及存储介质,属于人工智能领域。

技术介绍

[0002]增量学习是人工智能领域中的一个重要学习训练方法,该方法的目标是能够在序列化输入训练数据的情况下,增量式地训练更新模型参数而不是从零开始训练,并且使得模型在学习新的知识的同时不会遗忘已学过的旧知识。
[0003]现有的基于重演的增量学习方法所采用的范例选择策略大部分类似于最近邻的思想,选取与类特征中心距离最近的样本,保证了每次选取的样本的代表性。但是这样的范例集的分布就不能很好的覆盖原训练样本的数据分布,所以在之后的重演训练中并不能很好地描述旧任务的优化空间分布。同时,现有的基于重演的增量学习方法大多将范例数据放入蒸馏损失函数中进行优化,使用的手段比较简单,并不能高效地利用范例数据来约束优化的方向与大小。

技术实现思路

[0004]在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0005]本专利技术提供了一种基于三元组多样范例集和梯度正则化的增量学习方法,包括以下步骤:
[0006]S1.将第一个任务的批次训练数据输入模型进行前向传播得到预测样本特征,将得到的预测样本特征和真实标签输入损失函数进行反向传播更新模型参数;
[0007]S2.完成第一个任务的批次数据的训练后,再次将第一个任务的批次训练数据输入模型,计算批次数据的原型表示;
[0008]S3.计算每个类别应保存的正例样本的数量和反例样本的数量;若当前处于第一个任务的训练阶段,执行步骤S5,若当前处于增量状态任务的训练阶段,执行步骤S4,若当前所有类别的准确度都计算完成,程序结束;
[0009]S4.更新已有类别的范例集应存储的范例的数量;
[0010]S5.将训练数据预测样本特征划分为正例集和反例集,对两个集合中的样本进行打分,根据样本的分数和每个类别应保存的正例样本的数量和反例样本的数量构建当前类别范例集;
[0011]S6.开始增量状态任务训练工作,对所有已知类别的范例集进行随机取样获得重演样本集,然后对重演样本集和批次数据中的样本进行前向传播;
[0012]S7.将批次数据输入损失函数计算损失函数值,得到三种损失函数的梯度;
[0013]S8.对三种不同梯度进行正则化,得到最终的梯度值进行反向传播更新,反向传播更新完成后,跳转到步骤S3。
[0014]优选的,步骤S1所述将第一个任务的批次训练数据输入模型进行前向传播得到特征,将得到的特征和真实标签输入损失函数进行反向传播更新模型参数的具体方法:
[0015]S11.随机初始化模型参数,开始第一个任务的训练,从数据集中随机选取一个批次的训练数据,一个批次包含10张图片,将每张图片转换为1
×
3072维度的张量后输入到特征提取器中,得到对应的1
×
100维度的特征,如以下公式所示:
[0016]V={φ(x
i
;θ)},i∈1,2,...,|B|
[0017]其中,V是包含了一个批次的图片对应的特征的集合,φ是特征提取器,x
i
是一个批次中的第i个样本的样本值,θ是特征提取器的参数,B代表了一个批次的数据,即10张图片,|B|代表了一个批次里的样本数量,| |代表了求第一范数的操作;
[0018]S12.完成特征提取工作之后,将步骤S11得到的特征集合V输入到分类器中,使用第一个任务的分类损失函数和随机梯度下降来优化模型,如以下公式所示:
[0019][0020]其中,L0表示第一个任务的分类损失函数,y表示真实标签,v表示样本特征,y
i
表示第i个样本的真实标签,v
i
表示第i个样本的样本特征,是分类器,log()代表了求对数的操作;所述模型包括特征提取器和分类器;
[0021]步骤S2所述完成第一个任务的批次数据的训练后,再次将第一个任务的批次训练数据输入模型,计算批次数据的原型表示的具体方法是:
[0022]S21.完成当前批次数据B的训练之后,再次将训练样本输入特征提取器中得到对应的样本特征,对当前批次数据B中所有属于c类别的样本特征求和并除以对应的样本特征的数量|B
c
|,得到c类别的原型表示,原型表示代表了对应类别在特征空间的中心向量,每个类别都有一个原型表示,如以下公式所示:
[0023][0024]其中,代表了通过当前批次计算得到的原型表示的集合,B
c
代表了当前批次数据B中所有属于c类别的样本,|B
c
|代表了当前批次数据B中所有属于c类别的样本的数量,φ是特征提取器,代表了当前批次数据B中属于c类别的第i个样本的样本值,n代表了当前批次数据B所包含的类别的数量;
[0025]S22.在步骤S21得到的原型表示的集合之后,更新对应类别c的原型表示,如以下公式所示:
[0026][0027]其中,代表了在步骤S21得到的原型表示的集合,代表了集合中属于c类别
的原型表示,代表了缓存中存储的原型表示的集合,代表了集合中属于c类别的原型表示,μ代表了一个平衡用的超参数,n代表了当前批次数据B所包含的类别的数量。
[0028]优选的,步骤S3所述计算每个类别应保存的正例样本的数量和反例样本的数量的具体方法是:
[0029]S31.计算每个类别的准确度;具体是:
[0030]将c类别的测试数据依次输入到模型中进行预测,将测试样本的预测值和测试样本的真实标签进行比对,两者一致则为分类正确,否则分类错误,累加分类正确的测试样本的数量,将其除以测试样本的数量,得到c类别的准确度acc
c
,如以下公式所示:
[0031][0032]其中,acc
c
代表了c类别的准确度,T
c
代表了第c类别的测试数据集,|T
c
|代表了集合T
c
所包含的测试样本的数量,φ是特征提取器,是分类器,代表了第c类的第i个测试样本的样本值,代表了第c类的第i个测试样本的真实标签,

代表了同或操作,两者一致则为1否则为0;
[0033]S32.按照步骤S31中的方法,依次计算所有已知类别的准确度,得到所有已知类别的准确度的集合acc,如以下公式所示:
[0034]acc={acc
i
},i∈1,2,...,n
[0035]其中,acc代表了所有已知的类别的准确度集合,acc
i
代本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于三元组多样范例集和梯度正则化的增量学习方法,其特征在于,包括以下步骤:S1.将第一个任务的批次训练数据输入模型进行前向传播得到预测样本特征,将得到的预测样本特征和真实标签输入损失函数进行反向传播更新模型参数;S2.完成第一个任务的批次数据的训练后,再次将第一个任务的批次训练数据输入模型,计算批次数据的原型表示;S3.计算每个类别应保存的正例样本的数量和反例样本的数量;若当前处于第一个任务的训练阶段,执行步骤S5,若当前处于增量状态任务的训练阶段,执行步骤S4,若当前所有类别的准确度都计算完成,程序结束;S4.更新已有类别的范例集应存储的范例的数量;S5.将训练数据预测样本特征划分为正例集和反例集,对两个集合中的样本进行打分,根据样本的分数和每个类别应保存的正例样本的数量和反例样本的数量构建当前类别范例集;S6.开始增量状态任务训练工作,对所有已知类别的范例集进行随机取样获得重演样本集,然后对重演样本集和批次数据中的样本进行前向传播;S7.将批次数据输入损失函数计算损失函数值,得到三种损失函数的梯度;S8.对三种不同梯度进行正则化,得到最终的梯度值进行反向传播更新,反向传播更新完成后,跳转到步骤S3。2.根据权利要求1所述的方法,其特征在于,步骤S1所述将第一个任务的批次训练数据输入模型进行前向传播得到特征,将得到的特征和真实标签输入损失函数进行反向传播更新模型参数的具体方法:S11.随机初始化模型参数,开始第一个任务的训练,从数据集中随机选取一个批次的训练数据,一个批次包含10张图片,将每张图片转换为1
×
3072维度的张量后输入到特征提取器中,得到对应的1
×
100维度的特征,如以下公式所示:V={φ(x
i
;θ)},i∈1,2,...,|B|其中,V是包含了一个批次的图片对应的特征的集合,φ是特征提取器,x
i
是一个批次中的第i个样本的样本值,θ是特征提取器的参数,B代表了一个批次的数据,即10张图片,|B|代表了一个批次里的样本数量,||代表了求第一范数的操作;S12.完成特征提取工作之后,将步骤S11得到的特征集合V输入到分类器中,使用第一个任务的分类损失函数和随机梯度下降来优化模型,如以下公式所示:其中,L0表示第一个任务的分类损失函数,y表示真实标签,v表示样本特征,y
i
表示第i个样本的真实标签,v
i
表示第i个样本的样本特征,是分类器,log()代表了求对数的操作;所述模型包括特征提取器和分类器;步骤S2所述完成第一个任务的批次数据的训练后,再次将第一个任务的批次训练数据输入模型,计算批次数据的原型表示的具体方法是:S21.完成当前批次数据B的训练之后,再次将训练样本输入特征提取器中得到对应的
样本特征,对当前批次数据B中所有属于c类别的样本特征求和并除以对应的样本特征的数量|B
c
|,得到c类别的原型表示,原型表示代表了对应类别在特征空间的中心向量,每个类别都有一个原型表示,如以下公式所示:其中,代表了通过当前批次计算得到的原型表示的集合,B
c
代表了当前批次数据B中所有属于c类别的样本,|B
c
|代表了当前批次数据B中所有属于c类别的样本的数量,φ是特征提取器,代表了当前批次数据B中属于c类别的第i个样本的样本值,n代表了当前批次数据B所包含的类别的数量;S22.在步骤S21得到的原型表示的集合之后,更新对应类别c的原型表示,如以下公式所示:其中,代表了在步骤S21得到的原型表示的集合,代表了集合中属于c类别的原型表示,代表了缓存中存储的原型表示的集合,代表了集合中属于c类别的原型表示,μ代表了一个平衡用的超参数,n代表了当前批次数据B所包含的类别的数量。3.根据权利要求2所述的方法,其特征在于,步骤S3所述计算每个类别应保存的正例样本的数量和反例样本的数量的具体方法是:S31.计算每个类别的准确度;具体是:将c类别的测试数据依次输入到模型中进行预测,将测试样本的预测值和测试样本的真实标签进行比对,两者一致则为分类正确,否则分类错误,累加分类正确的测试样本的数量,将其除以测试样本的数量,得到c类别的准确度acc
c
,如以下公式所示:其中,acc
c
代表了c类别的准确度,T
c
代表了第c类别的测试数据集,|T
c
|代表了集合T
c
所包含的测试样本的数量,φ是特征提取器,是分类器,代表了第c类的第i个测试样本的样本值,代表了第c类的第i个测试样本的真实标签,

代表了同或操作,两者一致则为1否则为0;S32.按照步骤S31中的方法,依次计算所有已知类别的准确度,得到所有已知类别的准确度的集合acc,如以下公式所示:acc={acc
i
},i∈1,2,...,n其中,acc代表了所有已知的类别的准确度集合,acc
i
代表了第i个类别的准确度,n代表了目前已知的类别的数量,目前已知的类别是指到当前时间节点,所有在模型上完成训练
的类别,随着训练的进行,数量n是逐渐上升的;S33.计算每个类别的范例集应存储范例的数量;具体是:由于范例集M是一个固定值,随着训练的进行,已知类别的数量k在逐渐上升,则可分配到已知类别的范例集的额定范例数量m会动态的变化,如以下公式所示:其中,M代表了所有类别的范例集应存储范例的数量,是个固定不变的数值,m代表了已知类别的范例集的额定范例数量,k代表了已知类别的数量,是个动态变化并且逐渐增大的数值;S34.将准确度集合acc与额定范例数量m相乘,得到c类别的范例集中应保存的正例数量和反例的数量对于分类正确的样本称其为正例,对于分类错误的样本称其为反例,如以下公式所示:例,如以下公式所示:其中,代表了第i个类别的范例集中应保存的正例的数量,r是正例的标记,代表了第i个类别的范例集中应保存的反例的数量,w是反例的标记,acc
i
代表了集合acc中第i个类别的准确度,代表了取上界的操作,代表了取下界的操作。4.根据权利要求3所述的方法,其特征在于,步骤S4所述更新已有类别的范例集应存储的范例的数量的具体方法是:减小已有类别的范例集所存储的样本的数量,范例集是一个有优先级的集合,排名高的样本距离中心向量最近,拥有最高的优先级,所以直接保留范例集中的前若干个范例即可,超出范围的直接舍弃,具体的计算方法如下:E
c
={e
i
},i∈1,2,...,m其中,E
c
代表了第c个已知类别的范例集,e
i
代表了第c个已知类别的范例集中的第i个范例。5.根据权利要求4所述的方法,其特征在于,步骤S5所述将训练数据预测样本特征划分为正例集和反例集,对两个集合中的样本进行打分,根据样本的分数和每个类别应保存的正例样本的数量和反例样本的数量构建当前类别范例集的具体方法是:S51.划分正例集和反例集;具体是:将当前任务训练数据输入模型中得到预测结果,将每个类别的预测结果数据集分为不相交的两部分,正例集和反例集,保留正例的样本值、真实标签和特征,并将三者以三元组的形式放入正例集,保留反例的样本值和真实标签,并将二者以二元组的形式放入反例集,如以下公式所示:如以下公式所示:
其中,P
ir
代表了第i个类别的正例集,P
iw
代表了第i个类别的反例集,代表分类正例样本的样本值,代表分类正例样本的真实标签,代表分类正例样本的特征,代表分类反例样...

【专利技术属性】
技术研发人员:孙广路吉宝伦梁丽丽李天麟朱素霞
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1