一种基于深度神经网络的样本增量学习方法技术

技术编号:33550729 阅读:12 留言:0更新日期:2022-05-26 22:46
本发明专利技术公开了一种基于深度神经网络的样本增量学习方法,涉及大数据智能分析技术领域,该方法在对新任务训练时,采用了对旧任务数据的知识蒸馏,这样做的目的时使得旧数据x

【技术实现步骤摘要】
一种基于深度神经网络的样本增量学习方法


[0001]本专利技术涉及大数据智能分析
,具体涉及一种基于深度神经网络的样本增量学习方法。

技术介绍

[0002]样本增量学习目前没有严格的定义,但其主要特征包含两点:(1)能够将已知类的新样本加入到已有的知识系统中。(2)能够使一个基本的知识系统逐步演化为更加复杂的系统。
[0003]对于样本增量学习,以往的工作主要采用各种非神经网络学习算法来实现,如支持向量机、决策树、贝叶斯网络等。随着深度神经网络的发展,利用深度神经网络来实现类似人类记忆的增量学习成为了一大热点,但目前的研究主要集中在类别增量学习上,而对样本增量学习的研究少之又少,在样本增量学习任务中的一大难点在于:模型需要在不从头训练的情况下不断学习已知类别的新数据,并在学习后使得模型对这组类别的识别率不断上升,且接近离线学习的识别性能。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的不足,提供一种基于深度神经网络的样本增量学习方法,包括以下步骤:
[0005]步骤1:采用CNN网络结构,为任务组中的各任务生成对应的任务数据集,对任务组中的基本任务开始训练生成模型,并得出新的任务数据集,判断新的任务数据集是否可用,若可用,则进入步骤2,若不可用,则进入步骤4;
[0006]步骤2:在新的任务数据集中,对每个类别的样本数据选择k个最优价值的样本数据进行保留,将保留的样本数据送入新任务中,进入步骤3;
[0007]步骤3:采用CNN网络结构,对加入样本数据后的新任务开始训练,生成下一任务对应的新任务数据集和模型,判断下一任务对应的新任务数据集是否可用,若可用,则返回步骤2,若不可用,则进入步骤4;
[0008]步骤4:停止训练,输出模型为最终学习结果。
[0009]优选的,所述步骤1中,任务组T={T1,T2,...,T
N
},任务组T中包含一批类别集为C的图像,每个类别包含大量样本,在开始训练前已获得的样本数据称为基本数据,基本任务为CNN网络结构对基本数据的训练,任务组中除基本任务外,其余任务为训练任务。
[0010]优选的,从当前任务开始学习到下一个任务开始学习的时间间隔称为样本增量学习的一个Session,在第N个Session中,模型只能访问当前任务T
N
的任务数据集D
N

[0011]优选的,所述CNN网络由一个特征提取器f(
·
)和一个全连接分类层C(
·
)组成,即p(x
i
)=C(f(x
i
)),损失函数采用交叉熵:
[0012][0013]其中N为样本总数,M为类别数量,y
ic
为符号函数,当样本x
i
的标签等于c时,y
ic
等于1,反之为0;p
c
(x
i
)表示当前模型对样本x
i
属于类别集C的预测概率,p(x
i
)为当前模型对样本x
i
的预测概率。
[0014]优选的,所述步骤2中,在新任务数据集中对每个类别的样本数据选择k个最优价值的样本数据进行保留时,还包括以下步骤:
[0015]步骤21:依据新模型、新任务数据集,获取当前新模型的特征提取器,采用特征提取器提取出新任务数据集中所有样本数据的特征;
[0016]步骤22:根据提取的多个样本数据特征,为每一类样本数据计算特征均值,并计算多个样本数据特征与特征均值的欧几里得距离;
[0017]步骤23:保留欧几里得距离最小的样本数据特征所对应的k个样本数据。
[0018]优选的,所述步骤21中,当任务T
j
‑1训练完成后,得到当前任务的模型:
[0019]p
j
‑1(
·
)=C
j
‑1f
j
‑1(
·
)
[0020]其特征提取器为f
j
‑1(
·
),C
j
‑1为当前任务的类别集。
[0021]优选的,所述步骤22中,特征均值的计算公式为:
[0022][0023]u
c
为特征均值,为类别集C的样本,n
c
为类别集C的样本数量,表示样本的特征,D
j
‑1为类别集C的数据集。
[0024]优选的,所述步骤23中,欧几里得距离的计算公式为:
[0025][0026]||
·
||表示欧几里得距离。
[0027]本专利技术的有益效果是:
[0028]该方法在对新任务训练时,采用了对旧任务数据的知识蒸馏,这样做的目的时使得旧数据x
k
在新模型的预测结果p
j
(x
k
)尽可能的接近其在旧模型上的预测结果p
j
‑1(x
k
),使模型在学习新数据的同时,保持对旧数据的识别能力,能够使模型保持对旧数据的预测结果,以缓解对旧知识的遗忘,防止模型偏向预测新数据。
附图说明
[0029]图1显示为本专利技术的流程图;
[0030]图2显示为本专利技术的学习框架;
[0031]图3显示为本专利技术的任务学习过程好保留样本选择步骤;
[0032]图4显示为本专利技术旧任务数据的知识蒸馏过程。
具体实施方式
[0033]下面结合本专利技术的附图1~4,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施。
[0034]在本专利技术的描述中,需要理解的是,术语“逆时针”、“顺时针”“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0035]如图1、图2所示,一种基于深度神经网络的样本增量学习方法,包括以下步骤:
[0036]步骤1:采用CNN网络结构,为任务组中的各任务生成对应的任务数据集,对任务组中的基本任务开始训练生成模型,并得出新的任务数据集,判断新的任务数据集是否可用,若可用,则进入步骤2,若不可用,则进入步骤4;
[0037]步骤2:在新的任务数据集中,对每个类别的样本数据选择k个最优价值的样本数据进行保留,将保留的样本数据送入新任务中,进入步骤3;
[0038]步骤3:采用CNN网络结构,对加入样本数据后的新任务开始训练,生成下一任务对应的新任务数据集和模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度神经网络的样本增量学习方法,其特征在于,包括以下步骤:步骤1:采用CNN网络结构,为任务组中的各任务生成对应的任务数据集,对任务组中的基本任务开始训练生成模型,并得出新的任务数据集,判断新的任务数据集是否可用,若可用,则进入步骤2,若不可用,则进入步骤4;步骤2:在新的任务数据集中,对每个类别的样本数据选择k个最优价值的样本数据进行保留,将保留的样本数据送入新任务中,进入步骤3;步骤3:采用CNN网络结构,对加入样本数据后的新任务开始训练,生成下一任务对应的新任务数据集和模型,判断下一任务对应的新任务数据集是否可用,若可用,则返回步骤2,若不可用,则进入步骤4;步骤4:停止训练,输出模型为最终学习结果。2.根据权利要求1所述的一种基于深度神经网络的样本增量学习方法,其特征在于,所述步骤1中,任务组T={T1,T2,...,T
N
},任务组T中包含一批类别集为C的图像,每个类别包含大量样本,在开始训练前已获得的样本数据称为基本数据,基本任务为CNN网络结构对基本数据的训练,任务组中除基本任务外,其余任务为训练任务。3.根据权利要求1所述的一种基于深度神经网络的样本增量学习方法,其特征在于,从当前任务开始学习到下一个任务开始学习的时间间隔称为样本增量学习的一个Session,在第N个Session中,模型只能访问当前任务T
N
的任务数据集D
N
。4.根据权利要求1所述的一种基于深度神经网络的样本增量学习方法,其特征在于,所述CNN网络由一个特征提取器f(
·
)和一个全连接分类层C(
·
)组成,即p(x
i
)=C(f(x
i
)),损失函数采用交叉熵:其中N为样本总数,M为类别数量,y
ic
为符号函数,当样本x
i
的标签等于c时,y
ic
...

【专利技术属性】
技术研发人员:姚光乐祝钧桃
申请(专利权)人:成都理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1