【技术实现步骤摘要】
一种图像持续学习识别方法、装置及设备
[0001]本专利技术属于机器学习领域,具体涉及图像处理与模式识别领域。
技术介绍
[0002]在进行图像识别任务时,传统的做法是为每一个任务训练一个深度神经网络模型进行逐个击破。此做法的缺陷是:
①
把每个任务割裂开,不能做到触类旁通(协同学习和迁移学习)。
②
会造成计算和存储资源紧张问题,假如有1000个任务,则需要训练和存储1000个模型。针对上述问题,有人提出了多任务深度学习模型利用一个模型同时进行多任务协同学习。但由于不同任务识别的难易程度不一样,一旦训练样本不足或损失函数设计不合理,容易发生较难分类的任务会拖累较容易分类的任务。另外,由于收集单任务训练样本比多任务训练样本容易,阻碍了多任务深度学习的应用。另外一方面,多任务学习并没有模仿人类持续学习的方式(学习新任务时利用旧任务知识进行迁移学习),导致其学习能力和应用场景受阻。
[0003]为了将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中,学者们研究出了迁移学习技术。即,从相关领域中迁移标注数据或者知识结构、完成或改进目标领域或任务的学习效果。随着对新任务学习不断地积累知识,传统的迁移学习将旧任务的知识迁移到新任务只是为了更好识别新任务而不关心旧任务。因此,传统的迁移学习会导致“灾难性遗忘”问题,即学习了新任务,忘记了旧任务。
技术实现思路
[0004]为了解决上述问题,本专利技术提出一种图像持续学习识别方法、装置及设备,利用该持续学习方法
【技术保护点】
【技术特征摘要】
1.一种图像持续学习识别方法,其特征在于,包括特征提取共享和知识迁移学习两大步骤,其中特征提取共享包括如下子步骤:S11,无监督预训练,采用自编码网络中的无监督重构预训练方法训练得到特征提取共享模型;S12,维护更新特征提取共享模型,使用BP反向传播算法对S11步骤生成的特征提取共享模型进行微调更新;S13,使用更新后的特征提取共享模型对待识别图像X
(t)
进行逐层特征提取得到图像特征H
(t)
,t表示第t个识别任务;S14,对当前任务的特征H
(t)
进行分解求解模型参数θ
(t)
以及知识库矩阵L;知识迁移学习包括知识仓库构建、知识迁移、模型学习、更新知识库和接受反馈;其中知识迁移中使用特征提取共享模块提取得到的特征H
(t)
构建新任务Z
(t)
=(H
(t)
,y
(t)
),y
(t)
为标签,随后对这组训练数据使用终身机器学习算法进行迁移学习,获得每个任务最终的图像识别学习模型f
(t)
(θ),并利用学习模型进行图像识别。2.如权利要求1所述的一种图像持续学习识别方法,其特征在于:步骤S1中,先随机初始化自编码网络模型参数W
l
,b
l
,利用无标签训练数据集X
u
,其中T
c
为待识别任务池个数,使用对比散度算法逐一自下而上进行优化更新参数W
l
,b
l
;对比散度算法首先使用吉布斯采样方法得到三次采样后的隐藏层特征H
l
‑
1,0
,H
l,0
,H
l
‑
1,1
,H
l,1
,然后通过W
l
←
W
l
+α(H
l
‑
1,0T
H
l,0
‑
H
l
‑
1,1T
H
l,1
)更新矩阵W
l
,更新b
l
,其中,T表示矩阵的转置,α为网络预训练的学习率,loss(
·
)为损失函数,表示偏导。3.如权利要求1所述的一种图像持续学习识别方法,其特征在于:步骤S12中,预训练完成后,开始连续地进行图像识别任务,设定当前即将识别的任务为任务t,任务t的表示为Z
(t)
=(X
(t)
,y
(t)
),其中,X
(t)
为任务t中图像样本,y
(t)
为其对应的标签;使用这些数据对S11步骤生成的特征提取共享模型进行微调更新,以避免由于出现分布漂移而影响特征的代表性,使用BP反向传播算法更新特征模型;先对输入X
(t)
自下而上计算一次每层特征,得到H
l
,l=1,2,3,
…
,n
L
,n
L
表示最大的层数,利用单任务学习器对(H
l
,y
(t)
)进行学习得到参数W0,应用BP算法对网络参数进行调优;对每一层l,计算∪
l
=H
l
*(1
‑
H
l
)∪
l+1
W
l+1T
,如果是最后一层,则∪
l
=H
l
*(1
‑
H
l
)y
(t)
,通过W
l
←
W
l
‑
α
t
H
l
‑
1T
∪
l
更新矩阵W
l
;考虑到避免任务负迁移的发生,模型的学习率α
t
是随任务相关性变化的,即对每一个任务t,计算它和前一个任务的相关性γ
t
:γ
t
=cos(θ
(t)
,θ
(t
‑
1)
)=cos(Ls
(t)
,Ls
(t
‑
1)
)=cos(s
(t)
,s
(t
‑
1)
)其中,为知识库矩阵,s
(t)
为性线组合系数;每一个任务模型的参数θ
(t)
由L矩阵里的某些列向量线性组合组成,即θ
(t)
=Ls
(t)
,cos()表示两个向量的余弦夹角,任务模型的划分超平面之间的夹角越小,任务相关性越高;进一步的,任务学习率α
t
由下式决定:α
t
=α
c
(γ
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。