【技术实现步骤摘要】
一种基于迁移学习的神经网络权重初始化方法
本专利技术属于神经网络模型
,具体涉及一种基于知识迁移学习的神经网络权重初始化方法。
技术介绍
神经网络在近年来取得了长足的发展,尤其是在计算机视觉领域和自然语言处理领域,其很多表现都已经超越人类,然而神经网络过高的计算量和过大的训练要求给神经网络在实际应用中造成了很大的障碍。因此如何使得一个轻量级的模型表现的更好成为了一个需要解决的热点问题。过去的几年中,很多研究者提出了各种各样的方案来帮助神经网络可以达到一个更好的收敛效果。其主要包括以下几类,一类是基于知识蒸馏和知识迁移,试图通过对学生模型的训练过程中添加一些额外的损失函数,使用一个训练好的老师模型来帮助学生模型表现地更加出色,从而在不增加学生模型的复杂度基础上达到提升模型的性能。第二类则是基于模型的量化的剪枝,通过对神经网络的权重进行量化,把原本32位的加减法变成8位乃至1位的加减法,从而大大的减少了神经网络的权重复杂度。从而减少了计算量。剪枝则是对神经网络连接的一些连接边进行直接删除,然后评估剪枝对模型的精度带 ...
【技术保护点】
1.一种基于迁移学习的神经网络权重初始化算法,其特征在于,对于指定目标任务,设计复杂度较高的神经网络模型即老师模型,并对老师模型进行训练,训练完成后,利用产生的特征图指导学生模型的权重初始化;通过计算特征图之间的差异,或者将特征图映射到再生核希尔伯特空间中,计算其在再生核希尔伯特空间中的差异,采用核函数的方法简化计算;使简单的学生模型达到更好的权重初始化的效果,在权重初始化完成后,再对学生模型进行一般的训练,使得学生模型达到更好的全局收敛点,其性能更加优异;具体步骤如下:/n(1)对于特定的学习任务,拥有常规的损失函数和模型结构,首先,针对目标任务,设计老师模型,并使用常规 ...
【技术特征摘要】
1.一种基于迁移学习的神经网络权重初始化算法,其特征在于,对于指定目标任务,设计复杂度较高的神经网络模型即老师模型,并对老师模型进行训练,训练完成后,利用产生的特征图指导学生模型的权重初始化;通过计算特征图之间的差异,或者将特征图映射到再生核希尔伯特空间中,计算其在再生核希尔伯特空间中的差异,采用核函数的方法简化计算;使简单的学生模型达到更好的权重初始化的效果,在权重初始化完成后,再对学生模型进行一般的训练,使得学生模型达到更好的全局收敛点,其性能更加优异;具体步骤如下:
(1)对于特定的学习任务,拥有常规的损失函数和模型结构,首先,针对目标任务,设计老师模型,并使用常规损失函数训练老师模型;
(2)然后将训练好的老师模型的中间层输出导出,通过映射方式得到特征图;其中,映射方式有注意力迁移,或者是使用核函数映射到再生核希尔伯特空间中;
(3)设计一个结构较为简单的学生模型,其要求和老师模型具有相同的网络结构,即构成网络的基本网络层一致;当网络结构都是采用基于卷积层构成的串行连接网络时,老师模型的卷积层层数更多,特征图数量更多,学生模型的卷积层层数较少,特征图数量也较少;
(4)将步骤(2)中计算好的特征图,和学生模型使用相同方式映射得到的特征图之间的均方误差作为损失函数,来训练学生模型;在训练结束之后,得到的学生模型的权重是从老师模型中学习到知识来对学生模型的权重进行的调整,从而使学生模型的权重进行特定的初始化,这样就使得学生模型拥有逼近老师模型性能的能力;
(5)在初始化完成之后,再对学生模型使用常规的损失函数进行训练,得到一个可用的学生模型。
2.根据权利要求1所述的基于迁移学习的神经网络权重初始化算法,其特征在于,采用深度可分离卷积和批规范化作为老师模型的主要层,其特征层数为64,卷积核大小为3x3;其中,使用24个深度可分离卷积层作为老师模型的主干,将其分为了三部分,第一部分由10个深度可分离卷积层构成,第二部分由8个深度可分离卷积层构成,第三部分由6个深度可分离卷积层构成;模型的最后一层...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。