基于阶段训练和注意力融合的多出口架构自蒸馏方法技术

技术编号:42871838 阅读:18 留言:0更新日期:2024-09-27 17:32
本发明专利技术提供基于阶段训练和注意力融合的多出口架构自蒸馏方法,涉及知识蒸馏领域,包括:根据深度将教师模型划分为多个出口分支,其中,教师模型和学生模型用于图像分类,多个出口分支中,深度最深的分支为教师模型,深度最浅的出口分支为学生模型,其余的出口分支为中间模型;建立总损失函数;基于多个出口分支及注意力融合算法,训练学生模型,基于总损失函数,计算总损失,基于总损失,优化学生模型,直至学生模型满足预设条件,具有提高知识传递的效率,改进知识自蒸馏框架的性能的优点。

【技术实现步骤摘要】

本专利技术涉及知识蒸馏领域,特别涉及基于阶段训练和注意力融合的多出口架构自蒸馏方法


技术介绍

1、人工智能是当今世界上最具革命性和颠覆性的
然而,受限于较弱的计算能力和数据获取能力,早期的人工智能研究对改变人类社会的生产生活方式做出了相对有限的贡献。随着更强大的gpu计算能力的到来和大规模数据采集可行性的增加,神经网络开始发挥其真正的力量。自2012年以来,深度学习方法逐渐主导了各种计算机视觉和自然语言处理相关任务的精度基准,并已被广泛应用于图像分类、目标监控、机器翻译等领域,使得全球人工智能产业的发展达到了一个周期性的高峰。然而,这种算法性能的激增通常是以增加模型复杂度为代价的。一方面,高复杂性导致模型的总体响应时间较长,这在智能驾驶、智能医疗等对时效性要求较高的应用场景中难以被接受。另一方面,这些训练有素的模型带有大量冗余参数,这将远远超出边缘设备的有限计算资源容量。为了解决模型参数冗余的问题,研究人员围绕网络的轻量化进行了大量工作。现有的解决方案大致可以分为三类:参数剪枝、参数量化和知识蒸馏。参数剪枝的核心思想是通过开发不同的评估策略来删除本文档来自技高网...

【技术保护点】

1.基于阶段训练和注意力融合的多出口架构自蒸馏方法,其特征在于,包括:

2.根据权利要求1所述的基于阶段训练和注意力融合的多出口架构自蒸馏方法,其特征在于,所述根据深度将教师模型划分为多个分支,包括:根据卷积层数量将所述教师模型均分为多个出口分支。

3.根据权利要求2所述的基于阶段训练和注意力融合的多出口架构自蒸馏方法,其特征在于,基于所述多个出口分支及注意力融合算法,训练所述学生模型,包括:

4.根据权利要求3所述的基于阶段训练和注意力融合的多出口架构自蒸馏方法,其特征在于,在所述多个阶段,基于所述多个出口分支,对所述学生模型进行级联训练,包括:...

【技术特征摘要】

1.基于阶段训练和注意力融合的多出口架构自蒸馏方法,其特征在于,包括:

2.根据权利要求1所述的基于阶段训练和注意力融合的多出口架构自蒸馏方法,其特征在于,所述根据深度将教师模型划分为多个分支,包括:根据卷积层数量将所述教师模型均分为多个出口分支。

3.根据权利要求2所述的基于阶段训练和注意力融合的多出口架构自蒸馏方法,其特征在于,基于所述多个出口分支及注意力融合算法,训练所述学生模型,包括:

4.根据权利要求3所述的基于阶段训练和注意力融合的多出口架构自蒸馏方法,其特征在于,在所述多个阶段,基于所述多个出口分支,对所述学生模型进行级联训练,包括:

5.根据权利要求4所述的基于阶段训练和注意力融合的多出口架构自蒸馏方法,其特征在于,所述总损失函数为:

6.根据权利要求5...

【专利技术属性】
技术研发人员:张峰黄赛枭许剑
申请(专利权)人:国能大渡河大数据服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1