一种大模型蒸馏方法、装置和存储介质制造方法及图纸

技术编号:41503852 阅读:25 留言:0更新日期:2024-05-30 14:45
本发明专利技术涉及人工智能技术领域,特别涉及一种大模型蒸馏方法、装置和存储介质。本发明专利技术提供的大模型蒸馏方法构建教师模型和初始学生模型;获取初始指令进行指令复杂化操作得到复杂化指令;将复杂化指令输入教师模型生成答案,基于复杂化指令和答案构建指令‑答案训练数据;使用指令‑答案训练数据以数据蒸馏方法训练初始学生模型。本发明专利技术构建了一种面向大模型的知识蒸馏机制、一种指令复杂化方法和一种基于指令复杂度的反馈学习方法。通过上述方法迭代训练,可以将大模型所包含的知识与能力蒸馏至规模更小的专用模型,有效降低模型运行所需要的内存与计算资源,实现事半功倍的训练效果,为广大企业的自然语言处理业务提供支持。

【技术实现步骤摘要】

本专利技术涉及人工智能,其特别涉及一种大模型蒸馏方法、装置和存储介质


技术介绍

1、随着深度学习技术的不断发展,自然语言处理领域所应用的模型规模也在不断扩大。巨大的参数量为大模型提供了前所未有的性能,使其在少样本的情况下也能提供良好的服务;但同时,模型规模也对计算提出了极大挑战,如今,大规模语言模型往往具有千亿以上的参数量,由于大模型具有计算密集的特性,如何将其部署到真实的应用场景中,仍是不可忽视的难题。

2、当前,为了规避大模型的部署挑战,研究人员和企业通常选择部署较小的专用模型。这些较小规模的模型可来源于蒸馏的训练范式。蒸馏旨在使用较大的语言模型生成的标签来训练表现较差的较小模型,较大语言模型具有较强的知识涌现能力,其可以生成大量高质量标签的数据,以训练小模型。尽管该训练范式可以有效压缩使用模型的规模,但仍然面对很多挑战,一方面需要大量的训练数据来提升小模型的效果,同时需要有效激发和高效迁移大模型知识的方法,以及需要有效的学生模型训练机制,这给现有工作带来了困难。


技术实现思路>

1、为了解决本文档来自技高网...

【技术保护点】

1.一种大模型蒸馏方法,其特征在于,包括以下步骤:

2.如权利要求1所述的大模型蒸馏方法,其特征在于:所述步骤S2中的复杂化操作具体包括以下步骤:

3.如权利要求2所述的大模型蒸馏方法,其特征在于:所述步骤S21具体包括以下步骤:

4.如权利要求1所述的大模型蒸馏方法,其特征在于:所述步骤S4具体包括以下步骤:

5.如权利要求4所述的大模型蒸馏方法,其特征在于:所述步骤S42中的KL散度损失函数具体为:

6.如权利要求4所述的大模型蒸馏方法,其特征在于:所述步骤S43中的一般训练损失函数具体为:

7.如权利要求4所述...

【技术特征摘要】

1.一种大模型蒸馏方法,其特征在于,包括以下步骤:

2.如权利要求1所述的大模型蒸馏方法,其特征在于:所述步骤s2中的复杂化操作具体包括以下步骤:

3.如权利要求2所述的大模型蒸馏方法,其特征在于:所述步骤s21具体包括以下步骤:

4.如权利要求1所述的大模型蒸馏方法,其特征在于:所述步骤s4具体包括以下步骤:

5.如权利要求4所述的大模型蒸馏方法,其特征在于:所述步骤s42中的kl散度损失函数具体为:

6.如权利要求4所述的大模型蒸馏方法,其特征在于:所述步骤s43中的一般训练损失函数具体为...

【专利技术属性】
技术研发人员:周明刘明童张新宇白承麟韦松伟王世宁
申请(专利权)人:北京澜舟科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1