【技术实现步骤摘要】
本专利技术涉及人工智能,其特别涉及一种大模型蒸馏方法、装置和存储介质。
技术介绍
1、随着深度学习技术的不断发展,自然语言处理领域所应用的模型规模也在不断扩大。巨大的参数量为大模型提供了前所未有的性能,使其在少样本的情况下也能提供良好的服务;但同时,模型规模也对计算提出了极大挑战,如今,大规模语言模型往往具有千亿以上的参数量,由于大模型具有计算密集的特性,如何将其部署到真实的应用场景中,仍是不可忽视的难题。
2、当前,为了规避大模型的部署挑战,研究人员和企业通常选择部署较小的专用模型。这些较小规模的模型可来源于蒸馏的训练范式。蒸馏旨在使用较大的语言模型生成的标签来训练表现较差的较小模型,较大语言模型具有较强的知识涌现能力,其可以生成大量高质量标签的数据,以训练小模型。尽管该训练范式可以有效压缩使用模型的规模,但仍然面对很多挑战,一方面需要大量的训练数据来提升小模型的效果,同时需要有效激发和高效迁移大模型知识的方法,以及需要有效的学生模型训练机制,这给现有工作带来了困难。
技术实现思路
>1、为了解决本文档来自技高网...
【技术保护点】
1.一种大模型蒸馏方法,其特征在于,包括以下步骤:
2.如权利要求1所述的大模型蒸馏方法,其特征在于:所述步骤S2中的复杂化操作具体包括以下步骤:
3.如权利要求2所述的大模型蒸馏方法,其特征在于:所述步骤S21具体包括以下步骤:
4.如权利要求1所述的大模型蒸馏方法,其特征在于:所述步骤S4具体包括以下步骤:
5.如权利要求4所述的大模型蒸馏方法,其特征在于:所述步骤S42中的KL散度损失函数具体为:
6.如权利要求4所述的大模型蒸馏方法,其特征在于:所述步骤S43中的一般训练损失函数具体为:
...
【技术特征摘要】
1.一种大模型蒸馏方法,其特征在于,包括以下步骤:
2.如权利要求1所述的大模型蒸馏方法,其特征在于:所述步骤s2中的复杂化操作具体包括以下步骤:
3.如权利要求2所述的大模型蒸馏方法,其特征在于:所述步骤s21具体包括以下步骤:
4.如权利要求1所述的大模型蒸馏方法,其特征在于:所述步骤s4具体包括以下步骤:
5.如权利要求4所述的大模型蒸馏方法,其特征在于:所述步骤s42中的kl散度损失函数具体为:
6.如权利要求4所述的大模型蒸馏方法,其特征在于:所述步骤s43中的一般训练损失函数具体为...
【专利技术属性】
技术研发人员:周明,刘明童,张新宇,白承麟,韦松伟,王世宁,
申请(专利权)人:北京澜舟科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。