一种可持续扩展专家的大模型多语言增强训练方法技术

技术编号:44468049 阅读:25 留言:0更新日期:2025-03-04 17:40
本发明专利技术提出了一种可持续扩展专家的大模型多语言增强训练方法,包括:步骤1,对待训练的大型语言模型LLM中的原FFN模块进行抽取并分割为若干个新的细粒度FFN模块,作为细粒度专家;步骤2,设置细粒度路由器,根据预设规则选择预设数量的新增细粒度专家,得到所述细粒度路由器的输出;步骤3,设置父级路由器,控制原FFN模块的输出与所述细粒度路由器的输出之间的权重,并计算最终的输出;步骤4,冻结原FFN模块,单独训练所述细粒度专家;步骤5,冻结原FFN模块,将所述新增细粒度专家加入并进行训练;步骤6,冻结所有其他参数,仅训练父级路由器;步骤7,不断重复步骤4至步骤6,实现可持续扩展专家的大模型多语言增强训练。

【技术实现步骤摘要】

本专利技术涉及一种大模型多语言增强训练方法,特别是一种可持续扩展专家的大模型多语言增强训练方法


技术介绍

1、本部分提供的仅仅是与本公开相关的背景信息,其并不必然是现有技术。

2、随着深度学习时代的到来,大型语言模型(llms),如gpt-4(参考:achiam j,adlers,agarwal s,et al.gpt-4technical report[j].arxiv preprint arxiv:2303.08774,2023.)和qwen(参考:bai j,bai s,chu y,et al.qwen technical report[j].arxivpreprint arxiv:2309.16609,2023.),依赖于大规模多语言数据集进行预训练,以掌握理解、生成和翻译各种人类语言的能力。尽管这些模型在多种语言上表现出色,但在一些低资源语言的处理上仍然存在困难。传统的模型训练方法主要采用监督学习,需提供大量标注数据,这在低资源语言的情况下难以实现。因此,学术界和工业界已探索多种方法以增强llms在低资源语言上的表现。

本文档来自技高网...

【技术保护点】

1.一种可持续扩展专家的大模型多语言增强训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种可持续扩展专家的大模型多语言增强训练方法,其特征在于,步骤2中所述的得到所述细粒度路由器的输出,包括:

3.根据权利要求2所述的一种可持续扩展专家的大模型多语言增强训练方法,其特征在于,步骤3中所述的计算最终的输出,包括:

4.根据权利要求3所述的一种可持续扩展专家的大模型多语言增强训练方法,其特征在于,步骤4中所述的单独训练所述细粒度专家,即使用预先收集的翻译数据,训练所述细粒度专家,包括:

5.根据权利要求4所述的一种可持续扩展专家...

【技术特征摘要】

1.一种可持续扩展专家的大模型多语言增强训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种可持续扩展专家的大模型多语言增强训练方法,其特征在于,步骤2中所述的得到所述细粒度路由器的输出,包括:

3.根据权利要求2所述的一种可持续扩展专家的大模型多语言增强训练方法,其特征在于,步骤3中所述的计算最终的输出,包括:

4.根据权利要求3所述的一种可持续扩展专家的大模型多语言增强训练方法,其特征在于,步骤4中所述的单独训练所述细粒度专家,即使用预先收集的翻译数据,训练所述细粒度专家,包括:

5.根据权利要求4所述的一种可持续扩展专家的大模型多语言增强训练方法,其特征在于,步骤5中所述的将所述新增细粒度专家加入并进行训练,包括:

6.根据权利要求5所述的一种可持续扩展专家的...

【专利技术属性】
技术研发人员:黄书剑王志军周昊黄鑫韩雪冯俊兰
申请(专利权)人:中国移动通信有限公司研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1