【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种模型训练的处理方法及装置。
技术介绍
1、当前,模型算法的不断进化,深度学习、强化学习等技术的不断成熟,使得模型的复杂度和规模也在不断变大。因此,大语言模型(英文:large language model,简称:llm)的引用越来越广泛。
2、随着llm进入开源阶段,越来越多的厂商对llm进行训练。由于代码开源、数据集开源,同时由于每次训练均要耗费大量的gpu资源和时间,因此,对于llm的训练成本非常高。
3、代码辅助开发是llm的一种典型应用。厂商通过集成开发环境,可实现代码辅助生成、代码评审、代码注释的工作。在实际应用中,每个厂商均存在大量需要保密的代码。因此,如何对llm进行私域训练是当前一个重要的问题。
4、目前,供应商可以为各厂商提供商用的原始llm,同时提供llm训练、推理部署的工具链。厂商对代码私域数据集进行整理,利用工具链对代码私域数据集进行训练。训练完成后,再利用工具链进行推理部署。厂商通过api接口访问经过私域训练后的llm,获得推理服务。
< ...【技术保护点】
1.一种模型训练的处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第一类型训练方式为参数预训练方式,所述第二类型训练方式为指令微调方式;
3.根据权利要求1所述的方法,其特征在于,所述对每个第二基础LLM分别进行模型能力评估,得到所述每个第二基础LLM的模型能力评分,具体包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述第二基础LLM进行公域能力评估,得到公域能力评分,具体包括:
5.根据权利要求3所述的方法,其特征在于,所述对所述第二基础LLM进行私域能力评估,得到私域能力
...【技术特征摘要】
1.一种模型训练的处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第一类型训练方式为参数预训练方式,所述第二类型训练方式为指令微调方式;
3.根据权利要求1所述的方法,其特征在于,所述对每个第二基础llm分别进行模型能力评估,得到所述每个第二基础llm的模型能力评分,具体包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述第二基础llm进行公域能力评估,得到公域能力评分,具体包括:
5.根据权利要求3所述的方法,其特征在于,所述对所述第二基础llm进行私域能力评估,得到私域能力评分,具体包括:
6.根据权利...
【专利技术属性】
技术研发人员:文晋阳,王鑫,宋涛,王玲,
申请(专利权)人:新华三人工智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。