【技术实现步骤摘要】
本说明书涉及计算机,尤其涉及一种预训练模型的微调方法及装置。
技术介绍
1、随着计算机技术的发展,使得深度学习在各种各样的服务场景中得到越来越广泛的应用。预训练完成的llm模型仅需要少量数据的微调,就能应用到各服务场景。
2、目前,预训练完成的llm模型通常不会进行开源,此外,即使是开源的预训练完成的llm模型,也需要极高的算力对llm模型进行微调。这就需要将自身的服务数据发送给拥有llm模型的企业或是拥有算力的企业。从而,导致泄露自身的服务数据中的隐私信息。
3、为了保护隐私信息,通常对服务数据中的隐私信息进行识别,并对这部分隐私信息进行替换,从而避免隐私信息的泄露。然而,这种方法无法准确的识别出所有的隐私信息,仍可能造成隐私信息的泄露。
4、因此,如何在对预训练完成的llm模型进行微调的过程中,避免隐私信息的泄露,则是一个亟待解决的问题。
技术实现思路
1、本说明书提供一种预训练模型的微调方法、装置、存储介质及电子设备,以在对预训练完成的llm模型进
...【技术保护点】
1.一种预训练模型的微调方法,预训练完成的LLM基础模型包括部署在数据持有方的编码层,以及部署在模型方的网络层;所述方法应用于所述数据持有方,所述方法包括:
2.如权利要求1所述的方法,所述模型方为部署了所述LLM基础模型的服务平台。
3.如权利要求1所述的方法,所述prompt文本模板包括若干prompt文本字符特征向量;
4.如权利要求1所述的方法,所述网络层包括:若干网络子层;所述待微调的参数还包括与所述若干网络子层一一对应的参数矩阵;所述参数矩阵为所述网络子层中包含的待微调的参数构成的矩阵;
5.如权利要求4所述
...【技术特征摘要】
1.一种预训练模型的微调方法,预训练完成的llm基础模型包括部署在数据持有方的编码层,以及部署在模型方的网络层;所述方法应用于所述数据持有方,所述方法包括:
2.如权利要求1所述的方法,所述模型方为部署了所述llm基础模型的服务平台。
3.如权利要求1所述的方法,所述prompt文本模板包括若干prompt文本字符特征向量;
4.如权利要求1所述的方法,所述网络层包括:若干网络子层;所述待微调的参数还包括与所述若干网络子层一一对应的参数矩阵;所述参数矩阵为所述网络子层中包含的待微调的参数构成的矩阵;
5.如权利要求4所述的方法,对所述llm基础模型进行微调训练采用的训练方法为基于lora低秩自适应的微调方法;所述参数矩阵包括:lora权重矩阵。
6.一种预训练模型的微调方法,预训练完成的llm基础模型包括部署在数据持有方的编码层,以及部署在模型方的网络层;所述方法应用于所述数据持有方,所述方法包括:
7.如权利要求6所述的方法,所述网络层包括:若干网络子层;所述...
【专利技术属性】
技术研发人员:马昱肖,
申请(专利权)人:蚂蚁区块链科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。