【技术实现步骤摘要】
本说明书一个或多个实施例涉及预训练模型,尤其涉及一种基于联邦学习的预训练模型微调方法及相关设备。
技术介绍
1、预训练模型,是一种由包含数百亿以上参数的深度神经网络构建的语言模型,使用自监督学习方法通过在庞大且多样化的公开数据集上进行预训练,掌握了诸多语言现象。为了将预训练模型应用于特定的推理任务,需要进一步通过与该推理任务相关的数据集对该预训练模型进行微调训练。
2、基于联邦学习对预训练模型进行提示微调是一种较为热门的微调方式,不仅保护了提示微调的各个参与方的数据隐私性,还可以利用不同来源的宽泛数据,增强了预训练模型的泛化能力。具体地,多个参与方(即客户端)分别在本地使用其持有的私有数据以及初始的全局提示参数对预训练模型进行微调训练,并将微调训练结果(例如各自微调后的提示参数)发送给服务端进行汇总,以得到更新的全局提示参数。然而,服务端在汇总各方微调后的提示参数时往往是直接计算多个提示参数的平均值,这极易导致原始prompt信息的损失,极大程度上降低了提示微调的效果,不满足用户的实际需求。
技术
本文档来自技高网...【技术保护点】
1.一种基于联邦学习的预训练模型微调方法,其特征在于,应用于与联邦学习中的服务端对应的第一计算设备,所述服务端持有待微调的预训练模型;联邦学习中的多个客户端持有与待微调的目标任务对应的私有数据;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述全局提示参数包括:用于描述与所述全局提示参数对应的提示文本中包含的多个词汇的语义信息的多个嵌入向量;所述私有提示参数包括:用于描述与所述私有提示参数对应的提示文本中包含的多个词汇的语义信息的多个嵌入向量;其中,所述提示文本用于输入至所
...【技术特征摘要】
1.一种基于联邦学习的预训练模型微调方法,其特征在于,应用于与联邦学习中的服务端对应的第一计算设备,所述服务端持有待微调的预训练模型;联邦学习中的多个客户端持有与待微调的目标任务对应的私有数据;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述全局提示参数包括:用于描述与所述全局提示参数对应的提示文本中包含的多个词汇的语义信息的多个嵌入向量;所述私有提示参数包括:用于描述与所述私有提示参数对应的提示文本中包含的多个词汇的语义信息的多个嵌入向量;其中,所述提示文本用于输入至所述预训练模型中,以辅助所述预训练模型执行所述目标任务。
4.根据权利要求1所述的方法,其特征在于,所述对所述多个私有提示参数进行聚合处理,得到更新的全局提示参数,包括:
5.根据权利要求1所述的方法,其特征在于,所述计算所述更新的全局提示参数与每个私有提示参数之间的相似度,并基于所述相似度对所述更新的全局提示参数进行调整,包括:
6.根据权利要求5所述的方法,其特征在于,所述调整目标包括:调整次数达到预设的次数阈值,或者,调整后的全局提示参数与每个私有提示参数之间的相似度均小于预设的相似度阈值。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述预训练模型包括预训练视觉语言clip模型,所述clip模型包括文本编码器;所述计算所述更新的全局提示参数与每个私有提示参数之间的相似度,包括:
8.根据权利要求7所述的方法,其特征在于,所述基于所述相似度对所述更新的全局提示参数进行调整,包括:<...
【专利技术属性】
技术研发人员:叶田地,李漓春,刘文炎,姚凯,殷山,
申请(专利权)人:蚂蚁区块链科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。