【技术实现步骤摘要】
文本处理方法、模型训练方法和系统
[0001]本申请涉及自然语言处理领域,具体而言,涉及一种文本处理方法、模型训练方法和系统。
技术介绍
[0002]联邦学习是一种可以在保护数据隐私的同时联合多个数据源进行训练的范式,已被广泛应用到金融、医疗和自然科学等领域。在联邦学习过程中,各个客户端利用本地数据进行本地孙连,并上传更新后的模型参数给服务器,由服务器将这些模型参数进行联邦聚合病更新全局模型,然后将新的模型参数分别发送给客户端。
[0003]但是,在异构场景中,由于当参与联邦学习的不同客户端之间存在异构性,也即,参与联邦学习的不同客户端之间的数据领域、任务类型、模型架构等方面存在显著差异的情况下,简单的将这些客户端进行联合训练会产生严重的梯度更新冲突并损害各个客户端的模型性能,导致联邦学习的应用受到了很大的限制。
[0004]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本申请实施例提供了一种文本处理方法、模型训练方法和系统,以至少解决在异构场景中联邦学习对客户端的模型性能影响较大,导致联邦学习的应用受限的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种文本处理方法,包括:目标客户端获取待处理文本数据;目标客户端利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果;其中,文本处理模型部署在目标客户端本地,文本处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器对第一客户端上传的第一模型梯度和目标
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:目标客户端获取待处理文本数据;所述目标客户端利用文本处理模型对所述待处理文本数据进行自然语言处理,得到所述待处理文本数据的文本处理结果;其中,所述文本处理模型部署在所述目标客户端本地,所述文本处理模型的模型参数为服务器发送的目标模型参数,所述目标模型参数由所述服务器对第一客户端上传的第一模型梯度和所述目标客户端对应的原始模型参数进行聚合得到。2.根据权利要求1所述的方法,其特征在于,所述第一客户端由所述服务器基于所述目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对所述至少一个客户端进行聚类得到,所述第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。3.根据权利要求1所述的方法,其特征在于,所述文本处理模型包括:编码器和解码器,所述方法还包括:利用所述目标客户端对应的原始模型参数和所述解码器对预设数据进行自然语言处理,得到所述目标客户端对应的原型特征;上传所述目标客户端对应的原型特征至所述服务器,其中,所述目标模型参数由所述服务器对所述第一客户端上传的第一模型梯度、第二客户端上传的第二模型梯度和所述目标客户端对应的原始模型参数进行聚合得到,所述第二客户端由所述服务器基于所述目标客户端上传的原型特征和至少一个客户端上传的原型特征对所述至少一个客户端进行聚类得到。4.根据权利要求3所述的方法,其特征在于,所述文本处理模型包括:编码器,所述方法还包括:利用所述编码器对本地存储的训练样本进行特征编码,得到所述目标客户端对应的编码特征;发送所述目标客户端对应的编码特征至所述服务器;接收所述服务器返回的所述预设数据,其中,所述预设数据由所述服务器基于混合特征和对所述混合特征对应的处理结果生成,所述混合特征由所述服务器对所述目标客户端上传的编码特征和所述至少一个客户端上传的编码特征进行混合得到,所述处理结果由所述服务器利用本地部署的预设处理模型对所述混合特征进行处理得到。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取所述第一客户端对应的原型特征的加权和,得到正特征,并获取所述第二客户端对应的原型特征的加权和,得到负特征;基于所述目标客户端对应的原型特征、所述正特征和所述负特征,构建所述文本处理模型的第一损失函数;基于所述原型特征对应的文本处理结果和所述本地存储的训练样本对应的预设处理结果,构建所述文本处理模型的第二损失函数;获取所述第一损失函数和所述第二损失函数的加权和,得到所述文本处理模型的总损失函数。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述服务器发送的预设训练任务和初始模型参数;利用所述本地存储的训练样本和所述初始模型参数执行所述预设训练任务,得到所述目标客户端对应的第二模型梯度;上传所述目标客户端对应的第二模型梯度至所述服务器;接收所述服务器发送的所述目标客户端对应的原始模型参数,其中,所述原始模型参数通过对第三客户端上传的第二模型梯度和所述初始模型参数进行聚合得到,所述第三客户端为所述目标客户端所属的客户端集合中的客户端,所述客户端集合由所述服务器基于多个客户端上传的第二模型梯度对所述多个客户端进行聚类得到,所述多个客户端包括所述目标客户端和至少一个客户端。7.根据权利要求1所述的方法,其特征在于,所述第一客户端由所述服务器基于从目标训练策略对至少一个客户端进行聚类得到,所述目标训练策略由所述服务器基于所述文本处理模型与所述至少一个客户端上部署的处理模型之间的差异类型从多个训练策略中确定,不同训练策略用于对不同差异类型的...
【专利技术属性】
技术研发人员:谢悦湘,董晨鹤,李雅亮,丁博麟,沈颖,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。