文本处理方法、模型训练方法和系统技术方案

技术编号:37842336 阅读:28 留言:0更新日期:2023-06-14 09:46
本申请公开了一种文本处理方法、模型训练方法和系统。其中,该方法包括:目标客户端获取待处理文本数据;目标客户端利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果;文本处理模型部署在目标客户端本地,文本处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到。本申请解决了在异构场景中联邦学习对客户端的模型性能影响较大,导致联邦学习的应用受限的技术问题。术问题。术问题。

【技术实现步骤摘要】
文本处理方法、模型训练方法和系统


[0001]本申请涉及自然语言处理领域,具体而言,涉及一种文本处理方法、模型训练方法和系统。

技术介绍

[0002]联邦学习是一种可以在保护数据隐私的同时联合多个数据源进行训练的范式,已被广泛应用到金融、医疗和自然科学等领域。在联邦学习过程中,各个客户端利用本地数据进行本地孙连,并上传更新后的模型参数给服务器,由服务器将这些模型参数进行联邦聚合病更新全局模型,然后将新的模型参数分别发送给客户端。
[0003]但是,在异构场景中,由于当参与联邦学习的不同客户端之间存在异构性,也即,参与联邦学习的不同客户端之间的数据领域、任务类型、模型架构等方面存在显著差异的情况下,简单的将这些客户端进行联合训练会产生严重的梯度更新冲突并损害各个客户端的模型性能,导致联邦学习的应用受到了很大的限制。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种文本处理方法、模型训练方法和系统,以至少解决在异构场景中联邦学习对客户端的模型性能影响较大,导致联邦学习的应用受限的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种文本处理方法,包括:目标客户端获取待处理文本数据;目标客户端利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果;其中,文本处理模型部署在目标客户端本地,文本处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到。
[0007]根据本申请实施例的另一方面,还提供了一种模型训练方法,包括:目标客户端接收服务器发送的目标客户端对应的原始模型参数;目标客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行训练,得到目标客户端对应的第一模型梯度;目标客户端发送目标客户端对应的第一模型梯度至服务器,并接收服务器发送的目标客户端对应的目标模型参数,其中,目标模型参数通过对原始模型参数和第一客户端上传的第一模型梯度进行聚合得到;目标客户端基于目标客户端对应的目标模型参数对本地部署的处理模型的模型参数进行更新,得到文本处理模型,其中,文本处理模型用于对待处理文本数据进行自然语言处理。
[0008]根据本申请实施例的另一方面,还提供了一种模型训练方法,包括:服务器发送多个客户端对应的原始模型参数至多个客户端,并接收多个客户端上传的第一模型梯度;服务器对每个客户端对应的第一客户端上传的第一模型梯度和每个客户端对应的原始模型参数进行聚合,得到每个客户端对应的目标模型参数;服务器发送多个客户端对应的目标模型参数至多个客户端,其中,目标模型参数用于对本地部署的处理模型的模型参数进行
更新。
[0009]根据本申请实施例的另一方面,还提供一种模型训练系统,包括:多个客户端;服务器,与多个客户端连接,用于生成多个客户端对应的原始模型参数至多个客户端;多个客户端用于利用本地存储的训练文本和对应的原始模型参数对本地部署的处理模型进行训练,得到多个客户端对应的第一模型梯度;服务器还用于基于多个客户端对应的第一模型梯度对多个客户端进行聚类,得到每个客户端对应的第一客户端,并对每个客户端对应的第一客户端上传的第一模型梯度和每个客户端对应的原始模型参数进行聚合,得到每个客户端对应的目标模型参数;多个客户端还用于基于对应的目标模型参数对本地部署的处理模型的模型参数进行更新。
[0010]根据本申请实施例的另一方面,还提供一种图像处理方法,包括:目标客户端获取待处理图像;目标客户端利用图像处理模型对待处理图像进行图像处理,得到待处理图像的图像处理结果;其中,图像处理模型部署在目标客户端本地,图像处理模型的模型参数为服务器发送的目标模型参数,目标模型参数由服务器基于第一客户端上传的第一模型梯度对目标客户端对应的原始模型参数进行聚合得到,第一客户端由服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类得到,第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。
[0011]根据本申请实施例的另一方面,还提供一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述实施例中任意一项的文本处理方法。
[0012]根据本申请实施例的另一方面,还提供一种计算机终端,包括:存储器,存储有可执行程序;处理器,用于运行程序,其中,程序运行时执行上述实施例中任意一项的文本处理方法。
[0013]在本申请实施例中,采用服务器基于目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对至少一个客户端进行聚类,得到第一客户端,服务器对第一客户端上传的第一模型梯度和目标客户端对应的原始模型参数进行聚合得到模板模型参数,服务器发送目标模型参数至目标客户端作为文本处理模型的模型参数的方式对文本处理模型进行训练,然后在模型推理过程中,目标客户端获取待处理文本数据,并利用文本处理模型对待处理文本数据进行自然语言处理,得到待处理文本数据的文本处理结果,容易注意到的是,针对不同客户端设置唯一的全局模型,也即给定不同客户端唯一的原始模型参数,并基于不同客户端相似的客户端集合进行模型参数的聚合,达到联邦学习的目的,一方面提高了不同客户端之间的关联,保证了处理结果的准确性,另一方面还提高了每个客户端的个性化,从而使联邦学习在自然语言处理更加灵活,达到了更好的联邦学习效果,进而解决了在异构场景中联邦学习对客户端的模型性能影响较大,导致联邦学习的应用受限的技术问题。
[0014]容易注意到的是,上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释,并不构成对本申请的限定。
附图说明
[0015]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0016]图1示出了一种用于实现文本处理方法的计算机终端(或移动设备)的硬件结构框图;
[0017]图2是根据本申请实施例的一种文本处理方法的计算环境的结构框图;
[0018]图3是根据本申请实施例1的一种文本处理方法的流程图;
[0019]图4是根据本申请实施例1的一种聚类联邦学习的框架示意图;
[0020]图5是根据本申请实施例1的一种集群对比学习的框架示意图;
[0021]图6是根据本申请实施例2的一种模型训练方法的流程图;
[0022]图7是根据本申请实施例3的一种模型训练方法的流程图;
[0023]图8是根据本申请实施例4的一种模型训练系统的结构框图;
[0024]图9是根据本申请实施例5的一种图像处理方法的流程图;
[0025]图10是根据本申请实施例6的一种模型训练装置的示意图;...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:目标客户端获取待处理文本数据;所述目标客户端利用文本处理模型对所述待处理文本数据进行自然语言处理,得到所述待处理文本数据的文本处理结果;其中,所述文本处理模型部署在所述目标客户端本地,所述文本处理模型的模型参数为服务器发送的目标模型参数,所述目标模型参数由所述服务器对第一客户端上传的第一模型梯度和所述目标客户端对应的原始模型参数进行聚合得到。2.根据权利要求1所述的方法,其特征在于,所述第一客户端由所述服务器基于所述目标客户端上传的第一模型梯度和至少一个客户端上传的第一模型梯度之间的相似度对所述至少一个客户端进行聚类得到,所述第一模型梯度由每个客户端利用本地存储的训练样本和对应的原始模型参数对本地部署的处理模型进行处理得到。3.根据权利要求1所述的方法,其特征在于,所述文本处理模型包括:编码器和解码器,所述方法还包括:利用所述目标客户端对应的原始模型参数和所述解码器对预设数据进行自然语言处理,得到所述目标客户端对应的原型特征;上传所述目标客户端对应的原型特征至所述服务器,其中,所述目标模型参数由所述服务器对所述第一客户端上传的第一模型梯度、第二客户端上传的第二模型梯度和所述目标客户端对应的原始模型参数进行聚合得到,所述第二客户端由所述服务器基于所述目标客户端上传的原型特征和至少一个客户端上传的原型特征对所述至少一个客户端进行聚类得到。4.根据权利要求3所述的方法,其特征在于,所述文本处理模型包括:编码器,所述方法还包括:利用所述编码器对本地存储的训练样本进行特征编码,得到所述目标客户端对应的编码特征;发送所述目标客户端对应的编码特征至所述服务器;接收所述服务器返回的所述预设数据,其中,所述预设数据由所述服务器基于混合特征和对所述混合特征对应的处理结果生成,所述混合特征由所述服务器对所述目标客户端上传的编码特征和所述至少一个客户端上传的编码特征进行混合得到,所述处理结果由所述服务器利用本地部署的预设处理模型对所述混合特征进行处理得到。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取所述第一客户端对应的原型特征的加权和,得到正特征,并获取所述第二客户端对应的原型特征的加权和,得到负特征;基于所述目标客户端对应的原型特征、所述正特征和所述负特征,构建所述文本处理模型的第一损失函数;基于所述原型特征对应的文本处理结果和所述本地存储的训练样本对应的预设处理结果,构建所述文本处理模型的第二损失函数;获取所述第一损失函数和所述第二损失函数的加权和,得到所述文本处理模型的总损失函数。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述服务器发送的预设训练任务和初始模型参数;利用所述本地存储的训练样本和所述初始模型参数执行所述预设训练任务,得到所述目标客户端对应的第二模型梯度;上传所述目标客户端对应的第二模型梯度至所述服务器;接收所述服务器发送的所述目标客户端对应的原始模型参数,其中,所述原始模型参数通过对第三客户端上传的第二模型梯度和所述初始模型参数进行聚合得到,所述第三客户端为所述目标客户端所属的客户端集合中的客户端,所述客户端集合由所述服务器基于多个客户端上传的第二模型梯度对所述多个客户端进行聚类得到,所述多个客户端包括所述目标客户端和至少一个客户端。7.根据权利要求1所述的方法,其特征在于,所述第一客户端由所述服务器基于从目标训练策略对至少一个客户端进行聚类得到,所述目标训练策略由所述服务器基于所述文本处理模型与所述至少一个客户端上部署的处理模型之间的差异类型从多个训练策略中确定,不同训练策略用于对不同差异类型的...

【专利技术属性】
技术研发人员:谢悦湘董晨鹤李雅亮丁博麟沈颖
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1