基于联邦学习的聚类模型训练系统及方法技术方案

技术编号:37349009 阅读:13 留言:0更新日期:2023-04-22 21:45
本说明书实施例提供基于联邦学习的聚类模型训练系统及方法,目标客户端利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至服务端;服务端根据至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至至少两个客户端;目标客户端根据本地聚类中心数据和全局聚类中心数据计算对齐损失值,根据本地聚类模型通过训练得到的聚类损失值和对齐损失值,对本地聚类模型进行调参根据调参结果将满足训练条件的本地聚类模型的模型参数发送至服务端;服务端根据至少两个客户端对应的模型参数计算目标模型参数并发送至至少两个客户端;目标客户端用于基于目标模型参数对本地聚类模型进行更新获得目标聚类模型。标聚类模型。标聚类模型。

【技术实现步骤摘要】
基于联邦学习的聚类模型训练系统及方法


[0001]本说明书实施例涉及联邦学习
,特别涉及一种基于联邦学习的聚类模型训练系统。本说明书一个或者多个实施例同时涉及基于联邦学习的聚类方法、基于联邦学习的聚类模型训练方法、基于联邦学习的聚类装置,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的快速发展,互联网数据也随之增多。在不同的机构可能保存着同一样本对应的不同特征数据,例如,不同的项目平台存储相同用户的不同数据,如果各个项目平台向挖掘该用户的喜好,则只能依据本地存储的用户数据进行聚类分析,无法获得最优的聚类结果,而将各个项目平台的用户数据进行汇总再聚类又会产生数据隐私安全问题。目前常采用联邦学习方法应用于无需共享本地原始数据的多客户端协作学习,从而解决上述问题。但是在多客户端的文本聚类场景下,由于某些场景下是对短文本进行聚类,但是由于短文本长度较短,短文本蕴含的信息量少的原因,现有的联邦聚类方法并不适用短文本聚类场景,因此在文本数据分散在多处的前提下,如何实现短文本数据聚类是目前亟需解决的问题。

技术实现思路

[0003]有鉴于此,本说明书实施例提供了一种基于联邦学习的聚类模型训练系统。本说明书一个或者多个实施例同时涉及一种基于联邦学习的聚类模型训练方法、一种基于联邦学习的聚类方法、一种基于联邦学习的聚类装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0004]根据本说明书实施例的第一方面,提供了一种基于联邦学习的聚类模型训练系统,所述系统包括服务端和至少两个客户端,其中,目标客户端,用于利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至所述服务端;所述服务端,用于根据所述至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至所述至少两个客户端;所述目标客户端,用于根据所述本地聚类中心数据和所述全局聚类中心数据计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,对所述本地聚类模型进行调参,根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端;所述服务端,用于根据所述至少两个客户端对应的模型参数,计算目标模型参数并发送至所述至少两个客户端;所述目标客户端,用于基于所述目标模型参数对所述本地聚类模型进行更新,获得目标聚类模型。
[0005]可选的,目标客户端,用于通过所述本地聚类模型对所述本地样本文本进行聚类处理,获得所述本地样本文本对应的本地聚类簇,根据所述本地聚类簇确定本地聚类中心数据并发送至所述服务端。
[0006]可选的,所述目标客户端,还用于根据所述本地文本分布和预设传输函数计算所述本地样本文本对应的预测文本分布,通过高斯混合函数计算所述预测文本分布对应的样本权重,基于所述本地文本分布、所述预测文本分布和所述样本权重计算所述本地样本文本对应的聚类损失值。
[0007]可选的,所述服务端,用于接收所述至少两个客户端发送的本地聚类中心数据,对至少两个本地聚类中心数据进行聚合处理,生成全局聚类中心数据并发送至所述至少两个客户端。
[0008]可选的,所述目标客户端,用于对所述本地聚类中心数据和所述全局聚类中心数据进行对齐处理,根据处理结果计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,计算模型损失值,基于所述模型损失值对所述本地聚类模型进行调参,并执行根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端。
[0009]可选的,所述服务端,用于在所述至少两个客户端中确定待处理客户端,确定所述待处理客户端对应的模型参数和样本文本数量,根据所述样本文本数量计算所述模型参数对应的参数权重,根据每个客户端对应的模型参数和每个模型参数对应的参数权重计算目标模型参数。
[0010]可选的,所述目标客户端,还用于获取待处理文本,通过所述目标聚类模型对所述待处理文本进行聚类处理,获得所述待处理文本对应的目标聚类簇。
[0011]根据本说明书实施例的第二方面,提供了一种基于联邦学习的聚类模型训练方法,所述方法包括服务端和至少两个客户端,其中,目标客户端利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至所述服务端;所述服务端根据所述至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至所述至少两个客户端;所述目标客户端根据所述本地聚类中心数据和所述全局聚类中心数据计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,对所述本地聚类模型进行调参,根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端;所述服务端根据所述至少两个客户端对应的模型参数,计算目标模型参数并发送至所述至少两个客户端;所述目标客户端基于所述目标模型参数对所述本地聚类模型进行更新,获得目标聚类模型。
[0012]根据本说明书实施例的第三方面,提供了一种基于联邦学习的聚类方法,所述方法应用于客户端,包括:响应于业务提供方针对目标文本提交的文本分析请求,将所述目标文本输入至通过所述基于联邦学习的聚类模型训练系统获得的目标聚类模型;
获得所述目标聚类模型输出的所述目标文本对应的文本聚类簇;基于所述文本聚类簇确定所述目标文本的分析文本。
[0013]根据本说明书实施例的第四方面,提供了一种基于联邦学习的聚类装置,所述装置应用于客户端,包括:输入模块,被配置为响应于业务提供方针对目标文本提交的文本分析请求,将所述目标文本输入至通过所述基于联邦学习的聚类模型训练系统获得的目标聚类模型;获得模块,被配置为获得所述目标聚类模型输出的所述目标文本对应的文本聚类簇;确定模块,被配置为基于所述文本聚类簇确定所述目标文本的分析文本。
[0014]根据本说明书实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的步骤。
[0015]根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的步骤。
[0016]根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的步骤。
[0017]本说明书提供的基于联邦学习的聚类模型训练系统,所述系统包括服务端和至少两个客户端,其中,目标客户端,用于利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至所述服务端;所述服务端,用于根据所述至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至所述至少两个客户端;所述目标客户端,用于根据所述本地聚类中心数据和所述全局聚类中心数据计算对齐损失值,根据所述本地聚类模型通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的聚类模型训练系统,其特征在于,所述系统包括服务端和至少两个客户端,其中,目标客户端,用于利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至所述服务端;所述服务端,用于根据所述至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至所述至少两个客户端;所述目标客户端,用于根据所述本地聚类中心数据和所述全局聚类中心数据计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,对所述本地聚类模型进行调参,根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端;所述服务端,用于根据所述至少两个客户端对应的模型参数,计算目标模型参数并发送至所述至少两个客户端;所述目标客户端,用于基于所述目标模型参数对所述本地聚类模型进行更新,获得目标聚类模型。2.如权利要求1所述的系统,其特征在于,所述目标客户端,用于通过所述本地聚类模型对所述本地样本文本进行聚类处理,获得所述本地样本文本对应的本地聚类簇,根据所述本地聚类簇确定本地聚类中心数据并发送至所述服务端。3.如权利要求2所述的系统,其特征在于,所述目标客户端,用于通过所述本地聚类模型中的编码模块对所述本地样本文本进行编码,获得所述本地样本文本对应的向量表示,通过所述本地聚类模型中的分类模块对所述向量表示进行分类,获得所述本地样本文本对应的本地文本分布,根据所述本地文本分布确定所述本地样本文本对应的本地聚类簇。4.如权利要求3所述的系统,其特征在于,所述目标客户端,还用于根据所述本地文本分布和预设传输函数计算所述本地样本文本对应的预测文本分布,通过高斯混合函数计算所述预测文本分布对应的样本权重,基于所述本地文本分布、所述预测文本分布和所述样本权重计算所述本地样本文本对应的聚类损失值。5.如权利要求1所述的系统,其特征在于,所述服务端,用于接收所述至少两个客户端发送的本地聚类中心数据,对至少两个本地聚类中心数据进行聚合处理,生成全局聚类中心数据并发送至所述至少两个客户端。6.如权利要求1所述的系统,其特征在于,所述目标客户端,用于对所述本地聚类中心数据和所述全局聚类中心数据进行对齐处理,根据处理结果计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,计算模型损失值,基于所述模型损失值对所述本地聚类模型进行调参,并执行根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端。7.如权利要求1所述的系统,其特征在于,所述...

【专利技术属性】
技术研发人员:郑小林胡梦玲陈超超刘伟明
申请(专利权)人:杭州金智塔科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1