基于联邦学习的聚类模型训练系统及方法技术方案

技术编号：37349009 阅读：13 留言：0更新日期：2023-04-22 21:45

本说明书实施例提供基于联邦学习的聚类模型训练系统及方法，目标客户端利用本地样本文本对本地聚类模型进行训练，获得本地聚类中心数据并发送至服务端；服务端根据至少两个客户端对应的本地聚类中心数据，生成全局聚类中心数据并发送至至少两个客户端；目标客户端根据本地聚类中心数据和全局聚类中心数据计算对齐损失值，根据本地聚类模型通过训练得到的聚类损失值和对齐损失值，对本地聚类模型进行调参根据调参结果将满足训练条件的本地聚类模型的模型参数发送至服务端；服务端根据至少两个客户端对应的模型参数计算目标模型参数并发送至至少两个客户端；目标客户端用于基于目标模型参数对本地聚类模型进行更新获得目标聚类模型。标聚类模型。标聚类模型。

全部详细技术资料下载

【技术实现步骤摘要】
基于联邦学习的聚类模型训练系统及方法

[0001]本说明书实施例涉及联邦学习
，特别涉及一种基于联邦学习的聚类模型训练系统。本说明书一个或者多个实施例同时涉及基于联邦学习的聚类方法、基于联邦学习的聚类模型训练方法、基于联邦学习的聚类装置，一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的快速发展，互联网数据也随之增多。在不同的机构可能保存着同一样本对应的不同特征数据，例如，不同的项目平台存储相同用户的不同数据，如果各个项目平台向挖掘该用户的喜好，则只能依据本地存储的用户数据进行聚类分析，无法获得最优的聚类结果，而将各个项目平台的用户数据进行汇总再聚类又会产生数据隐私安全问题。目前常采用联邦学习方法应用于无需共享本地原始数据的多客户端协作学习，从而解决上述问题。但是在多客户端的文本聚类场景下，由于某些场景下是对短文本进行聚类，但是由于短文本长度较短，短文本蕴含的信息量少的原因，现有的联邦聚类方法并不适用短文本聚类场景，因此在文本数据分散在多处的前提下，如何实现短文本数据聚类是目前亟需解决的问题。

技术实现思路

[0003]有鉴于此，本说明书实施例提供了一种基于联邦学习的聚类模型训练系统。本说明书一个或者多个实施例同时涉及一种基于联邦学习的聚类模型训练方法、一种基于联邦学习的聚类方法、一种基于联邦学习的聚类装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。
[0004]根据本说明书实施例的第一方面，提供了一种基于联邦...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的聚类模型训练系统，其特征在于，所述系统包括服务端和至少两个客户端，其中，目标客户端，用于利用本地样本文本对本地聚类模型进行训练，获得本地聚类中心数据并发送至所述服务端；所述服务端，用于根据所述至少两个客户端对应的本地聚类中心数据，生成全局聚类中心数据并发送至所述至少两个客户端；所述目标客户端，用于根据所述本地聚类中心数据和所述全局聚类中心数据计算对齐损失值，根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值，对所述本地聚类模型进行调参，根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端；所述服务端，用于根据所述至少两个客户端对应的模型参数，计算目标模型参数并发送至所述至少两个客户端；所述目标客户端，用于基于所述目标模型参数对所述本地聚类模型进行更新，获得目标聚类模型。2.如权利要求1所述的系统，其特征在于，所述目标客户端，用于通过所述本地聚类模型对所述本地样本文本进行聚类处理，获得所述本地样本文本对应的本地聚类簇，根据所述本地聚类簇确定本地聚类中心数据并发送至所述服务端。3.如权利要求2所述的系统，其特征在于，所述目标客户端，用于通过所述本地聚类模型中的编码模块对所述本地样本文本进行编码，获得所述本地样本文本对应的向量表示，通过所述本地聚类模型中的分类模块对所述向量表示进行分类，获得所述本地样本文本对应的本地文本分布，根据所述本地文本分布确定所述本地样本文本对应的本地聚类簇。4.如权利要求3所述的系统，其特征在于，所述目标客户端，还用于根据所述本地文本分布和预设传输函数计算所述本地样本文本对应的预测文本分布，通过高斯混合函数计算所述预测文本分布对应的样本权重，基于所述本地文本分布、所述预测文本分布和所述样本权重计算所述本地样本文本对应的聚类损失值。5.如权利要求1所述的系统，其特征在于，所述服务端，用于接收所述至少两个客户端发送的本地聚类中心数据，对至少两个本地聚类中心数据进行聚合处理，生成全局聚类中心数据并发送至所述至少两个客户端。6.如权利要求1所述的系统，其特征在于，所述目标客户端，用于对所述本地聚类中心数据和所述全局聚类中心数据进行对齐处理，根据处理结果计算对齐损失值，根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值，计算模型损失值，基于所述模型损失值对所述本地聚类模型进行调参，并执行根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端。7.如权利要求1所述的系统，其特征在于，所述...

【专利技术属性】
技术研发人员：郑小林，胡梦玲，陈超超，刘伟明，
申请(专利权)人：杭州金智塔科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人