基于联邦学习和深度学习的稀疏数据聚类方法及装置制造方法及图纸

技术编号:38084130 阅读:10 留言:0更新日期:2023-07-06 08:50
本申请公开了一种基于联邦学习和深度学习的稀疏数据聚类方法,包括多个参与方和横向联邦学习框架中的仲裁方,多个参与方和横向联邦学习框架中的仲裁方均各自持有一份无标签稀疏数据,无标签稀疏数据的数据特征相同,样本不同;方法应用于参与方,包括:生成密钥,并与其它参与方交换密钥;根据所持有的无标签稀疏数据训练基于深度学习的聚类模型,得到本地模型;根据密钥将本地模型的参数加密后发送给assist

【技术实现步骤摘要】
基于联邦学习和深度学习的稀疏数据聚类方法及装置


[0001]本申请涉及数据处理
,具体涉及一种基于联邦学习和深度学习的稀疏数据聚类方法及装置。

技术介绍

[0002]在现代社会中,随着信息的爆炸式增长,数据量也呈现出爆炸式增长,数据形式也越来越多样化。在数据挖掘领域,常常要面对海量的复杂型数据,其中,海量无标签且稀疏的数据正在越来越被人们所注意。
[0003]无标签稀疏数据可能来自于不同的平台和机构,随着数据隐私及安全保护的重要性日益提升,不同的平台和机构之间无法分享全量明文数据,而整合分析不同来源的数据能为各个专业领域的研究提供理论基础。因此,基于隐私保护技术实现无标签稀疏数据的整合,并基于深度学习方法对其进行聚类分析有重要意义。
[0004]目前,已有的无标签稀疏数据分析方法的主要目标是解决数据稀疏性高、技术局限导致的假0现象和不同来源数据之间的高度异质性问题;具体的方法包括:谱聚类方法、深度学习方法等。
[0005]谱聚类方法是从图论中演化出来的算法,主要思想是把数据看作空间中的点,点之间可用边连接起来,距离较远代表点之间边权重低,反之则高;随后通过对所有数据点组成的图进行切分,让切分后的子图间边权重尽可能低,子图内的边权重尽可能高,从而完成聚类。但是,谱聚类方法依赖全图的拉普拉斯矩阵,此矩阵的计算和存储过于复杂,成本很高;对于特定的样本数量而言,拉普拉斯矩阵的计算和存储具有平方或超平方的复杂度,矩阵的分解甚至需要立方阶复杂度;另外,谱聚类方法并不完全适配无标签稀疏数据的特点:过度离散和零膨胀,导致聚类结果准确度不足。
[0006]面向无标签稀疏数据的深度学习方法多基于自动编码器,通过无监督学习的方式进行特征降维;其本质上会重复运行若干次自动编码器,将前一次的最终输出作为下一次运行的初始输入,然后再利用隐藏层特征进行聚类。但是,深度学习方法并未针对无标签稀疏数据分析中的聚类过程进行设计和优化,在高维度数据上的聚类性能劣于低维度数据。
[0007]综上可知,目前的无标签稀疏数据分析方法并不能解决因数据分布于不同机构和平台而无法安全整合的问题。

技术实现思路

[0008]为此,本申请提供一种基于联邦学习和深度学习的稀疏数据聚类方法及装置,以解决现有技术存在的因无标签稀疏数据分布于不同机构和平台而无法安全整合的问题。
[0009]为了实现上述目的,本申请提供如下技术方案:
[0010]第一方面,一种基于联邦学习和深度学习的稀疏数据聚类方法,包括多个参与方和横向联邦学习框架中的仲裁方,多个参与方和横向联邦学习框架中的仲裁方均各自持有一份无标签稀疏数据,无标签稀疏数据的数据特征相同,样本不同;
[0011]所述方法应用于参与方,包括:
[0012]生成密钥,并与其它参与方交换密钥;
[0013]根据所持有的无标签稀疏数据训练基于深度学习的聚类模型,得到本地模型;
[0014]根据所述密钥将所述本地模型的参数加密后发送给assist

trainer;所述assist

trainer将所有参与方发送的模型参数进行聚合平均,得到最终的全局模型。
[0015]进一步的,所述本地模型的损失函数L为:
[0016]L=L
ZINB
+γL
c
[0017]其中,L
ZINB
为自编码器的损失函数,L
c
为聚类的损失函数。
[0018]更进一步的,所述自编码器的损失函数L
ZINB
为:
[0019]L
ZINB


log(ZINB(X
count
|π,μ,θ))
[0020]其中,ZINB(X
count
|π,μ,θ)=πδ0(X
count
)+(1

π)NB(X
count
|μ,θ),
[0021][0022]X
count
代表样本数,π、μ和θ为解码器最后一个隐藏层D后连接的三个全连接层。
[0023]更进一步的,所述聚类的损失函数L
c
为:
[0024][0025]其中,
[0026]进一步的,所述仲裁方能够利用含有标签的数据进行模型性能评估,并得到需要标签参与计算的聚类性能指标。
[0027]第二方面,一种基于联邦学习和深度学习的稀疏数据聚类装置,包括多个参与方和横向联邦学习框架中的仲裁方,多个参与方和横向联邦学习框架中的仲裁方均各自持有一份无标签稀疏数据,无标签稀疏数据的数据特征相同,样本不同;
[0028]所述装置用于实现实现参与方的执行步骤,包括:
[0029]密钥生成模块,用于生成密钥;
[0030]密钥交换模块,用于与其它参与方交换密钥;
[0031]本地模型训练模块,用于根据所持有的无标签稀疏数据训练基于深度学习的聚类模型,得到本地模型;
[0032]加密模块,用于根据所述密钥将所述本地模型的参数加密后发送给assist

trainer;所述assist

trainer将所有参与方发送的模型参数进行聚合平均,得到最终的全局模型。
[0033]第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于联邦学习和深度学习的稀疏数据聚类方法的步骤。
[0034]第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于联邦学习和深度学习的稀疏数据聚类方法的步骤。
[0035]相比现有技术,本申请至少具有以下有益效果:
[0036]本申请提供了一种基于联邦学习和深度学习的稀疏数据聚类方法,包括多个参与方和横向联邦学习框架中的仲裁方,多个参与方和横向联邦学习框架中的仲裁方均各自持有一份无标签稀疏数据,无标签稀疏数据的数据特征相同,样本不同;方法应用于参与方,包括:生成密钥,并与其它参与方交换密钥;根据所持有的无标签稀疏数据训练基于深度学习的聚类模型,得到本地模型;根据密钥将本地模型的参数加密后发送给assist

trainer;assist

trainer将所有参与方发送的模型参数进行聚合平均,得到最终的全局模型。本申请将基于深度学习的无标签稀疏数据聚类方法集成在联邦学习框架上,在不公开明文数据的前提下,可以安全整合存储于不同机构和平台的无标签稀疏数据,极大地扩充样本量,提升了模型精度。
附图说明
[0037]为了更直观地说明现有技术以及本申请,下面给出几个示例性的附图。应当理解,附图中所示的具体形状、构造,通常不应视为实现本申请时的限定条件;例如,本领域技术人员基于本申请揭示的技术构思和示例性的附图,有能力对某些单元(部件)的增/减本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习和深度学习的稀疏数据聚类方法,其特征在于,包括多个参与方和横向联邦学习框架中的仲裁方,多个参与方和横向联邦学习框架中的仲裁方均各自持有一份无标签稀疏数据,无标签稀疏数据的数据特征相同,样本不同;所述方法应用于参与方,包括:生成密钥,并与其它参与方交换密钥;根据所持有的无标签稀疏数据训练基于深度学习的聚类模型,得到本地模型;根据所述密钥将所述本地模型的参数加密后发送给assist

trainer;所述assist

trainer将所有参与方发送的模型参数进行聚合平均,得到最终的全局模型。2.根据权利要求1所述的基于联邦学习和深度学习的稀疏数据聚类方法,其特征在于,所述本地模型的损失函数L为:L=L
ZINB
+γL
c
其中,L
ZINB
为自编码器的损失函数,L
c
为聚类的损失函数。3.根据权利要求2所述的基于联邦学习和深度学习的稀疏数据聚类方法,其特征在于,所述自编码器的损失函数L
ZINB
为:L
ZINB


log(ZINB(X
count
|π,μ,θ))其中,ZINB(X
count
|π,μ,θ)=πδ0(X
count
)+(1

π)NB(X
count
|μ,θ),X<...

【专利技术属性】
技术研发人员:李修明
申请(专利权)人:翼方健数北京信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1