当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于数据集压缩的个性化通信方法技术

技术编号:39416888 阅读:8 留言:0更新日期:2023-11-19 16:07
本发明专利技术公开一种基于数据集压缩的个性化通信方法,具体包括以下步骤:S1:对第k个客户端存储的图数据进行数据蒸馏,得到第k个合成数据集S

【技术实现步骤摘要】
一种基于数据集压缩的个性化通信方法


[0001]本专利技术涉及通信
,特别涉及一种基于数据集压缩的个性化通信方法。

技术介绍

[0002]通过将图论与深度神经网络相结合,图神经网络(GNNs)因其对图数据的强大分析能力而被广泛应用于药物发现、神经科学、社交网络、知识图谱、推荐系统和交通流预测等研究领域。对图数据进行分类是图神经网络的主要功能之一,它预测一组图的类标签或目标值。但有些数据难以公开分享和传输到某个集中的位置。同时,单个实体即使可以提供足够的算力支持,其所持有的数据量往往也难以满足强大的GNN的训练所需。
[0003]联邦学习作为一种新型的分布式学习范式,可以有效地解决这一问题。在典型的联邦学习设置中,数据分布在一组节点上。由于隐私和通信的限制,这些节点通常很难直接传输真实数据并与第三方共享。联邦学习通过上传和聚合在节点上训练的模型,取代直接传输真实数据进行本地训练的传统训练方法,在保护隐私的同时降低了通信成本。因此,作为这两种技术的结合,图联邦学习引起了研究人员的广泛关注,并在这一问题上进行了一些研究。然而,与图像等传统的联邦学习训练数据不同,图数据在结构和特征方面可能存在固有的异质性,这加剧了联邦学习中的非独立同分布(Non

IID)问题,导致联邦学习中通信轮次的增加,降低了最终模型的训练精度性。尽管一些工作已经注意到Non

IID数据导致的准确性下降问题,但它们往往无法解决甚至加重了联邦训练的通信负担。此外,原始的联邦学习的训练过程要求数据和网络随时对联邦训练计划保持开放,这对于药物分子等机密数据来说往往是不可接受的。

技术实现思路

[0004]针对现有技术中数据异构性问题导致的联邦学习中通信轮次较多的技术问题,本专利技术提出一种基于数据集压缩的个性化通信方法,通过对获取数据进行高维特征提取并进行压缩,再传输到中央服务器进行训练,从而减少数据中语义信息等低维特征,降低数据的存储量,从而检索通信的轮次。
[0005]为了实现上述目的,本专利技术提供以下技术方案:
[0006]一种基于数据集压缩的个性化通信方法,具体包括以下步骤:
[0007]S1:对第k个客户端存储的图数据进行数据蒸馏,得到第k个合成数据集S
k

[0008]S2:根据合成数据集S
k
构建优化目标并进行优化;
[0009]S3:根据优化目标确定全局模型在合成数据上的训练学习率;
[0010]S4:中央服务器根据学习率构建预训练模型,并将预训练模型下发到各个客户端进行个性化训练。
[0011]优选地,所述S1包括:
[0012]S1

1:按照数据类型对图数据集G
k
进行重新排列,得到G
k
={A
k
,X
k
,Y
k
,},A
k
表示拼接得到的邻接矩阵,R表示实数集,N
k
表示图数据集G
k
中所有图数据的节点
总数;X
k
表示对应的节点特征矩阵,d表示节点特征的维度;表示所有图的标签集,|G
k
|表示在第k个客户端中用于训练的图数据的数量;
[0013]S1

2:通过对图数据集G
k
进行蒸馏生成合成数据集进行蒸馏生成合成数据集
[0014]优选地,所述S1

2中,合成数据集S
k
和图数据集G
k
的性能相同,使用真实数据集与合成数据集上的训练生成的一步梯度来量化这种性能,即
[0015][0016]公式(1)中,表示在来自第k个客户端的测试数据集上评估的全局模型f
θ
的损失;D表示距离函数;表示梯度。
[0017]优选地,所述S2包括:
[0018]S2

1:构建初始优化目标函数并使用梯度下降来更新合成的数据集以进行优化;
[0019]S2

2:使用重新参数化方法对边缘权重建模;
[0020]S2

3:构建最终的优化目标函数,对优化目标进行优化。
[0021]优选地,所述S2

1中,初始优化目标函数为:
[0022][0023]优选地,所述S2

2中,边缘权重建模为:
[0024][0025]公式(3)中,表示A

k
中的元素,为伯努利分布的隐藏变量,同时是主要优化对象;σ表示sigmoid函数;α是从Uniform(0,1)中采集得到;τ∈(0,∞)表示连续弛豫的温度参数。
[0026]优选地,所述S2

3中,最终的优化目标函数为:
[0027][0028]公式(4)中,用每个类别中随机选择的IPC训练样本初始化Ω和X

k

[0029]优选地,所述S3中,根据使用的本地数据集中数据量的不同自适应地确定全局模型在合成数据上的训练学习率:
[0030][0031]公式(5)中,θ
t+1
表示t+1时刻的学习率;K表示客户端的总数;|G
k
|表示在第k个客户端中用于训练的图数据的数量;表示所有训练数据的数量;η表示学
习率。
[0032]优选地,所述S4中,客户端在从服务器接收到预训练模型后,将利用本地数据来构建个性化模型进行训练:
[0033][0034]公式(6)中,η表示学习率;本地训练epoch的数量设置为E
loc

[0035]优选地,采用验证集来检查200个epoch后模型的性能,如果性能从一开始就下降,将放弃对该客户端的本地个性化模型训练。
[0036]综上所述,由于采用了上述技术方案,与现有技术相比,本专利技术至少具有以下有益效果:
[0037]本专利技术通过对获取数据进行高维特征提取并进行压缩作为全局合成数据集,再传输到中央服务器进行训练,从而减少数据中语义信息等低维特征,降低数据的存储量(仅为个位数),从而检索通信的轮次。
[0038]将根据高维特征数据训练得到的服务器模型作为全局知识的载体,并将其作为预训练模型分发给各个客户端,并在每个客户端的本地数据上进行个性化训练,这使各个客户能够获得兼顾全局视野和本地特征的模型,从而进一步提高训练的整体效果,提高学习精度。
附图说明:
[0039]图1为根据本专利技术示例性实施例的一种基于数据集压缩的个性化通信方法流程示意图。
[0040]图2为根据本专利技术示例性实施例的客户端图数据构建示意图。
[0041]图3为根据本专利技术示例性实施例的不同IPC设置下模型性能对比示意图。
具体实施方式
[0042]下面结合实施例及具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据集压缩的个性化通信方法,其特征在于,具体包括以下步骤:S1:对第k个客户端存储的图数据进行数据蒸馏,得到第k个合成数据集S
k
;S2:根据合成数据集S
k
构建优化目标并进行优化;S3:根据优化目标确定全局模型在合成数据上的训练学习率;S4:中央服务器根据学习率构建预训练模型,并将预训练模型下发到各个客户端进行个性化训练。2.如权利要求1所述的一种基于数据集压缩的个性化通信方法,其特征在于,所述S1包括:S1

1:按照数据类型对图数据集G
k
进行重新排列,得到G
k
={A
k
,X
k
,Y
k
,},A
k
表示拼接得到的邻接矩阵,R表示实数集,N
k
表示图数据集G
k
中所有图数据的节点总数;X
k
表示对应的节点特征矩阵,d表示节点特征的维度;表示所有图的标签集,|G
k
|表示在第k个客户端中用于训练的图数据的数量;S1

2:通过对图数据集G
k
进行蒸馏生成合成数据集进行蒸馏生成合成数据集3.如权利要求2所述的一种基于数据集压缩的个性化通信方法,其特征在于,所述S1

2中,合成数据集S
k
和图数据集G
k
的性能相同,使用真实数据集与合成数据集上的训练生成的一步梯度来量化这种性能,即公式(1)中,表示在来自第k个客户端的测试数据集上评估的全局模型f
θ
的损失;D表示距离函数;表示梯度。4.如权利要求1所述的一种基于数据集压缩的个性化通信方法,其特征在于,所述S2包括:S2

1:构建初始优化目标...

【专利技术属性】
技术研发人员:张家明郭松涛
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1