一种用于非独立同分布联邦学习的数据集构建系统和方法技术方案

技术编号:30766740 阅读:28 留言:0更新日期:2021-11-10 12:27
本发明专利技术提供了一种用于非独立同分布联邦学习的数据集构建系统和方法,系统包括初始模块、选择模块和状态序列组抽取模块;其中,初始模块,用于接收数据集,根据初始概率分布矩阵、初始概率转移矩阵抽样生成初始状态序列;选择模块,用于接收初始状态序列组,生成用于非独立同分布联邦学习的数据集:状态序列组抽取模块,用于根据接收的状态序列和组数,生成状态序列组。通过本发明专利技术,真实的数据集划分为多个更小的子集合成分布式非独立同分布数据集,容易设置不同数量的参与者,便于量化局部数据的均衡性,构造出非独立同分布的场景可以供研究使用。使用。使用。

【技术实现步骤摘要】
一种用于非独立同分布联邦学习的数据集构建系统和方法


[0001]本专利技术涉及计算机
,具体涉及一种用于非独立同分布联邦学习的数据集构建系统和方法。

技术介绍

[0002]联邦学习为解决数据孤岛难题和隐私保护方面提供了一种保障数据安全的建模方法,按照同特征不同用户、同用户不同特征和不同用户不同特征分为横向联邦、纵向联邦和联邦迁移学习,有助于参与方合作完成总体目标,被视为非常有应用前景的技术。例如,基于联邦学习的谷歌项目Gboard,侧重在移动手机上应用联邦平均算法,用于监控大规模集群设备的统计数据。
[0003]通常,用于联邦学习的训练数据假设遵循独立同分布,神经网络、深度学习等常见算法都基于此进行研究。但是对于不满足独立同分布的应用场景,会导致训练的模型精确度低、全局模型无法收敛的负面效果,因此任何特定用户的本地数据集都不能代表总体分布。随着行业间的业务融合,更多的场景满足用户特征重叠部分较多的情况。以智慧零售业务为例,利用机器学习技术为用户带来优质的产品推荐和销售服务,智慧零售的业务涉及到的数据特征包括用户购买能力,用户个人偏本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于非独立同分布联邦学习的数据集构建系统,其特征在于,包括初始模块、选择模块和状态序列组抽取模块;其中,初始模块,用于接收数据集,根据初始概率分布矩阵、初始概率转移矩阵抽样生成初始状态序列;选择模块,用于接收初始状态序列组,生成用于非独立同分布联邦学习的数据集:状态序列组抽取模块,用于接收状态序列和组数,生成状态序列组。2.根据权利要求1所述的数据集构建系统,其特征在于,在所述的初始模块中,所述的初始概率分布矩阵π=(π
i
),其中π
i
=p(i
j
=q
i
),j=1,2,...,T,T表示抽样的状态序列包含的样本数量;p表示i
j
=q
i
的概率,0<p<1;根据初始概率分布矩阵和初始状态转移概率矩阵抽取初始状态序列。3.根据权利要求2所述的数据集构建系统,其特征在于,在所述的初始模块中,将初始状态序列、初始状态转移概率矩阵和组数传送给状态序列组抽取模块,然后接收所述状态序列组抽取模块返回的状态序列组为初始状态序列组,并将该初始状态序列组传送给选择模块。4.根据权利要求1所述的数据集构建系统,其特征在于,在所述的初始模块中,所述的初始状态转移概率矩阵为A0=(p
ij
)
T
×
n
,i=1,

,T,j=1,

,n,p
ij
=P(i
t+1
=q
j
|i
t
=q
i
),i=1,2,

,n;j=1,2,

,n,p
ij
表示转移概率,n为数据集中标签的个数,∑
j=1
p
ij
=1,

,∑
j=n
p
ij
=1,i=1,

,T。5.根据权利要求1所述的数据集构建系统,其特征在于,在所述的状态序列组抽取模块中,根据接收到的状态序列、转移概率矩阵和组数,抽取状态序列组{I1,I2,

,I
S
},具体步骤如下:对于状态序列I1={i1,i2,

,i
T
}的每一个状态值i
j
,从转移概率矩阵中获取所述状态值对应的转移概率分布{p
1j


,p
Tj
},从中取概率最大值对应的标签,然后将该最大值对应的标签存入下一状态序列的相应位置,从而得到长度固定的下一个状态序列I2,依此方法操作直至得到I
S
,从而生成状态序列组{I1,I2,

,I
S
},然后将该状态序列组返回。6.根据权利要求1所述的数据集构建系统,其特征在于,在所述的选择模块中,生成用于非独立同分布联邦学习的数据集的步骤如下:(1)设定组数更换的阈值N,用于调整数据的均匀程度;(2)设定转移概率矩阵A,值p
ij
=P(i<...

【专利技术属性】
技术研发人员:李侃李洋
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1