【技术实现步骤摘要】
一种基于信息熵的联邦决策树信息量度量方法
[0001]本专利技术涉及联邦学习与机器学习树模型技术,具体涉及一种基于信息熵的联邦决策树信息量度量方法
。
技术介绍
[0002]随着互联网的不断发展,电商
、
短视频等的崛起,推荐算法的研究越来越深入,应用也越来越广泛
。
由于决策树算法具有较好的可解释性,常被用作实现推荐算法
。
传统的决策树算法常常需要集中式地收集和处理用户数据,然后基于这些数据训练一个全局模型,但是这种方法存在数据隐私泄露的风险
。
[0003]联邦决策树可以在保护数据隐私的前提下,实现平台间的合作共享,提高推荐模型的准确性与鲁棒性
。
联邦森林
(Federated Forest)
是
Liu
等人于
2019
年提出的一种联邦决策树方法的实现方式,在联邦森林中,各个参与方,例如不同的平台均保留自己的数据,利用联邦学习的方法,让模型在各个参与方上进行训练,最终将这些模型进 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于信息熵的联邦决策树信息量度量方法,包括以下训练过程和度量过程,其特征在于:所述训练过程包括:
S1、
配置联邦学习的环境及数据准备所述联邦学习环境配置,包括配置参数服务器,将
N
个参与者与参数服务器接入私有网络;所述数据准备包括样本数据获取及预处理,样本数据获取及预处理过程如下:各参与者获取各自的样本数据与数据标签
F
i
,并将样本数据与数据标签
F
i
上传给参数服务器;样本数据包含样本
id、
商品
id、
类别
、
浏览时间
、
浏览时长等,其中表示第
i
个参与者的样本数据
,F
i
表示第
i
个参与者的数据标签
。
本实施例通过采集用户商品浏览行为数据与加入购物车商品标签,获取样本数据与数据标签
F
i
;参数服务器合并各参与者上传的样本
id
得到样本
id
集合
D
,合并各参与者上传的标签
F
i
得到标签集合
F
;
S2、
联合参与方与参数服务器共同构建
CART
树
S2.1、
参数服务器创建决策树
T
,并在
T
上创建空根节点
node
,实现决策树构建的初始化;
S2.2、
参数服务器向各参与者分发决策树
T
的结构,并标注当前新增的空节点
node
;
S2.3、
参与者根据
S2.2
提供的决策树的结构更新本地决策树结构后,计算当前节点的分割参数,并反馈计算结果至参数服务器;节点分割参数包括:本地最优基尼指数
Gini
i
、
最优分割标签
j
i
、
最优分割值
s
i
以及流向概率
p
i
;
S2.4、
参数服务器计算全局节点分割参数,以确定本通信轮次备选参与者
、
筛选出劣质参与者终止后续训练过程;
S2.5、
参与者根据
S2.4
参数服务器确定的本通信轮次备选参与者,选择删除或保存节点信息,并将删除或保存节点信息并发送至参数服务器;
S2.6、
重复
S2.2
至
S2.6
,更新决策树结构
T
,直至联邦决策树构建完成;
S3、
集合多棵
CART
树形成联邦决策树森林
S3、
将联邦决策树加入联邦决策树森林,根据需要决定森林的大小,如果森林不够大,则重复执行
S2
;所述度量过程包括:
S4、
分别计算每颗树的信息含量;以参与者
i
为例,每颗树的信息含量计算过程如下:
S4.1、
根据参与者编号划分树的节点,节点划分规则为:保留通信轮次备选参与者编号与参与者
i
编号相同的节点信息,其余节点置为空节点;
S4.2、
找出节点流向线路组合,包括找出所有节点流向线路和计算流向概率两部分;所述流向线路是利用决策树样本预测原理予以找出,流向线路概率则由预设计算规则得出;
S4.3、
汇总所有流向线路组合,构建流向路线概率分布表;
S4.4、
利用公式
(1)
计算每个流向路线的熵值
CH
,公式
(1)
如下所示:
CH
=
‑
∑p(x
j
)*log2(p(x
j
))
ꢀꢀꢀꢀ
#(1)
其中,
p(x
j
)
表示第
x
j
个叶子的概率分布;
S4.5、
计算每个流向路线的流向概率;
S4.6、
利用公式
(2)
计算决策树
T
的熵值
TH
,公式
(2)
如下所示:
TH
=
∑p
k
*CH
ꢀꢀꢀꢀ
#(2)
其中
,p
k
表示第
k
个流向路线的流向概率;
S4.7、
将所有节点置为空节点,计算决策树
T
空树的熵值
TH
′
;
S4.8、
根据决策树
T
的熵值
TH、
空树的熵值
TH
′
,利用公式
(3)
计算得到决策树
T
的信息含量
T
info
,公式
(3)
如下所示;
T
info
=
TH
′‑
TH。2.
如权利要求1所述的一种基于信息熵的联邦决策树信息量度量方法,其特征在于,所述
S2.2
中参数服务器向各参与者分发决策树
T
的结构的方法包括:
S2.2.1、
参数服务器从
D
按
80
%的概率随机抽样得到全局样本
id
抽样子集
D
′
、
从
F
按
80
%的概率随机抽样得到全局数据标签抽样子集
F
技术研发人员:陈爱国,罗光春,朱大勇,李家豪,陈嘉庚,蔡政澳,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。