基于随机森林的数据分类方法、装置、设备及存储介质制造方法及图纸

技术编号：40552625 阅读：9 留言：0更新日期：2024-03-05 19:12

本发明专利技术公开了一种基于随机森林的数据分类方法、装置、设备及存储介质，所述方法通过发起方客户端获取待处理数据对应的当前决策树的根节点处的可用样本，为可用样本构建样本掩码向量和标签辅助向量，根据样本掩码向量和标签辅助向量生成向量密文，并将向量密文发送给各持有特征的合作方客户端；合作方客户端对当前节点进行任意分割，获得分割后的子节点样本的样本数量密文，将盲化操作后的样本数量密文发送至发起方客户端；发起方客户端根据最终gain值确定在达到停止决策树分裂条件时，停止训练当前决策树，根据随机森林对待处理数据进行分类；大大减少了通讯消耗，减轻通信负担，提高了模型训练效率，保证了数据隐私保护的安全性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据分类，尤其涉及一种基于随机森林的数据分类方法、装置、设备及存储介质。

技术介绍

1、现实中，大数据分散在不同的企业或政府机构中，以数据孤岛的形式存储，难以在数据隐私和相关法规下进行集成，即跨域的数据不能相互共享；对于企业来说，数据是企业最重要的资产之一，且不易共享；政府的数据是高度安全的，大多数没有被利用；此外，现在人们对数据隐私高度敏感；如何利用来自多个组织或设备的分布式数据库中的数据，为客户提供更好的服务和获取服务，已经引起了越来越多的关注；而联邦学习是一种很好的解决方案，它使多个数据所有者能够联合训练模型，而不会相互泄露其私有数据；现有关于联邦学习的研究主要集中在横向联邦学习，然而在实践中，经常需要纵向联邦学习，例如基于随机森林的纵向联邦学习模型，其核心思想就是集成多个弱分类器以达到三个臭皮匠赛过诸葛亮的效果，具有抗过拟合能力，但目前仅有少数解决方案，并且这些解决方案在效率和数据隐私保护方面都是不够的。

2、例如，federated forest提出的可以提供隐私保护联邦森林模型，采用加密和建立第三方可信服务器的方法实现了数据的保护，其虽然实现了与非隐私保护方法相同的准确性并将信息交换的内容和数量限制在最低限度，但即使采用标签编码的方式，各合作方仍然可以猜测出真实的标签值(尤其是对于二叉树分类)，造成样本标签信息的泄露，该模型为了提高计算效率，在隐私保护上做出了一定妥协。

3、而基于pivot的纵向联邦学习方案，利用了模型预测控制(model predictivecontrol，m

技术实现思路

1、本专利技术的主要目的在于提供一种基于随机森林的数据分类方法、装置、设备及存储介质，旨在解决现有技术中数据分类容易造成样本标签信息泄露，隐私保护较差，安全比较算法所需的通讯次数随着参与方数量和数据大小的增大而增大，降低了模型的训练效率的技术问题。

2、第一方面，本专利技术提供一种基于随机森林的数据分类方法，所述基于随机森林的数据分类方法包括以下步骤：

3、发起方客户端获取待处理数据对应的当前决策树的根节点处的可用样本，为所述可用样本构建样本掩码向量和标签辅助向量，根据所述样本掩码向量和所述标签辅助向量生成向量密文，并将所述向量密文发送给各持有特征的合作方客户端；

4、合作方客户端基于本地数据及同态加密算法，根据预设分割阈值对当前节点进行任意分割，获得分割后的左右子节点样本集中子节点样本的样本数量密文以及左右子节点样本集中各标签类中的样本数量密文；

5、所述合作方客户端为所述子节点样本的样本数量密文和各标签类中的样本数量密文添加盲化值，获得盲化操作后的目标样本数据密文，将所述目标样本数量密文发送至对应的发起方客户端；

6、所述发起方客户端获取盲化操作后的目标样本数量密文后，用所述发起方客户端的私钥解密所述目标样本数量密文，获得解密明文，将所述解密明文返回至所述合作方客户端；

7、所述发起方客户端对所述解密明文进行数据去盲，各合作方将本地的所有gain值进行比较，计算获取最优分割gain值，将所述最优分割gain值反馈至所述发起方客户端；

8、所述发起方客户端将所述最优分割gain值集和所述发起方客户端的本地gain值进行汇总比较，求得全局最优gain值，将所述全局最优gain值作为最终gain值；

9、所述发起方客户端根据所述最终gain值确定在达到停止决策树分裂条件时，停止训练当前决策树，在所有决策树训练完成后，生成随机森林，根据所述随机森林对所述待处理数据进行分类。

10、可选地，所述发起方客户端获取待处理数据对应的当前决策树的根节点处的可用样本，为所述可用样本构建样本掩码向量和标签辅助向量，根据所述样本掩码向量和所述标签辅助向量生成向量密文，并将所述向量密文发送给各持有特征的合作方客户端，包括：

11、所述发起方客户端从预设样本集中有放回的随机选择n个样本和若干特征作为可用样本来训练当前决策树；

12、所述发起方客户端为所述可用样本构建样本掩码向量及标签辅助向量；

13、所述发起方客户端基于同态加密算法加密所述样本掩码向量，获得样本掩码向量密文，并计算所述标签辅助向量对应的标签辅助向量密文，将所述样本掩码向量密文和所述标签辅助向量密文作为向量密文，并将所述向量密文发送给各持有特征的合作方客户端。

14、可选地，所述发起方客户端为所述可用样本构建样本掩码向量及标签辅助向量，包括：

15、所述发起方客户端为所述可用样本通过下式构建样本掩码向量：

16、α＝{α1，α2，…，αn}

17、其中，α为样本掩码向量；

18、通过下式构建每个类标签的标签辅助向量：

19、

20、其中，[γk]为可用样本集中标签为k的标签辅助向量，表示明文与密文的乘法同态计算，βk为辅助向量，βk＝{βk，1，βk，2，…，βk，n}，(βk，i＝0，1)，若样本i的类标签为k，则βk，i＝1，否则βk，i＝0，α为样本掩码向量，[α]＝{[α1]，[α2]，...，[αn]}，[·]为加法同态加密值。

21、可选地，所述合作方客户端基于本地数据及同态加密算法根据预设分割阈值对当前节点进行任意分割，获得分割后的左右子节点样本集中子节点样本的样本数量密文以及左右子节点样本集中各标签类中的样本数量密文，包括：

22、合作方客户端基于本地数据及同态加密算法构建两个大小为n的指示向量；

23、根据预设分割阈值对当前节点进行任意分割，通过下式获得分割后的左右子节点样本集中子节点样本的样本数量密文以及左右子节点样本集中各标签类中的样本数量密文：

24、

25、

26、

27、

28、其中，nl、nr分别为以每个分割阈值τ时，分割后左右子节点样本集中子节点样本的样本数量；“·”表示向量内积，⊙表示向量点集同态计算；vl为大小为n的左指示向量，α为样本掩码向量；vr为大小为n的右指示向量，[γk]为可用样本集中标签为k的标签辅助向量，表示明文与密文的乘法同态计算，[gl,k]为以τ为分割阈值时，分割后左右子节点样本集中各标签类中的样本数量密文。

29、可选地，所述发起方客户端对所述解密明文进行数据去盲，各合作方将本地的所有gain值进行比较，计算获取最优分割gain值，将所述最优分割gain值反馈至所述发起方客户端，包括：

30、所述发起方客户端通过下式对所述解密明文进行数据去盲：

31、...

【技术保护点】

1.一种基于随机森林的数据分类方法，其特征在于，所述基于随机森林的数据分类方法包括：

2.如权利要求1所述的基于随机森林的数据分类方法，其特征在于，所述发起方客户端获取待处理数据对应的当前决策树的根节点处的可用样本，为所述可用样本构建样本掩码向量和标签辅助向量，根据所述样本掩码向量和所述标签辅助向量生成向量密文，并将所述向量密文发送给各持有特征的合作方客户端，包括：

3.如权利要求2所述的基于随机森林的数据分类方法，其特征在于，所述发起方客户端为所述可用样本构建样本掩码向量及标签辅助向量，包括：

4.如权利要求1所述的基于随机森林的数据分类方法，其特征在于，所述合作方客户端基于本地数据及同态加密算法根据预设分割阈值对当前节点进行任意分割，获得分割后的左右子节点样本集中子节点样本的样本数量密文以及左右子节点样本集中各标签类中的样本数量密文，包括：

5.如权利要求1所述的基于随机森林的数据分类方法，其特征在于，所述发起方客户端对所述解密明文进行数据去盲，各合作方将本地的所有gain值进行比较，计算获取最优分割gain值，将所述最优分割g

6.如权利要求1所述的基于随机森林的数据分类方法，其特征在于，所述发起方客户端根据所述最终gain值确定在达到停止决策树分裂条件时，停止训练当前决策树，在所有决策树训练完成后，生成随机森林，根据所述随机森林对所述待处理数据进行分类，包括：

7.如权利要求6所述的基于随机森林的数据分类方法，其特征在于，所述发起方客户端根据所述最终gain值确定对应最优分割点的持有客户端，由持有最优分割点的所述持有客户端计算分割后左右子节点的样本掩码向量密文和样本标签密文向量，并广播给其它所有客户端，包括：

8.一种基于随机森林的数据分类装置，其特征在于，所述基于随机森林的数据分类装置包括：

9.一种基于随机森林的数据分类设备，其特征在于，所述基于随机森林的数据分类设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于随机森林的数据分类程序，所述基于随机森林的数据分类程序配置为实现如权利要求1至7中任一项所述的基于随机森林的数据分类方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有基于随机森林的数据分类程序，所述基于随机森林的数据分类程序被处理器执行时实现如权利要求1至7中任一项所述的基于随机森林的数据分类方法的步骤。

...

【技术特征摘要】

1.一种基于随机森林的数据分类方法，其特征在于，所述基于随机森林的数据分类方法包括：

3.如权利要求2所述的基于随机森林的数据分类方法，其特征在于，所述发起方客户端为所述可用样本构建样本掩码向量及标签辅助向量，包括：

5.如权利要求1所述的基于随机森林的数据分类方法，其特征在于，所述发起方客户端对所述解密明文进行数据去盲，各合作方将本地的所有gain值进行比较，计算获取最优分割gain值，将所述最优分割gain值反馈至所述发起方客户端，包括：

6.如权利要求1所述的基于...

【专利技术属性】
技术研发人员：王丽，张方佼，崔昌，孟庆树，董逢华，
申请(专利权)人：武汉天喻信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人