一种纵向联邦K近邻分类方法技术

技术编号：40925999 阅读：2 留言：0更新日期：2024-04-18 14:49

本发明专利技术公开一种纵向联邦K近邻分类方法，涉及联邦学习领域。该方法，首先计算输入实例与本地训练集实例的距离分量，然后将本地距离分量按序两两相减，形成差值序列，再将两方共同确定一个相同的随机置换参数，各自对己方差值序列随机变换后加扰，将加扰序列和扰动随机数密文发送给协作方，接着将从协作方接收的序列逆置换，构造训练实例的距离权重表，按行相加权重得到每个训练实例的全局距离权重，最后取前K个最小距离权重的训练实例为K近邻，按照分类决策规则决定输入实例的类别。该方法大大增加了中间人攻击反推出原始数据的难度，避免了被拦截破解，即使被拦截破解也无法反推出对方原始数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及联邦学习，具体为一种纵向联邦k近邻分类方法。

技术介绍

1、联邦学习作为分布式的机器学习范式，可以有效解决数据孤岛问题，让参与方在不共享数据的基础上联合建模，能从技术上打破数据孤岛，实现ai协作。

2、参与方常常为两方或者多方，且纵向联邦学习场景下的参与方往往含有相同用户不同维度的特征数据。任意一方在不想泄漏己方特征数据同时使用其他方的特征数据计算相似度进行分类的情况下，就需要将隐私计算技术与k近邻相结合。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本专利技术提供了一种纵向联邦k近邻分类方法，解决了上述
技术介绍
中提出的技术问题。

3、(二)技术方案

4、为实现以上目的，本专利技术通过以下技术方案予以实现：一种纵向联邦k近邻分类方法，包括以下步骤；

5、步骤一、计算输入实例与本地训练集实例的距离分量；

6、步骤二、将本地距离分量按序两两相减，形成差值序列；

7、步骤三、两方共同确定一个相同的随机置换参数，各自对己方差值序列随机变换后加扰，将加扰序列和扰动随机数密文发送给协作方；

8、步骤四、将从协作方接收的序列逆置换，构造训练实例的距离权重表，按行相加权重得到每个训练实例的全局距离权重；

9、步骤五、取前k个最小距离权重的训练实例为k近邻，按照分类决策规则决定输入实例的类别。

10、优选的，所述利用本地训练集实例计算出距离权重确定

11、优选的，所述己方和协作方这两组参与方中至少有一方持有训练实例标签。

12、优选的，所述训练实例标签的获取可采用如下方法获得；

13、一、人工标注，由己方和协作方进行人工标注部分数据，用作训练集，在大数据挖掘中工作量大；

14、二、规则标注、通过己方和协作方设定过滤条件，给部分数据贴上标签，获得训练集，规则设置确保精准，少获得一些训练数据，保证贴上标签的数据非常准确，存在样本不均衡问题，部分类别的样本通过过滤条件能够识别多数样本，部分特殊样本难以通过过滤条件进行识别；

15、三、聚类标注、在特征工程后，通过聚类的方法，获得不同类别的标注，将面对聚类算法本身的一些问题，需确定聚类数目和初始聚类中心，有效解决规则标注过程主观规则带来的有偏问题，聚类算法能够获得相同数据的不同划分方法，需要在特征工程中具体针对设计。

16、优选的，所述随机置换参数的确定可采用密钥协商，某一个参与方生成后用对方发布的公钥进行加密，所述公钥加密方式为了保证参数完整性，可附加采用哈希校验和对密文签名的方式。

17、优选的，所述扰动随机数加密可采用协作方发布的公钥加密。

18、优选的，所述协作方在接收两个参与方的数据后，解密两个扰动随机数，将两个序列去扰聚合相加得到全局差值序列。

19、优选的，所述扰动随机数解密过程包括以下步骤；

20、步骤一：将两个参与方分别标注为p1和p2，所述p1、p2各自计算输入实例与本地训练集实例的距离分量s11，s12，...，s1n,s21，s22，…，s2n；

21、步骤二：p1、p2各自将本地距离分量按序两两相减s1i-s1j，ij∈[1，n]、s2i-s2j，ij∈[1，n]，得到n×n大小的差值序列φ、ψ；

22、步骤三：p1把己方随机生成的置换顺序参数r加密发送给p2，p2接收后解密得到相同的置换顺序参数r，p1和p2各自对己方差值序列置换得到φ、ψ；

23、步骤四：p1和p2分别对己方置换后的差值序列加扰r1、r2，将加扰序列φ+r1、ψ+r2和扰动随机数密文enc(r1)、enc(r2)发送给arbiter；

24、步骤五：arbiter接收后解密得r1、r2，将两个序列去扰聚合相加φ′+r1+ψ′+r2-r1-r2得到全局差值序列η即s1i+s2i-s2j-s1j，ij∈[1，n]；

25、步骤六：arbiter计算生成新序列，如下；

26、

27、并将此正负序列η′发送给p1和p2；

28、步骤七：p1和p2各自接收η′并利用置换顺序参数r逆置换，构造训练实例的距离权重表，如图3所示，其中脚标ij索引值为+1则表明第i个实例距离度量大于第j个实例距离度量即s1i+s2i＞s1j+s2j，否则反之，按行相加索引值得到每个训练实例的全局距离权重，取前k个最小距离权重的训练实例为k近邻；

29、步骤八：p1和p2各自按照分类决策规则决定输入实例的类别。

30、优选的，所述协作方为区分全局差值序列数值的正负，对应赋值新序列相应位置+1和-1，并将此正负序列发送给持有训练实例标签的参与方。

31、优选的，所述全局距离差值的聚合通过生成公私钥对，用于对扰动随机数的加密保护，并对外发布公钥。

32、优选的，所述距离分量需要对现有训练集的训练误差进行关注，如果近似误差过小，容易出现过拟合的现象。

33、本专利技术公开了一种纵向联邦k近邻分类方法，其具备的有益效果如下：

34、1、该纵向联邦k近邻分类方法，通过参与方计算距离分量差值，借助协作方进行聚合，而非直接发送距离分量进行聚合，大大增加了中间人攻击反推出原始数据的难度。

35、2、该纵向联邦k近邻分类方法，参与方随机置换差值序列的顺序，防止协作方计算得出有序的全局差值序列，避免了恶意模型中协作方作为恶意方得知k近邻的可能。

36、3、该纵向联邦k近邻分类方法，参与方并非将需聚合的差值序列直接发送协作方，而是各自加扰后发送到协作方，即使通信内容被作为恶意方的参与方拦截破解，恶意方也无法得出另一参与方的距离分量亦无法反推出对方原始数据。

本文档来自技高网...

【技术保护点】

1.一种纵向联邦K近邻分类方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的一种纵向联邦K近邻分类方法，其特征在于：所述利用本地训练集实例计算出距离权重确定K近邻的过程中，距离分量采用Lp距离计算方式|χi-χj|ρ，ρ≥2。

3.根据权利要求1所述的一种纵向联邦K近邻分类方法，其特征在于：所所述己方和协作方这两组参与方中至少有一方持有训练实例标签。

4.根据权利要求3所述的一种纵向联邦K近邻分类方法，其特征在于：所述训练实例标签的获取采用如下方法获得；

5.根据权利要求1所述的一种纵向联邦K近邻分类方法，其特征在于：所述随机置换参数的确定采用密钥协商，某一个参与方生成后用对方发布的公钥进行加密，公钥加密方式为了保证参数完整性，附加采用哈希校验和对密文签名的方式，扰动随机数加密采用协作方发布的公钥加密。

6.根据权利要求5所述的一种纵向联邦K近邻分类方法，其特征在于：所述协作方在接收两个参与方的数据后，解密两个扰动随机数，将两个序列去扰聚合相加得到全局差值序列。

7.根据权利要求6所述的一种纵向联邦K

8.根据权利要求7所述的一种纵向联邦K近邻分类方法，其特征在于：所述扰动随机数解密过程包括以下步骤；

9.根据权利要求8所述的一种纵向联邦K近邻分类方法，其特征在于：所述全局距离差值的聚合通过生成公私钥对，用于对扰动随机数的加密保护，并对外发布公钥。

10.根据权利要求1所述的一种纵向联邦K近邻分类方法，其特征在于：所述距离分量需要对现有训练集的训练误差进行关注，如果近似误差过小，容易出现过拟合的现象。

...

【技术特征摘要】

1.一种纵向联邦k近邻分类方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的一种纵向联邦k近邻分类方法，其特征在于：所述利用本地训练集实例计算出距离权重确定k近邻的过程中，距离分量采用lp距离计算方式|χi-χj|ρ，ρ≥2。

3.根据权利要求1所述的一种纵向联邦k近邻分类方法，其特征在于：所所述己方和协作方这两组参与方中至少有一方持有训练实例标签。

4.根据权利要求3所述的一种纵向联邦k近邻分类方法，其特征在于：所述训练实例标签的获取采用如下方法获得；

5.根据权利要求1所述的一种纵向联邦k近邻分类方法，其特征在于：所述随机置换参数的确定采用密钥协商，某一个参与方生成后用对方发布的公钥进行加密，公钥加密方式为了保证参数完整性，附加采用哈希校验和对密文签名的方式，扰动随机数加密采用协作方发布的公钥加密。

6.根据权...

【专利技术属性】
技术研发人员：李爽，刘志党，胡冲，刘羽琦，黄鑫辰，富惠翀，刘新元，陈祖豪，
申请(专利权)人：天翼云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人