【技术实现步骤摘要】
一种隐私保护的分布式纵向K-means聚类
本专利技术涉及一种隐私保护的聚类方法,特别涉及一种隐私保护的分布式纵向K-means聚类。
技术介绍
在金融风控等及其他领域当中,多家不同的机构需要通过联合建模的方式对自己所拥有的用户群体进行分类分组,此时这些不同的机构用户群体基本相同,但是所拥有的用户属性大不相同,也就是通常所说的数据垂直分割。而由于监管的要求,数据拥有方不能将具体的有可能泄露用户隐私数据的属性分享给第三方机构,这时就需要使用隐私保护技术对这些用户群体进行分类。例如在传统的银行进行用户画像构建过程中需要将数据汇总到沙箱进行宽表建模,易泄露隐私数据且受合规审批制约,同时,受限合规顾虑或敏感性,无法充分获取外部数据源底层更丰富的特征维度数据。利用分布式纵向K-means聚类有效突破银行内部和外部数据建模互通瓶颈以及合规性导致的数据开放受限问题,实现数据隔离、效果无损、参与方对等并共同获益的联合建模。
技术实现思路
本专利技术要解决的技术问题是克服现有技术的缺陷,提供一种隐私保护的分布式纵向K-means聚 ...
【技术保护点】
1.一种隐私保护的分布式纵向K-means聚类,其特征在于,包括以下步骤:/n步骤1,选择其中一个节点M
【技术特征摘要】
1.一种隐私保护的分布式纵向K-means聚类,其特征在于,包括以下步骤:
步骤1,选择其中一个节点M1作为发起方节点,M1生成Paillier公私钥,并将公钥分发给参与方M1,M2…Mn;
步骤2,初始化聚类中心生成:
a)方案1,随机初始化聚类中心:发起方节点M1随机选取K个样本ID,这些ID对应的样本作为该节点的样本中心,然后将这K个样本ID传给其他参与方M1,M2…Mn,其他参与方同样根据这些ID找到己方的所对应的样本中心,这样就找到了K个初始化聚类中心;
b)方案2,使用K-means++优化初始化聚类中心:发起方节点M1随机选取1个样本ID作为第一个初始化聚类中心,这个ID对应的样本作为该节点的样本中心,然后将这个样本ID传给其他参与方M1,M2…Mn,其他参与方同样根据这个ID找到己方的所对应的样本中心,接着发起方计算每个样本距离自己一方已有样本中心的欧式距离平方和,再将这个值加上随机数并用公钥加密再传给下一个参与节点,下一个节点同样计算每个样本距离自己一方已有样本中心的欧式距离平方和并加上上一个节点传过来的欧式距离平方和,直到N个节点全部计算完毕并且第N个节点把最终的平方和汇总到发起方节点M1,发起方减去每个距离对应的随机数并用私钥解密,然后...
【专利技术属性】
技术研发人员:喻博,史楠迪,徐潜,章庆,贺伟,严永峰,
申请(专利权)人:天翼电子商务有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。