一种基于安全多方计算技术的数据异常点清洗方法技术

技术编号:21572142 阅读:36 留言:0更新日期:2019-07-10 15:33
本发明专利技术属于信息安全技术领域,公开了一种基于安全多方计算技术的数据异常点清洗方法,所述基于安全多方计算技术的数据异常点清洗方法包括:将A与B两个参与方的数据统一为矩阵格式,拥有相同维度,并且最后一维为该条数据的AVF值;参与方A与参与方B利用安全多方计算算法ABY中的Yao’s加密算法对数据矩阵进行加密;服务器A与服务器B对各参与方上传的加密数据集进行数据异常点清洗。本发明专利技术结合安全多方计算技术和AVF异常值检测算法,利用现有的安全多方计算工具ABY算法,实现了对高维数据的高效检测,并且在保证一定效率的前提下利用安全多方计算技术中的Yao’s加密算法保证了各方数据隐私相当的安全性。

A Data Abnormal Point Cleaning Method Based on Safe Multi-party Computing Technology

【技术实现步骤摘要】
一种基于安全多方计算技术的数据异常点清洗方法
本专利技术属于信息安全
,尤其涉及一种基于安全多方计算技术的数据异常点清洗方法。
技术介绍
目前,最接近的现有技术:联合数据源是指机器学习训练过程中,多个参与方拥有同一类型的数据,将这些数据融合起来,可以扩大训练数据集规模,提升模型训练结果的准确度。机器学习发展至今,模型的优劣在很大程度上取决于数据集的规模与质量,因此联合数据源学习成为机器学习发展的一大趋势。但是随着联合数据源训练优势而来的,就是多数据源数据隐私安全保护的新问题,由于在一些场景下,各参与方拥有的数据也许是隐私敏感的,比如一些商业数据或者一些客户的隐私信息,如医疗信息或财产信息等,这样的数据对隐私保护的要求极高,自然也很难做到随意共享。随着大家对于数据融合的需求逐渐增加,针对保护数据隐私的算法也陆续出现。如增加可信第三方的方法,多个参与方共同认证一个可信的第三方,将各自的明文数据上传给第三方,由第三方进行数据清洗、训练等任务,可信第三方往往是一些具有公信力的组织,或者一些提供收费服务的云计算提供者。这样带来的好处是实现了数据的隐私保护,同时也达到了融合数据的目的。但是这种算法存在一定的安全风险,可信第三方往往是诚实但好奇的,如果在收集到数据进行处理的过程中有不可预料的数据泄露,或者遇到恶意的第三方窃取数据信息,往往会造成严重的后果。随着各领域技术的融会贯通,密码学的思维被应用在了联合数据源训练的领域,即使用成熟的加密算法,将各参与方的数据进行加密,再将加密数据集合起来送给可信第三方,可信第三方并不拥有敏感的明文数据,只拥有加密后看上去毫无现实意义的密文数据,加密算法往往采用同态加密,即明文加密后,对密文进行怎样的运算,等同于对明文进行同样的运算,这种加密方法保证了密文训练的可行性,这样就极大程度的保证了数据的隐私性。但是同样,这样的算法也存在现实问题,最大的问题就是安全与效率之间的博弈,目前已有的同态加密算法,得到结果往往需要耗费大量的时间和计算资源,在对隐私要求没有那么高的场景下,这种算法只有极低的使用效率,并不适合大量推广。现有技术一提出了一种利用同态加密算法解决多数据源联合数据异常点清洗的算法,利用同态加密算法对各方数据进行加密,然后采用AVF异常点检测算法对数据集中的异常点进行筛选和清洗,但是由于同态加密本身的效率限制,其加解密所需的时间和计算资源较多,导致该算法相对计算效率较低,不能满足大量的数据处理需求;现有技术二提出了基于LOF异常点检测算法的隐私保护数据清洗方案,但是由于其基于数据分布密度而决策数据是否为异常点的性质,如果数据的维度较高,则无法有效的根据分布密度的区别来分辨异常点的存在,因此该技术存在一定的面对高维数据集时处理效率较低的问题。综上所述,现有技术存在的问题是:(1)现有利用同态加密算法解决多数据源联合数据异常点清洗的算法,计算效率较低,不能满足大量的数据处理需求。(2)现有基于LOF异常点检测算法的隐私保护数据清洗方案存在面对高维数据集时处理效率较低的问题。针对以上技术存在问题,需要一种能够平衡计算效率与安全性的新的技术,能够改进传统同态加密算法的低效率和高能耗,还能够保证必要的数据隐私安全需求,同时为了更好地适应实际实施实例,还需要能够支持高维数据的处理。解决上述技术问题的意义:针对以上技术存在的问题进行改进之后,可以使算法更加适应实际使用环境,提升了实际使用效率,增加了算法的可实施度,能够更好地保护敏感数据的隐私安全。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于安全多方计算技术的数据异常点清洗方法。本专利技术是这样实现的,一种基于安全多方计算技术的数据异常点清洗方法,所述基于安全多方计算技术的数据异常点清洗方法包括:第一步,将A与B两个参与方的数据统一为矩阵格式,拥有相同维度,并且最后一维为该条数据的AVF值;第二步,参与方A与参与方B利用安全多方计算算法ABY中的Yao’s加密算法对数据矩阵进行加密;第三步,服务器A与服务器B对各参与方上传的加密数据集进行数据异常点清洗。进一步,所述第一步参与方A与参与方B按照规定统一自有数据集格式:其中,D1表示参与方A的N×(M+1)的数据集矩阵,aij表示参与方A数据集中的任意数据,avfai表示参与方A第i条数据的AVF值,i∈[1,N],j∈[1,M],M,N∈N+;D2表示参与方B的P×(M+1)的数据集矩阵,bkj表示参与方B数据集中的任意数据,avfbk表示参与方A第k条数据的AVF值,k∈[1,P],j∈[1,M],M,P∈N+。其中两个参与方的数据维度相同。进一步,所述第二步参与方A与参与方B按照规定加密自有数据集具体包括:1)利用安全多方计算加密ABY算法中的Yao’s加密算法对参与方A的数据集D1进行加密:其中,表示加密后的数据集交给服务器A的部分,表示加密后的数据集交给服务器B的部分,Enc表示Yao’s加密算法,D1表示参与方A的数据集;具体按照下式加密每一个元素:其中,表示加密后的数据交给服务器A的部分,表示加密后的数据交给服务器B的部分,aij表示参与方A的任意数据;表示加密后的参与方A的第i条数据的AVF值交给服务器A的部分,表示加密后的参与方A的第i条数据的AVF值交给服务器B的部分,avfai表示参与方A的第i条数据的AVF值;2)利用下式表示加密后的参与方A的数据集:其中,X10表示服务器A持有的参与方A的加密数据集,X11表示服务器B持有的参与方A的加密数据集,i∈[1,N],j∈[1,M],M,N∈N+;3)利用安全多方计算加密ABY算法中的Yao’s加密算法对参与方B的数据集D2进行加密:其中,表示加密后的数据集交给服务器A的部分,表示加密后的数据集交给服务器B的部分,Enc表示Yao’s加密算法,D2表示参与方B的数据集;具体按照下式加密每一个元素:其中,表示加密后的数据交给服务器A的部分,表示加密后的数据交给服务器B的部分,bkj表示参与方A的任意数据;表示加密后的参与方B的第k条数据的AVF值交给服务器A的部分,表示加密后的参与方B的第k条数据的AVF值交给服务器B的部分,avfbk表示参与方B的第k条数据的AVF值;4)利用下式表示加密后的参与方B的数据集:其中,X20表示服务器A持有的参与方B的加密数据集,X21表示服务器B持有的参与方B的加密数据集,k∈[1,P],j∈[1,M],M,P∈N+;5)参与方A与参与方B分别将加密后的数据上传至对应服务器。进一步,所述第三步服务器A与服务器B对各参与方上传的加密数据集进行数据异常点清洗具体包括:1)服务器A提取自己拿到的参与方A的加密数据集中的最后一维数据:服务器A使用安全加密算法ABY中的Yao’s加密算法中的排序算法对A10进行排序:A′10=Sort(A10);其中,A10表示服务器A拥有的参与方A的加密数据集中最后一维数据,A′10表示A10按照降序排序完成后的数据,Sort()表示Yao’s加密算法中的排序算法;以A10为基准将X10也同时排序,即按照A10降序排列X10,排序完成后:其中,X′10为以X10最后一维数据,即A10为基准降序排序完成后的参与方A提交给服务器A的数据集,i∈本文档来自技高网
...

【技术保护点】
1.一种基于安全多方计算技术的数据异常点清洗方法,其特征在于,所述基于安全多方计算技术的数据异常点清洗方法包括:第一步,将A与B两个参与方的数据统一为矩阵格式,拥有相同维度,并且最后一维为该条数据的AVF值;第二步,参与方A与参与方B利用安全多方计算算法ABY中的Yao’s加密算法对数据矩阵进行加密;第三步,服务器A与服务器B对各参与方上传的加密数据集进行数据异常点清洗。

【技术特征摘要】
1.一种基于安全多方计算技术的数据异常点清洗方法,其特征在于,所述基于安全多方计算技术的数据异常点清洗方法包括:第一步,将A与B两个参与方的数据统一为矩阵格式,拥有相同维度,并且最后一维为该条数据的AVF值;第二步,参与方A与参与方B利用安全多方计算算法ABY中的Yao’s加密算法对数据矩阵进行加密;第三步,服务器A与服务器B对各参与方上传的加密数据集进行数据异常点清洗。2.如权利要求1所述的基于安全多方计算技术的数据异常点清洗方法,其特征在于,所述第一步参与方A与参与方B按照规定统一自有数据集格式:其中,D1表示参与方A的N×(M+1)的数据集矩阵,aij表示参与方A数据集中的任意数据,avfai表示参与方A第i条数据的AVF值,i∈[1,N],j∈[1,M],M,N∈N+;D2表示参与方B的P×(M+1)的数据集矩阵,bkj表示参与方B数据集中的任意数据,avfbk表示参与方A第k条数据的AVF值,k∈[1,P],j∈[1,M],M,P∈N+;其中两个参与方的数据维度相同。3.如权利要求1所述的基于安全多方计算技术的数据异常点清洗方法,其特征在于,所述第二步参与方A与参与方B按照规定加密自有数据集具体包括:1)利用安全多方计算加密ABY算法中的Yao’s加密算法对参与方A的数据集D1进行加密:其中,表示加密后的数据集交给服务器A的部分,表示加密后的数据集交给服务器B的部分,Enc表示Yao’s加密算法,D1表示参与方A的数据集;具体按照下式加密每一个元素:其中,表示加密后的数据交给服务器A的部分,表示加密后的数据交给服务器B的部分,aij表示参与方A的任意数据;表示加密后的参与方A的第i条数据的AVF值交给服务器A的部分,表示加密后的参与方A的第i条数据的AVF值交给服务器B的部分,avfai表示参与方A的第i条数据的AVF值;2)利用下式表示加密后的参与方A的数据集:其中,X10表示服务器A持有的参与方A的加密数据集,X11表示服务器B持有的参与方A的加密数据集,i∈[1,N],j∈[1,M],M,N∈N+;3)利用安全多方计算加密ABY算法中的Yao’s加密算法对参与方B的数据集D2进行加密:其中,表示加密后的数据集交给服务器A的部分,表示加密后的数据集交给服务器B的部分,Enc表示Yao’s加密算法,D2表示参与方B的数据集;具体按照下式加密每一个元素:其中,表示加密后的数据交给服务器A的部分,表示加密后的数据交给服务器B的部分,bkj表示参与方A的任意数据;表示加密后的参与方B的第k条数据的AVF值交给服务器A的部分,表示加密后的参与方B的第k条数据的AVF值交给服务器B的部分,avfbk表示参与方B的第k条数据的AVF值;4)利用下式表示加密后的参与方B的数据集:其中,X20表示服务器A持有的参与方B的加密数据集,X21表示服务器B持有的参与方B的加密数据集,k∈[1,P],j∈[1,M],M,P∈N+;5)参与方A与参与方B分别将加密后的数据上传至对应服务器。4.如权利要求1所述的基于安全多方计算技术的数据异常点清洗方法,其特征在于,所述第三步服务器A与服务器B对各参与方上传的加密数据集进行数据异常点清洗具体包括:1)服务器A提取自己拿到的参与方A的加密数据集中的最后一维数据:服务器A使用安全加密算法ABY中的Yao’s加密算法中的排序算法对A10进行排序:A′10=Sort(A10);其中,A10表示服务器A拥有的参与方A的加密数据集中最后一维数据,A′10表示A′10按照降序排序完成后的数据,Sort()表示Yao’s加密算法中的排序算法;以A10为基准将X10也同时排序,即按照A10降序排列X10,排序完成后:其中,X′10为以X10最后一维数据,即A10为基准降序排序完成后的参与方A提交给服务器A的数据集,i∈[1,N],j∈[1,M],M,N∈N+;规定一个固定值Thre,表示AVF值在正常范围内的阈值,将A′10中的数据,按顺序与Thre比较大小:Resi=Comp(A′10i,Thre);其中,A′10i表示A′10中的元素,i′[1,N],N∈N+,Comp()表示Yao’s加密算法中的比较大小算法,Resi表示A′10i与Thre比较的结果,若Resi值为1,表示A′10i≥Thre;若Resi值为0,表示A′10i<Thre,将A′10中的数据,按顺序与Thre比较大小,直到Resi=0,停止比较,将X′10中的前i行数据保留:其中,I=i,为排序之后保留的前i行数据,j∈[1,M],M∈...

【专利技术属性】
技术研发人员:刘雪峰杨烨裴庆祺
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1