【技术实现步骤摘要】
一种基于安全多方计算技术的数据异常点清洗方法
本专利技术属于信息安全
,尤其涉及一种基于安全多方计算技术的数据异常点清洗方法。
技术介绍
目前,最接近的现有技术:联合数据源是指机器学习训练过程中,多个参与方拥有同一类型的数据,将这些数据融合起来,可以扩大训练数据集规模,提升模型训练结果的准确度。机器学习发展至今,模型的优劣在很大程度上取决于数据集的规模与质量,因此联合数据源学习成为机器学习发展的一大趋势。但是随着联合数据源训练优势而来的,就是多数据源数据隐私安全保护的新问题,由于在一些场景下,各参与方拥有的数据也许是隐私敏感的,比如一些商业数据或者一些客户的隐私信息,如医疗信息或财产信息等,这样的数据对隐私保护的要求极高,自然也很难做到随意共享。随着大家对于数据融合的需求逐渐增加,针对保护数据隐私的算法也陆续出现。如增加可信第三方的方法,多个参与方共同认证一个可信的第三方,将各自的明文数据上传给第三方,由第三方进行数据清洗、训练等任务,可信第三方往往是一些具有公信力的组织,或者一些提供收费服务的云计算提供者。这样带来的好处是实现了数据的隐私保护,同时也达到了融合数据的目的。但是这种算法存在一定的安全风险,可信第三方往往是诚实但好奇的,如果在收集到数据进行处理的过程中有不可预料的数据泄露,或者遇到恶意的第三方窃取数据信息,往往会造成严重的后果。随着各领域技术的融会贯通,密码学的思维被应用在了联合数据源训练的领域,即使用成熟的加密算法,将各参与方的数据进行加密,再将加密数据集合起来送给可信第三方,可信第三方并不拥有敏感的明文数据,只拥有加密后看上去毫无现 ...
【技术保护点】
1.一种基于安全多方计算技术的数据异常点清洗方法,其特征在于,所述基于安全多方计算技术的数据异常点清洗方法包括:第一步,将A与B两个参与方的数据统一为矩阵格式,拥有相同维度,并且最后一维为该条数据的AVF值;第二步,参与方A与参与方B利用安全多方计算算法ABY中的Yao’s加密算法对数据矩阵进行加密;第三步,服务器A与服务器B对各参与方上传的加密数据集进行数据异常点清洗。
【技术特征摘要】
1.一种基于安全多方计算技术的数据异常点清洗方法,其特征在于,所述基于安全多方计算技术的数据异常点清洗方法包括:第一步,将A与B两个参与方的数据统一为矩阵格式,拥有相同维度,并且最后一维为该条数据的AVF值;第二步,参与方A与参与方B利用安全多方计算算法ABY中的Yao’s加密算法对数据矩阵进行加密;第三步,服务器A与服务器B对各参与方上传的加密数据集进行数据异常点清洗。2.如权利要求1所述的基于安全多方计算技术的数据异常点清洗方法,其特征在于,所述第一步参与方A与参与方B按照规定统一自有数据集格式:其中,D1表示参与方A的N×(M+1)的数据集矩阵,aij表示参与方A数据集中的任意数据,avfai表示参与方A第i条数据的AVF值,i∈[1,N],j∈[1,M],M,N∈N+;D2表示参与方B的P×(M+1)的数据集矩阵,bkj表示参与方B数据集中的任意数据,avfbk表示参与方A第k条数据的AVF值,k∈[1,P],j∈[1,M],M,P∈N+;其中两个参与方的数据维度相同。3.如权利要求1所述的基于安全多方计算技术的数据异常点清洗方法,其特征在于,所述第二步参与方A与参与方B按照规定加密自有数据集具体包括:1)利用安全多方计算加密ABY算法中的Yao’s加密算法对参与方A的数据集D1进行加密:其中,表示加密后的数据集交给服务器A的部分,表示加密后的数据集交给服务器B的部分,Enc表示Yao’s加密算法,D1表示参与方A的数据集;具体按照下式加密每一个元素:其中,表示加密后的数据交给服务器A的部分,表示加密后的数据交给服务器B的部分,aij表示参与方A的任意数据;表示加密后的参与方A的第i条数据的AVF值交给服务器A的部分,表示加密后的参与方A的第i条数据的AVF值交给服务器B的部分,avfai表示参与方A的第i条数据的AVF值;2)利用下式表示加密后的参与方A的数据集:其中,X10表示服务器A持有的参与方A的加密数据集,X11表示服务器B持有的参与方A的加密数据集,i∈[1,N],j∈[1,M],M,N∈N+;3)利用安全多方计算加密ABY算法中的Yao’s加密算法对参与方B的数据集D2进行加密:其中,表示加密后的数据集交给服务器A的部分,表示加密后的数据集交给服务器B的部分,Enc表示Yao’s加密算法,D2表示参与方B的数据集;具体按照下式加密每一个元素:其中,表示加密后的数据交给服务器A的部分,表示加密后的数据交给服务器B的部分,bkj表示参与方A的任意数据;表示加密后的参与方B的第k条数据的AVF值交给服务器A的部分,表示加密后的参与方B的第k条数据的AVF值交给服务器B的部分,avfbk表示参与方B的第k条数据的AVF值;4)利用下式表示加密后的参与方B的数据集:其中,X20表示服务器A持有的参与方B的加密数据集,X21表示服务器B持有的参与方B的加密数据集,k∈[1,P],j∈[1,M],M,P∈N+;5)参与方A与参与方B分别将加密后的数据上传至对应服务器。4.如权利要求1所述的基于安全多方计算技术的数据异常点清洗方法,其特征在于,所述第三步服务器A与服务器B对各参与方上传的加密数据集进行数据异常点清洗具体包括:1)服务器A提取自己拿到的参与方A的加密数据集中的最后一维数据:服务器A使用安全加密算法ABY中的Yao’s加密算法中的排序算法对A10进行排序:A′10=Sort(A10);其中,A10表示服务器A拥有的参与方A的加密数据集中最后一维数据,A′10表示A′10按照降序排序完成后的数据,Sort()表示Yao’s加密算法中的排序算法;以A10为基准将X10也同时排序,即按照A10降序排列X10,排序完成后:其中,X′10为以X10最后一维数据,即A10为基准降序排序完成后的参与方A提交给服务器A的数据集,i∈[1,N],j∈[1,M],M,N∈N+;规定一个固定值Thre,表示AVF值在正常范围内的阈值,将A′10中的数据,按顺序与Thre比较大小:Resi=Comp(A′10i,Thre);其中,A′10i表示A′10中的元素,i′[1,N],N∈N+,Comp()表示Yao’s加密算法中的比较大小算法,Resi表示A′10i与Thre比较的结果,若Resi值为1,表示A′10i≥Thre;若Resi值为0,表示A′10i<Thre,将A′10中的数据,按顺序与Thre比较大小,直到Resi=0,停止比较,将X′10中的前i行数据保留:其中,I=i,为排序之后保留的前i行数据,j∈[1,M],M∈...
【专利技术属性】
技术研发人员:刘雪峰,杨烨,裴庆祺,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。