Data conversion method, device and electronic equipment are disclosed in this application. The method comprises: receiving the original data, and in the receiving process repeatedly set partitioning of the original data has been received; according to the change of the original data in the original data set divided by each set in the partition of the set of parameter distribution, determine the final; the original data using the final partition of the set of parameters divide the set of desensitization conversion processing, get desensitization data. The embodiment of the invention can convert desensitization processing the original data provided by the data, and to some extent, can retain the distribution characteristics of the original data, then the data obtained will provide desensitization to the data storage platform, which helps to reduce the risk of owning the data privacy through the data storage platform is conducive to the leak. Data sharing and utilization.
【技术实现步骤摘要】
数据转换方法、装置以及电子设备
本申请涉及计算机软件
,尤其涉及数据转换方法、装置以及电子设备。
技术介绍
随着计算机技术和互联网技术的迅速发展,网络上的数据也爆炸式地增长,这些数据分布在不同的数据拥有者手中,通过一定的数据存储平台,可以将这些数据进行汇聚,以用于实现更大的价值,比如,用于构建信用模型等,用于进行数据挖掘等。在现有技术中,数据拥有者向数据存储平台提供的原始数据往往包含有数据拥有者的隐私,而由于数据存储平台对于数据拥有者而言可控性较差,导致数据拥有者的隐私有通过数据存储平台泄露的风险,进而不利于数据的共享利用。
技术实现思路
本申请实施例提供数据转换方法、装置以及电子设备,用以解决现有技术中的如下技术问题:数据拥有者向数据存储平台提供的原始数据往往包含有数据拥有者的隐私,而由于数据存储平台对于数据拥有者而言可控性较差,导致数据拥有者的隐私有通过数据存储平台泄露的风险,进而不利于数据的共享利用。为解决上述技术问题,本申请实施例是这样实现的:本申请实施例提供的一种数据转换方法,包括:接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。本申请实施例提供的一种数据转换装置,包括:数据接收划分模块,接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;最终参数确定模块,根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数 ...
【技术保护点】
一种数据转换方法,包括:接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。
【技术特征摘要】
1.一种数据转换方法,包括:接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。2.如权利要求1所述的方法,所述在接收过程中多次对已接收到的原始数据进行集合划分,具体包括:在接收过程中,每当接收到设定数量的原始数据时,对已接收到的全部原始数据进行一次集合划分。3.如权利要求2所述的方法,所述根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数,具体包括:将每次集合划分及其前一次集合划分得到的原始数据集合进行对比,和/或将每次集合划分及其前一次集合划分采用的集合划分参数进行对比;根据对比结果,确定原始数据集合中的原始数据分布变化情况;当原始数据分布变化程度小于指定阈值时,将当次集合划分或者其前一次集合划分时采用的集合划分参数确定为最终的集合划分参数。4.如权利要求3所述的方法,所述将每次集合划分得到的原始数据集合与前一次集合划分得到的原始数据集合进行对比,具体包括:分别计算每次集合划分及其前一次集合划分得到的各原始数据集合中的数据在对应的已接收到的原始数据中的占比;将分别计算出的占比进行对比。5.如权利要求1所述的方法,当所述原始数据均为数值型数据时,所述对已接收到的原始数据进行集合划分,具体包括:采用等距划分的方式对已接收到的原始数据进行集合划分;或者,采用等频划分的方式对已接收到的原始数据进行集合划分。6.如权利要求5所述的方法,所述采用等距划分的方式对已接收到的原始数据进行集合划分,具体包括:确定一个待划分数值区间;将所述待划分数值区间划分为多个等长的数值子区间;分别将每个所述数值子区间包含的已接收到的原始数据划分为一个原始数据集合。7.如权利要求5所述的方法,所述采用等频划分的方式对已接收到的原始数据进行集合划分,具体包括:对已接收到的原始数据进行排序;根据排序结果,将所述已接收到的原始数据划分为多个原始数据集合,每个所述原始数据集合中包含的原始数据数量相同。8.如权利要求1所述的方法,当所述原始数据均为非数值型数据时,所述对已接收到的原始数据进行集合划分,具体包括:在已接收到的原始数据中分别确定不同的非数值型数据分别的占比;将占比小于设定比例的全部非数值型数据划分为一个原始数据集合,以及将占比不小于所述设定比例的不同的非数值型数据划分为一个或者多个原始数据集合。9.如权利要求1所述的方法,所述在接收过程中多次对已接收到的原始数据进行集合划分,具体包括:在接收过程中,每当接收到设定数量的原始数据时,将已接收到的全部原始数据划分为一个原始数据集合。10.如权利要求9所述的方法,所述根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数,具体包括:确定每次集合划分得到的原始数据集合相比于其前一次集合划分得到的原始数据集合,新增且不与之前重复的原始数据的占比;当所述占比小于设定阈值时,根据当次集合划分得到的原始数据集合,确定最终的集合划分参数。11.如权利要求10所述的方法,所述根据当次集合划分得到的原始数据集合,确定最终的集合划分参数,具体包括:将设定比例,以及所述当次集合划分得到的原始数据集合确定为最终的集合划分参数。12.如权利要求11所述的方法,按照如下方式,采用所述最终的集合划分参数划分得到原始数据集合:在所述当次集合划分得到的原始数据集合中,将占比不大于所述指定的比例参数的全部原始数据划分为一个原始数据集合,以及将占比大于所述指定的比例参数的相同原始数据分别划分为一个原始数据集合。13.如权利要求1所述的方法,所述对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据,具体包括:分别对采用所述最终的集合划分参数划分得到的每个原始数据集合执行:为该原始数据集合指定一个不同于该原始数据集合中包含的原始数据的数据,分别作为该原始数据集合中包含的每个原始数据对应的脱敏数据。14.如权利要求1所述的方法,所述得到脱敏数据后,所述方法还包括:将所述脱敏数据发送给第三方平台,以用于创建信用模型。15.一种数据转换装置,包括:数据接收划分模块,接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;最终参数确定模块,根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;数据脱敏转换模块,对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。16.如权利要求15所述的装置,所述数据接收划分模块在接收过程中多次对已接收到的原始数据进行集合划分,具体包括:所述数据接收划分模块在接收过程中,每当接收到设定数量的原始数据时,对已接收到的全部原始...
【专利技术属性】
技术研发人员:席炎,王文雯,杜玮,赵星,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。