数据转换方法、装置以及电子设备制造方法及图纸

技术编号:16644716 阅读:54 留言:0更新日期:2017-11-26 17:09
本申请公开了数据转换方法、装置以及电子设备。所述方法包括:接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。利用本申请实施例,可以对数据拥有者提供的原始数据进行脱敏转换处理,同时一定程度上可以保留原始数据的分布特征,再将得到的脱敏数据提供给数据存储平台,从而有利于降低数据拥有者的隐私通过数据存储平台泄露的风险,则有利于数据的共享利用。

Data conversion method, device and electronic equipment

Data conversion method, device and electronic equipment are disclosed in this application. The method comprises: receiving the original data, and in the receiving process repeatedly set partitioning of the original data has been received; according to the change of the original data in the original data set divided by each set in the partition of the set of parameter distribution, determine the final; the original data using the final partition of the set of parameters divide the set of desensitization conversion processing, get desensitization data. The embodiment of the invention can convert desensitization processing the original data provided by the data, and to some extent, can retain the distribution characteristics of the original data, then the data obtained will provide desensitization to the data storage platform, which helps to reduce the risk of owning the data privacy through the data storage platform is conducive to the leak. Data sharing and utilization.

【技术实现步骤摘要】
数据转换方法、装置以及电子设备
本申请涉及计算机软件
,尤其涉及数据转换方法、装置以及电子设备。
技术介绍
随着计算机技术和互联网技术的迅速发展,网络上的数据也爆炸式地增长,这些数据分布在不同的数据拥有者手中,通过一定的数据存储平台,可以将这些数据进行汇聚,以用于实现更大的价值,比如,用于构建信用模型等,用于进行数据挖掘等。在现有技术中,数据拥有者向数据存储平台提供的原始数据往往包含有数据拥有者的隐私,而由于数据存储平台对于数据拥有者而言可控性较差,导致数据拥有者的隐私有通过数据存储平台泄露的风险,进而不利于数据的共享利用。
技术实现思路
本申请实施例提供数据转换方法、装置以及电子设备,用以解决现有技术中的如下技术问题:数据拥有者向数据存储平台提供的原始数据往往包含有数据拥有者的隐私,而由于数据存储平台对于数据拥有者而言可控性较差,导致数据拥有者的隐私有通过数据存储平台泄露的风险,进而不利于数据的共享利用。为解决上述技术问题,本申请实施例是这样实现的:本申请实施例提供的一种数据转换方法,包括:接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。本申请实施例提供的一种数据转换装置,包括:数据接收划分模块,接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;最终参数确定模块,根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;数据脱敏转换模块,对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。本申请实施例提供的另一种数据转换方法,包括:接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;通过将每次集合划分及其前一次集合划分得到的原始数据集合进行对比,确定原始数据集合中的原始数据分布变化情况;当原始数据分布变化程度小于指定阈值时,将当次集合划分时采用的集合划分参数确定为最终的集合划分参数,并对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。本申请实施例提供的再一种数据转换方法,包括:接收各原始数据;采用等距划分或者等频划分的方式对所述各原始数据进行集合划分;根据划分得到的原始数据集合,对所述各原始数据进行脱敏转换处理,得到对应的脱敏数据。本申请实施例提供的一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:可以对数据拥有者提供的原始数据进行脱敏转换处理,同时一定程度上可以保留原始数据的分布特征,再将得到的脱敏数据提供给数据存储平台,从而有利于降低数据拥有者的隐私通过数据存储平台泄露的风险,则有利于数据的共享利用,因此,可以部分或全部地解决现有技术中的问题。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种数据转换方法的流程示意图;图2为本申请实施例提供的一种实际应用场景下,图1的数据转换方法的一种具体实施方案的部分流程示意图;图3为本申请实施例提供的针对非数值型原始数据,图1的数据转换方法的一种具体实施方案的流程示意图;图4为本申请实施例提供的一种实际应用场景下,图1的数据转换方法的一种应用示意图;图5为本申请实施例提供的对应于图1的一种数据转换装置的结构示意图。具体实施方式本申请实施例提供数据转换方法、装置以及电子设备。为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。本申请的方案的核心思想是:持续地接收原始数据,在接收过程中,定时或不定时地以一定的标准,判定当前已接收到的原始数据是否已处于稳定状态,若是,则可以基于当前的稳定状态,对已接收到的原始数据进行数据脱敏转换;其中,原始数据处于稳定状态可以指:已接收到的全部原始数据在划分出的原始数据集合中的分布已基本稳定,或者新接收到的原始数据在划分出的原始数据集合中的分布已基本稳定。下面对本申请的方案进行详细说明。图1为本申请实施例提供的一种数据转换方法的流程示意图。从程序角度而言,该流程的执行主体可以是服务器上或者终端上的程序,比如,数据转换平台、数据转换应用等。从设备角度而言,该流程的执行主体包括但不限于可作为服务器或者终端的以下至少一种设备:个人计算机、中型计算机、计算机集群、手机、平板电脑、智能可穿戴设备、车机等。图1中的流程可以包括以下步骤:S101:接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分。在本申请实施例中,原始数据一般可以是键值对(也可以称为:字段-字段值、变量-变量值)形式的数据,以字段-字段值为例,在字段已知的情况下,该字段可以省略不包含在对应的原始数据中,则原始数据可以只包含字段值。可以针对指定的每个字段,分别执行图1中的流程,在这种情况下,步骤S101中所述的各原始数据属于同一个字段。比如,对于“月收入”字段,其对应的各原始数据可以是各用户的月收入;再比如,对于“毕业学校”字段,其对应的各原始数据可以是各用户的毕业学校名称;等等。在本申请实施例中,原始数据是有一定的分布特征的,最终会对已接收到的原始数据进行脱敏转换处理,同时又会尽量保留原始数据的分布特征。为了达到这样的目的,可以通过步骤S101中所述的“在接收过程中多次对已接收到的原始数据进行集合划分(以下可以简称为:多次进行集合划分)”对接收到原始数据的分布特征进行探索,随着已接收到的原始数据数量的增加,原始数据的分布往往会逐渐趋向稳定,进而依据稳定后的分布对已接收到的原始数据进行脱敏转换处理。在本申请实施例中,多次进行集合划分的具体实施方式可以有多种。比如,在接收过程中,可以每当接收到设定数量的原始数据时,对已接收到的部分或者全部原始数据进行一次集合划分;再比如,在接收过程中,可以每过设定时间,对已接收到的部分或者全部原始数据进行一次集合划分;等等。进一步地,每次进行集合划分可以采用相同的规则,比如,均以等距的方式划分,均以等频的方式划分等。需要说明的是,采用相同的规则并不意味着每次集本文档来自技高网
...
数据转换方法、装置以及电子设备

【技术保护点】
一种数据转换方法,包括:接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。

【技术特征摘要】
1.一种数据转换方法,包括:接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。2.如权利要求1所述的方法,所述在接收过程中多次对已接收到的原始数据进行集合划分,具体包括:在接收过程中,每当接收到设定数量的原始数据时,对已接收到的全部原始数据进行一次集合划分。3.如权利要求2所述的方法,所述根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数,具体包括:将每次集合划分及其前一次集合划分得到的原始数据集合进行对比,和/或将每次集合划分及其前一次集合划分采用的集合划分参数进行对比;根据对比结果,确定原始数据集合中的原始数据分布变化情况;当原始数据分布变化程度小于指定阈值时,将当次集合划分或者其前一次集合划分时采用的集合划分参数确定为最终的集合划分参数。4.如权利要求3所述的方法,所述将每次集合划分得到的原始数据集合与前一次集合划分得到的原始数据集合进行对比,具体包括:分别计算每次集合划分及其前一次集合划分得到的各原始数据集合中的数据在对应的已接收到的原始数据中的占比;将分别计算出的占比进行对比。5.如权利要求1所述的方法,当所述原始数据均为数值型数据时,所述对已接收到的原始数据进行集合划分,具体包括:采用等距划分的方式对已接收到的原始数据进行集合划分;或者,采用等频划分的方式对已接收到的原始数据进行集合划分。6.如权利要求5所述的方法,所述采用等距划分的方式对已接收到的原始数据进行集合划分,具体包括:确定一个待划分数值区间;将所述待划分数值区间划分为多个等长的数值子区间;分别将每个所述数值子区间包含的已接收到的原始数据划分为一个原始数据集合。7.如权利要求5所述的方法,所述采用等频划分的方式对已接收到的原始数据进行集合划分,具体包括:对已接收到的原始数据进行排序;根据排序结果,将所述已接收到的原始数据划分为多个原始数据集合,每个所述原始数据集合中包含的原始数据数量相同。8.如权利要求1所述的方法,当所述原始数据均为非数值型数据时,所述对已接收到的原始数据进行集合划分,具体包括:在已接收到的原始数据中分别确定不同的非数值型数据分别的占比;将占比小于设定比例的全部非数值型数据划分为一个原始数据集合,以及将占比不小于所述设定比例的不同的非数值型数据划分为一个或者多个原始数据集合。9.如权利要求1所述的方法,所述在接收过程中多次对已接收到的原始数据进行集合划分,具体包括:在接收过程中,每当接收到设定数量的原始数据时,将已接收到的全部原始数据划分为一个原始数据集合。10.如权利要求9所述的方法,所述根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数,具体包括:确定每次集合划分得到的原始数据集合相比于其前一次集合划分得到的原始数据集合,新增且不与之前重复的原始数据的占比;当所述占比小于设定阈值时,根据当次集合划分得到的原始数据集合,确定最终的集合划分参数。11.如权利要求10所述的方法,所述根据当次集合划分得到的原始数据集合,确定最终的集合划分参数,具体包括:将设定比例,以及所述当次集合划分得到的原始数据集合确定为最终的集合划分参数。12.如权利要求11所述的方法,按照如下方式,采用所述最终的集合划分参数划分得到原始数据集合:在所述当次集合划分得到的原始数据集合中,将占比不大于所述指定的比例参数的全部原始数据划分为一个原始数据集合,以及将占比大于所述指定的比例参数的相同原始数据分别划分为一个原始数据集合。13.如权利要求1所述的方法,所述对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据,具体包括:分别对采用所述最终的集合划分参数划分得到的每个原始数据集合执行:为该原始数据集合指定一个不同于该原始数据集合中包含的原始数据的数据,分别作为该原始数据集合中包含的每个原始数据对应的脱敏数据。14.如权利要求1所述的方法,所述得到脱敏数据后,所述方法还包括:将所述脱敏数据发送给第三方平台,以用于创建信用模型。15.一种数据转换装置,包括:数据接收划分模块,接收各原始数据,以及在接收过程中多次对已接收到的原始数据进行集合划分;最终参数确定模块,根据在各次集合划分得到的原始数据集合中的原始数据分布变化情况,确定最终的集合划分参数;数据脱敏转换模块,对采用所述最终的集合划分参数划分得到的原始数据集合进行脱敏转换处理,得到脱敏数据。16.如权利要求15所述的装置,所述数据接收划分模块在接收过程中多次对已接收到的原始数据进行集合划分,具体包括:所述数据接收划分模块在接收过程中,每当接收到设定数量的原始数据时,对已接收到的全部原始...

【专利技术属性】
技术研发人员:席炎王文雯杜玮赵星
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1