大数据脱敏方法技术

技术编号:26032141 阅读:18 留言:0更新日期:2020-10-23 21:09
本发明专利技术揭示了一种大数据脱敏方法,对多维度事实表中的指定数据进行脱敏,包括:初始化步骤,读取多维度事实表中的指定数据并排列为一个数据矩阵,数据矩阵中的每一列对应一个维度,该数据矩阵为原始数据矩阵。空间变换步骤,按照列对每一个维度的指定数据进行变换,变换包括拉伸变换、收缩变换或者扭曲变换,得到经变换的数据矩阵。其中,经归一化处理后,经变换的数据矩阵中的各个数据的值与原始数据矩阵中的对应数值的差异小于5%。本发明专利技术的大数据脱敏方法利用空间变换对敏感数据进行脱敏,脱敏后的数据的空间相对位置信息保留,空间变换造成的数据损失小于5%。该大数据脱敏方法也可以应用于分布式框架,以满足分布式系统大数据运算的需求。

【技术实现步骤摘要】
大数据脱敏方法
本专利技术涉及大数据领域,更具体地说,涉及大数据的数据安全技术。
技术介绍
数据处理正在成为重要的基础设施,对于数据处理来说,数据安全性,尤其是敏感数据的安全性显得尤为重要。对于敏感数据的数据脱敏也是一种基础设施。在金融领域,现有技术中对于数据脱敏基本使用随机值替换脱敏以及特殊字符替换脱敏的方式。前者采用随机值替换(字母变为随机字母,数字变为随机数字)的方式来改变数据,后者采用特殊字符(如“*”)替换的方式来改变数据。对于没有具体含义,仅起到指示作用的数据,比如:姓名、手机号、卡号等来说,这种脱敏方式是合适的,诸如姓名、手机号、卡号等指示性信息对于数据挖掘和数据分析等没有实质性的意义。随着信息化和数据化在金融行业的不断深入,对于金融数据的数据挖掘和数据分析显得越来越重要,数据挖掘和数据分析在风险控制、风险预警、客户识别和提升效益方面起到越来越重要的作用。在数据挖掘和数据分析的过程中,就需要使用到资产数据、行为数据、客户画像等数据。这些数据也属于客户隐私,在进行使用之前必须进行脱敏才可以使用。对于这些数据来说,其数据本身具有含义,按照传统的随机值替换脱敏或者特殊字符替换脱敏的方式,会改变数据本身,是的数据本身具有的含义部分或者全部丢失,从而导致后续的数据挖掘和数据分析无法进行。此外,为了获得更加高效的风险控制、风险预警、客户识别和提升效益的效果,希望在更多的金融机构之间共享数据,对多家金融机构拥有的大数据进行分析,其效果更加准确。数据共享和交换对数据脱敏提出了更高的要求,一方面要求脱敏后的数据与原数据存在显著差异,要确保不能基于脱敏后的数据还原或者定位到原数据,避免原数据受到攻击。另一方面要脱敏后的数据要尽量保留原数据的含义和信息,使得后续的数据挖掘和数据分析能够继续进行并且维持应有的准确率。
技术实现思路
本专利技术旨在提出一种大数据脱敏方法,能对敏感数据进行微损脱敏,该方法还可以在分布式框架上执行。根据本专利技术的一实施例,提出一种大数据脱敏方法,对多维度事实表中的指定数据进行脱敏,包括:初始化步骤,读取多维度事实表中的指定数据并排列为一个数据矩阵,数据矩阵中的每一列对应一个维度,该数据矩阵为原始数据矩阵;空间变换步骤,按照列对每一个维度的指定数据进行变换,所述变换包括拉伸变换、收缩变换或者扭曲变换,得到经变换的数据矩阵;其中,经归一化处理后,经变换的数据矩阵中的各个数据的值与原始数据矩阵中的对应数值的差异小于5%。在一个实施例中,拉伸变换包括:生成一列随机放大系数,随机放大系数的数量与对应的列中的指定数据的数量相同,该列随机放大系数满足正态分布;将该列指定数据与该列随机放大系数相乘,得到经拉伸变换的列。收缩变换包括:生成一列随机收缩系数,随机收缩系数的数量与对应的列中的指定数据的数量相同,该列随机收缩系数满足正态分布;将该列指定数据与该列随机收缩系数相乘,得到经收缩变换的列。在一个实施例中,扭曲变换包括:生成一Sigmod函数;生成一列随机附加系数,随机附加系数的数量与对应的列中的指定数据的数量相同,该列随机附加系数满足正态分布;使用Sigmod函数对该列指定数据进行运算,运算的结果与对应的随机附加系数共同得到经扭曲变换的列。在一个实施例中,根据对每一个维度的指定数据的变换,生成一变换矩阵,变换矩阵中的每一列对应指定数据的一个维度,将变换矩阵与原始数据矩阵相乘得到经变换的数据矩阵。在一个实施例中,该方法还包括:对多维度事实表中除了指定数据之外的其余数据进行加密。根据本专利技术的一实施例,提出一种分布式大数据脱敏方法,在分布式框架下对多维度事实表中的指定数据进行脱敏,包括:映射步骤,由映射器读取多维度事实表中的数据并排列为一个数据矩阵,数据矩阵中的每一列对应一个维度,每一个维度使用一个独立的映射器,该数据矩阵为未筛选数据矩阵;筛选步骤,对未筛选数据矩阵进行筛选,选择指定数据所在的列形成原始数据矩阵,除了指定数据之外的其余数据形成辅助数据矩阵;空间变换步骤,按照列对每一个维度的指定数据进行变换,所述变换包括拉伸变换、收缩变换或者扭曲变换,每一个维度的变换使用独立的归约器进行处理,归约后得到经变换的数据矩阵,其中,经归一化处理后,经变换的数据矩阵中的各个数据的值与原始数据矩阵中的对应数值的差异小于5%;数据合并步骤,将辅助数据矩阵中的数据进行加密,经加密后的辅助数据矩阵和经变换的数据矩阵合并,生成脱敏数据矩阵。在一个实施例中,拉伸变换包括:生成一列随机放大系数,随机放大系数的数量与对应的列中的指定数据的数量相同,该列随机放大系数满足正态分布;将该列指定数据与该列随机放大系数相乘,得到经拉伸变换的列。收缩变换包括:生成一列随机收缩系数,随机收缩系数的数量与对应的列中的指定数据的数量相同,该列随机收缩系数满足正态分布;将该列指定数据与该列随机收缩系数相乘,得到经收缩变换的列。在一个实施例中,扭曲变换包括:生成一Sigmod函数;生成一列随机附加系数,随机附加系数的数量与对应的列中的指定数据的数量相同,该列随机附加系数满足正态分布;使用Sigmod函数对该列指定数据进行运算,运算的结果与对应的随机附加系数共同得到经扭曲变换的列。在一个实施例中,归约器根据对每一个维度的指定数据的变换生成一列变换矩阵,归约器将该列变换矩阵与原始数据矩阵中对应的一列指定数据相乘得到经变换的数据矩阵中对应的一列数据。本专利技术的大数据脱敏方法利用空间变换对敏感数据进行脱敏,脱敏后的数据的空间相对位置信息保留,从数据挖掘和数据分析角度看,空间变换造成的数据损失小于5%,因此该方法不影响后续的数据处理。该大数据脱敏方法也可以应用于分布式框架,以满足分布式系统大数据运算的需求。附图说明图1揭示了根据本专利技术的一实施例的大数据脱敏方法的流程图。图2揭示了根据本专利技术的另一实施例的大数据脱敏方法的流程图。具体实施方式本专利技术提出一种大数据脱敏方法,对多维度事实表中的指定数据进行脱敏,图1揭示了根据本专利技术的一实施例的大数据脱敏方法的流程图。如图所示,该方法包括:S101、初始化步骤,读取多维度事实表中的指定数据并排列为一个数据矩阵,数据矩阵中的每一列对应一个维度,该数据矩阵为原始数据矩阵。金融行业中通常使用事实表的方式来保存客户数据,在事实表中,有些数据用于客户的身份识别,比如姓名、卡号、地址、手机号等;有些数据记录客户的资产信息,比如总资产、人民币资产、外币资产、理财产品、信用卡、保证金、债券等;有些数据记录客户的行为信息,比如转账记录、购买理财记录、商品交易记录等。其中身份识别数据基本不用于后续的数据分析,因此可以使用传统方式进行加密或者脱敏,身份识别数据所载有的信息即使在加密或者脱敏过程中损失或者丢失,也基本不会影响到数据分析的结果。资产信息数据和行为信息数据是进行数据分析和数据挖掘的核心数据,在进行脱敏后需要保留原数据的含义和信息,以保证数据分析的有效性本文档来自技高网
...

【技术保护点】
1.一种大数据脱敏方法,其特征在于,对多维度事实表中的指定数据进行脱敏,包括:/n初始化步骤,读取多维度事实表中的指定数据并排列为一个数据矩阵,数据矩阵中的每一列对应一个维度,该数据矩阵为原始数据矩阵;/n空间变换步骤,按照列对每一个维度的指定数据进行变换,所述变换包括拉伸变换、收缩变换或者扭曲变换,得到经变换的数据矩阵;/n其中,经归一化处理后,经变换的数据矩阵中的各个数据的值与原始数据矩阵中的对应数值的差异小于5%。/n

【技术特征摘要】
1.一种大数据脱敏方法,其特征在于,对多维度事实表中的指定数据进行脱敏,包括:
初始化步骤,读取多维度事实表中的指定数据并排列为一个数据矩阵,数据矩阵中的每一列对应一个维度,该数据矩阵为原始数据矩阵;
空间变换步骤,按照列对每一个维度的指定数据进行变换,所述变换包括拉伸变换、收缩变换或者扭曲变换,得到经变换的数据矩阵;
其中,经归一化处理后,经变换的数据矩阵中的各个数据的值与原始数据矩阵中的对应数值的差异小于5%。


2.如权利要求1所述的大数据脱敏方法,其特征在于,
所述拉伸变换包括:
生成一列随机放大系数,随机放大系数的数量与对应的列中的指定数据的数量相同,该列随机放大系数满足正态分布;
将该列指定数据与该列随机放大系数相乘,得到经拉伸变换的列;
所述收缩变换包括:
生成一列随机收缩系数,随机收缩系数的数量与对应的列中的指定数据的数量相同,该列随机收缩系数满足正态分布;
将该列指定数据与该列随机收缩系数相乘,得到经收缩变换的列。


3.如权利要求1所述的大数据脱敏方法,其特征在于,所述扭曲变换包括:
生成一Sigmod函数;
生成一列随机附加系数,随机附加系数的数量与对应的列中的指定数据的数量相同,该列随机附加系数满足正态分布;
使用所述Sigmod函数对该列指定数据进行运算,运算的结果与对应的随机附加系数共同得到经扭曲变换的列。


4.如权利要求1所述的大数据脱敏方法,其特征在于,根据对每一个维度的指定数据的变换,生成一变换矩阵,变换矩阵中的每一列对应指定数据的一个维度,将变换矩阵与原始数据矩阵相乘得到经变换的数据矩阵。


5.如权利要求1所述的大数据脱敏方法,其特征在于,还包括:对多维度事实表中除了指定数据之外的其余数据进行加密。


6.一种分布式大数据脱敏方法,其特征在于,在分布式框架下对多维度事实表中的指定数据进行脱敏,包括:

【专利技术属性】
技术研发人员:臧其事赵可欣吴晓峰
申请(专利权)人:中国农业银行股份有限公司上海市分行
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1