一种数据脱敏方法及系统技术方案

技术编号:37131457 阅读:26 留言:0更新日期:2023-04-06 21:29
本发明专利技术提供一种数据脱敏方法及系统,该方法包括:基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集;通过预设聚类算法,对所述原始数据与所述脱敏数据集中的脱敏数据进行聚类,得到第一聚类中心与多个第二聚类中心,其中,所述第一聚类中心为所述原始数据对应的聚类中心,所述第二聚类中心为通过不同的脱敏算法得到的脱敏数据所对应的聚类中心;根据各个所述第二聚类中心与所述第一聚类中心之间的相似度,确定所述脱敏数据集中的目标脱敏数据。本发明专利技术提高了数据脱敏的安全性,降低数据泄露的风险。降低数据泄露的风险。降低数据泄露的风险。

【技术实现步骤摘要】
一种数据脱敏方法及系统


[0001]本专利技术涉及数据处理
,尤其涉及一种数据脱敏方法及系统。

技术介绍

[0002]数据脱敏又称数据去隐私化或数据变形,是在预设规则下对敏感数据进行变换、修改的技术机制,能够在很大程度上解决敏感数据在非可信环境中使用的问题。数据脱敏技术并不需要对所有信息进行加密,数据脱敏保存了数据原有的格式,在不需要解密的条件下,降低数据敏感度,从而兼顾了数据安全与数据使用,使得脱敏后的数据依然可以用于分析和测试。
[0003]现有数据脱敏方式过于简单和单一,主要是对客户证件号,手机号等敏感数据进行整体加密,但这些数据本身带有固定的地区码和地区编号,即使脱敏后也具有关联性和规律性,脱敏后的数据还是存在泄露风险。
[0004]因此,现在亟需一种数据脱敏方法及系统来解决上述问题。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术提供一种数据脱敏方法及系统。
[0006]本专利技术提供一种数据脱敏方法,包括:
[0007]基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集;
[0008]通过预设聚类算法,对所述原始数据与所述脱敏数据集中的脱敏数据进行聚类,得到第一聚类中心与多个第二聚类中心,其中,所述第一聚类中心为所述原始数据对应的聚类中心,所述第二聚类中心为通过不同的脱敏算法得到的脱敏数据所对应的聚类中心;
[0009]根据各个所述第二聚类中心与所述第一聚类中心之间的相似度,确定所述脱敏数据集中的目标脱敏数据。
[0010]根据本专利技术提供的一种数据脱敏方法,所述基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集,包括:
[0011]通过不同的脱敏算法,分别对所述生产数据集中同一原始数据进行脱敏处理,得到每个原始数据对应的多种脱敏数据;
[0012]根据每个原始数据对应的多种脱敏数据,构建脱敏数据集。
[0013]根据本专利技术提供的一种数据脱敏方法,在所述基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集之前,所述方法还包括:
[0014]通过多种不同的数据源,获取多个原始数据,其中,所述原始数据至少包括姓名、身份证号码、电话号码和邮箱地址;
[0015]根据所述原始数据,构建生产数据集;
[0016]对所述生产数据集中的数据进行去重处理,得到目标生产数据集;
[0017]所述基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏
数据集,包括:
[0018]基于不同的脱敏算法,对所述目标生产数据集中的原始数据进行脱敏处理,得到脱敏数据集。
[0019]根据本专利技术提供的一种数据脱敏方法,所述根据各个所述第二聚类中心与所述第一聚类中心之间的相似度,确定所述脱敏数据集中的目标脱敏数据,包括:
[0020]计算各个所述第二聚类中心与所述第一聚类中心之间的相似度,若所述相似度大于或等于第一相似度阈值,则将所述第二聚类中心对应的脱敏数据删除;
[0021]若所述相似度小于第二相似度阈值,则确定所述第二聚类中心对应的脱敏数据为目标脱敏数据;
[0022]若所述相似度小于所述第一相似度阈值,且大于或等于所述第二相似度阈值,则将所述第二聚类中心对应的脱敏数据进行脱敏方式调整,以通过调整后的脱敏数据重新聚类,得到第三聚类中心;
[0023]在所述第三聚类中心与所述第一聚类中心之间的相似度小于所述第二相似度阈值的情况下,确定所述第三聚类中心对应的脱敏数据为目标脱敏数据。
[0024]根据本专利技术提供的一种数据脱敏方法,所述将所述第二聚类中心对应的脱敏数据进行脱敏方式调整,包括:
[0025]在所述相似度小于所述第一相似度阈值,且大于或等于所述第二相似度阈值的情况下,确定所述第二聚类中心对应的脱敏数据为待调整脱敏数据;
[0026]获取所述待调整脱敏数据中未到达预设脱敏程度的字段信息,并对所述字段信息进行脱敏处理,得到调整后的脱敏数据;
[0027]或,确定所述待调整脱敏数据的当前脱敏算法;
[0028]基于其它脱敏算法,对所述待调整脱敏数据再次进行脱敏处理,得到调整后的脱敏数据,其中,所述其它脱敏算法为所述当前脱敏算法以外的脱敏算法。
[0029]根据本专利技术提供的一种数据脱敏方法,所述预设聚类算法为K

means算法。
[0030]本专利技术还提供一种数据脱敏系统,包括:
[0031]脱敏算法模块,用于基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集;
[0032]聚类模块,用于通过预设聚类算法,对所述原始数据与所述脱敏数据集中的脱敏数据进行聚类,得到第一聚类中心与多个第二聚类中心,其中,所述第一聚类中心为所述原始数据对应的聚类中心,所述第二聚类中心为通过不同的脱敏算法得到的脱敏数据所对应的聚类中心;
[0033]脱敏数据处理模块,用于根据各个所述第二聚类中心与所述第一聚类中心之间的相似度,确定所述脱敏数据集中的目标脱敏数据。
[0034]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数据脱敏方法。
[0035]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述数据脱敏方法。
[0036]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器
执行时实现如上述任一种所述数据脱敏方法。
[0037]本专利技术提供的一种数据脱敏方法及系统,通过多种脱敏算法,对原始数据进行脱敏处理,并利用机器学习中的聚类算法,对原始数据与脱敏数据进行聚类,再根据脱敏数据与原始数据之间的相似度,确定得到目标脱敏数据,从而提高了数据脱敏的安全性,降低数据泄露的风险。
附图说明
[0038]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图进行简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1为本专利技术提供的数据脱敏方法的流程示意图;
[0040]图2为本专利技术提供的数据脱敏系统的结构示意图;
[0041]图3为本专利技术提供的电子设备的结构示意图。
具体实施方式
[0042]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0043]在现有的数据测试环境中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据脱敏方法,其特征在于,包括:基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集;通过预设聚类算法,对所述原始数据与所述脱敏数据集中的脱敏数据进行聚类,得到第一聚类中心与多个第二聚类中心,其中,所述第一聚类中心为所述原始数据对应的聚类中心,所述第二聚类中心为通过不同的脱敏算法得到的脱敏数据所对应的聚类中心;根据各个所述第二聚类中心与所述第一聚类中心之间的相似度,确定所述脱敏数据集中的目标脱敏数据。2.根据权利要求1所述的数据脱敏方法,其特征在于,所述基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集,包括:通过不同的脱敏算法,分别对所述生产数据集中同一原始数据进行脱敏处理,得到每个原始数据对应的多种脱敏数据;根据每个原始数据对应的多种脱敏数据,构建脱敏数据集。3.根据权利要求1所述的数据脱敏方法,其特征在于,在所述基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集之前,所述方法还包括:通过多种不同的数据源,获取多个原始数据,其中,所述原始数据至少包括姓名、身份证号码、电话号码和邮箱地址;根据所述原始数据,构建生产数据集;对所述生产数据集中的数据进行去重处理,得到目标生产数据集;所述基于不同的脱敏算法,对生产数据集中的原始数据进行脱敏处理,得到脱敏数据集,包括:基于不同的脱敏算法,对所述目标生产数据集中的原始数据进行脱敏处理,得到脱敏数据集。4.根据权利要求1所述的数据脱敏方法,其特征在于,所述根据各个所述第二聚类中心与所述第一聚类中心之间的相似度,确定所述脱敏数据集中的目标脱敏数据,包括:计算各个所述第二聚类中心与所述第一聚类中心之间的相似度,若所述相似度大于或等于第一相似度阈值,则将所述第二聚类中心对应的脱敏数据删除;若所述相似度小于第二相似度阈值,则确定所述第二聚类中心对应的脱敏数据为目标脱敏数据;若所述相似度小于所述第一相似度阈值,且大于或等于所述第二相似度阈值,则将所述第二聚类中心对应的脱敏数据进行脱敏方式调整,以通过调整后的脱敏数据重...

【专利技术属性】
技术研发人员:刘航宇
申请(专利权)人:中银金融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1