基于敏感数据的脱敏方法及系统技术方案

技术编号:22000875 阅读:70 留言:0更新日期:2019-08-31 05:34
本发明专利技术提供的基于敏感数据的脱敏方法,获取待脱敏数据;当待脱敏数据的数据量满足k‑means算法阈值时,采用k‑means改进算法对待脱敏数据进行分组划分,并加入Laplace噪声对划分后的待脱敏数据进行脱敏;当待脱敏数据的数据量满足匹配替换阈值时,采用匹配替换方法对待脱敏数据进行脱敏;其中匹配替换方法包括根据预设的变量类型、以关键字为原则对待脱敏数据进行替换。该方法可灵活配置、支持多数据源、多种数据脱敏算法。

Desensitization Method and System Based on Sensitive Data

【技术实现步骤摘要】
基于敏感数据的脱敏方法及系统
本专利技术属于数据脱敏
,具体涉及基于敏感数据的脱敏方法及系统。
技术介绍
目前,个人隐私保护问题己经引起了公众的广泛关注,不仅在我国,在欧盟和美国也有新增立法保护个人信息。由此可见,如果不能解决由于大数据发布或共享导致的个人隐私泄露的问题,将给相关数据发布和使用方带来严重的法律风险,进而阻碍大数据技术的应用和发展。针对隐私保护问题,Samarati和Sweeney于1998年首次提出了匿名化的概念,为了在数据共享过程中实现匿名化,最初使用传统脱敏算法通过对数据直接进行乱序、掩盖、统一泛化等操作达到保护用户隐私的目的。泛化是对数据中某个准标识属性,通过将具体值替换为描述属性的取值范围,来达到匿名化操作的方法。泛化操作包括值泛化和域泛化。域泛化又称全域重编码,以电话号码为例,一个88888888被泛化成8888888*,实现表达一个更大的范围。以此类推,再被泛化成888888**,直至********。某属性的值域经多次泛化形成的域泛化层次结构被称为域泛化。泛化层次越高,信息损失越大。值泛化又称局域重编码,指的是将原始属性域中的每个值直接泛化成一般域中的某一值。值泛化关系同样可以决定值泛化层。相比域泛化,值泛化拥有更高的灵活性,可以有效降低泛化带来的信息损失。隐匿,可视为最高级别的泛化,是指用最一般化的值代替原始值。即为用固定属性值代替该列的所有属性值。在数据匿名化操作的过程中,如果一些元组无法满足匿名规则的要求,一般会采取隐匿操作。被隐匿的属性值所在记录可以直接从数据表中删除,或者相应属性值用统一属性代替,以保持统计特性。但是现有的脱敏方法也难以满足大数据背景下的隐私保护需求。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种基于敏感数据的脱敏方法及系统,可灵活配置、支持多数据源、多种数据脱敏算法。第一方面,一种基于敏感数据的脱敏方法,获取待脱敏数据;当待脱敏数据的数据量满足k-means算法阈值时,采用k-means改进算法对待脱敏数据进行分组划分,并加入Laplace噪声对划分后的待脱敏数据进行脱敏;当待脱敏数据的数据量满足匹配替换阈值时,采用匹配替换方法对待脱敏数据进行脱敏;其中匹配替换方法包括根据预设的变量类型、以关键字为原则对待脱敏数据进行替换。优选地,所述变量类型包括数值、字符串、时间和正则表达式。优选地,当变量类型为数值时,所述匹配替换方法包括:提取出所述待脱敏数据的数字符号;计算所述数字符号的数值长度,并进行超限处理,以获得初始数值;将所述初始数值转化为字符串;根据所述数值长度和预设的数值脱敏范围,将字符串中指定字符转化为掩码;将转化后的字符串进行数字化后,输出。优选地,当变量类型为字符串时,所述匹配替换方法包括:提取出所述待脱敏数据的字符串;当所述字符串中存在部分内容属于预设的字符串脱敏范围时,把属于字符串脱敏范围的内容替换为掩码,输出。优选地,当变量类型为时间时,所述匹配替换方法包括:提取出所述待脱敏数据的时间信息;如果时间信息是有效信息,将所述时间信息转化为预设的按秒计时格式,以获得初始时间信息;当所述初始时间信息中存在部分内容属于预设的时间脱敏范围时,把属于时间脱敏范围的内容替换为0;将替换后的时间信息转化为预设的标准时间后,输出。优选地,当变量类型为正则表达式时,所述匹配替换方法包括:从所述待脱敏数据的第一位数据开始识别,直至识别到所述待脱敏数据的最后一位数据;当存在与所述正则表达式匹配的数据时,将该数据替换为预设的脱敏符号;输出替换后的待脱敏数据。优选地,所述采用k-means改进算法对待脱敏数据进行分组划分,并加入Laplace噪声对划分后的待脱敏数据进行脱敏具体包括:设置聚类中心;获取包含统计分类结果的数据集,计算所述数据集的均值向量;计算所述数据集中每个数据向量与均值向量之间的距离,定义为当前距离;如果当前距离小于预设的最小距离时,更新最小距离为当前距离;对所述待脱敏数据进行重新分组,保存新得到的均值向量,并统计均值向量个数;根据每个分组添加Laplace噪声,对该分组进行计算;输出计算后的待脱敏数据。第二方面,一种基于敏感数据的脱敏系统,包括:采集单元:用于获取待脱敏数据;k-means分析单元:用于当待脱敏数据的数据量满足k-means算法阈值时,采用k-means改进算法对待脱敏数据进行分组划分,并加入Laplace噪声对划分后的待脱敏数据进行脱敏;匹配替换单元:用于当待脱敏数据的数据量满足匹配替换阈值时,采用匹配替换方法对待脱敏数据进行脱敏;其中匹配替换方法包括根据预设的变量类型、以关键字为原则对待脱敏数据进行替换。优选地,所述变量类型包括数值、字符串、时间和正则表达式;所述匹配替换单元具体用于:当变量类型为数值时,所述匹配替换方法包括:提取出所述待脱敏数据的数字符号;计算所述数字符号的数值长度,并进行超限处理,以获得初始数值;将所述初始数值转化为字符串;根据所述数值长度和预设的数值脱敏范围,将字符串中指定字符转化为掩码;将转化后的字符串进行数字化后,输出;当变量类型为字符串时,所述匹配替换方法包括:提取出所述待脱敏数据的字符串;当所述字符串中存在部分内容属于预设的字符串脱敏范围时,把属于字符串脱敏范围的内容替换为掩码,输出;当变量类型为时间时,所述匹配替换方法包括:提取出所述待脱敏数据的时间信息;如果时间信息是有效信息,将所述时间信息转化为预设的按秒计时格式,以获得初始时间信息;当所述初始时间信息中存在部分内容属于预设的时间脱敏范围时,把属于时间脱敏范围的内容替换为0;将替换后的时间信息转化为预设的标准时间后,输出;当变量类型为正则表达式时,所述匹配替换方法包括:从所述待脱敏数据的第一位数据开始识别,直至识别到所述待脱敏数据的最后一位数据;当存在与所述正则表达式匹配的数据时,将该数据替换为预设的脱敏符号;输出替换后的待脱敏数据。优选地,所述k-means分析单元具体用于:设置聚类中心;获取包含统计分类结果的数据集,计算所述数据集的均值向量;计算所述数据集中每个数据向量与均值向量之间的距离,定义为当前距离;如果当前距离小于预设的最小距离时,更新最小距离为当前距离;对所述待脱敏数据进行重新分组,保存新得到的均值向量,并统计均值向量个数;根据每个分组添加Laplace噪声,对该分组进行计算;输出计算后的待脱敏数据。由上述技术方案可知,本专利技术提供的基于敏感数据的脱敏方法及系统,可灵活配置、支持多数据源、多种数据脱敏算法。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。图1为本专利技术实施例一适用的脱敏框架。图2为本专利技术实施例一提供的基于敏感数据的脱敏方法的方法流程图。图3为本专利技术实施例二提供的针对数值的匹配替换方法流程图。图4为本专利技术实施例二提供的针对字符串的匹配替换方法流程图。图5为本专利技术实施例二提供的针对时间的匹配替换方法流程图。图6为本专利技术实施例二提供的针对正则表达式的匹配替换方法流程图。图7为本专利技术实施例三提供的采用k-means改进本文档来自技高网
...

【技术保护点】
1.一种基于敏感数据的脱敏方法,其特征在于,获取待脱敏数据;当待脱敏数据的数据量满足k‑means算法阈值时,采用k‑means改进算法对待脱敏数据进行分组划分,并加入Laplace噪声对划分后的待脱敏数据进行脱敏;当待脱敏数据的数据量满足匹配替换阈值时,采用匹配替换方法对待脱敏数据进行脱敏;其中匹配替换方法包括根据预设的变量类型、以关键字为原则对待脱敏数据进行替换。

【技术特征摘要】
1.一种基于敏感数据的脱敏方法,其特征在于,获取待脱敏数据;当待脱敏数据的数据量满足k-means算法阈值时,采用k-means改进算法对待脱敏数据进行分组划分,并加入Laplace噪声对划分后的待脱敏数据进行脱敏;当待脱敏数据的数据量满足匹配替换阈值时,采用匹配替换方法对待脱敏数据进行脱敏;其中匹配替换方法包括根据预设的变量类型、以关键字为原则对待脱敏数据进行替换。2.根据权利要求1所述基于敏感数据的脱敏方法,其特征在于,所述变量类型包括数值、字符串、时间和正则表达式。3.根据权利要求2所述基于敏感数据的脱敏方法,其特征在于,当变量类型为数值时,所述匹配替换方法包括:提取出所述待脱敏数据的数字符号;计算所述数字符号的数值长度,并进行超限处理,以获得初始数值;将所述初始数值转化为字符串;根据所述数值长度和预设的数值脱敏范围,将字符串中指定字符转化为掩码;将转化后的字符串进行数字化后,输出。4.根据权利要求2所述基于敏感数据的脱敏方法,其特征在于,当变量类型为字符串时,所述匹配替换方法包括:提取出所述待脱敏数据的字符串;当所述字符串中存在部分内容属于预设的字符串脱敏范围时,把属于字符串脱敏范围的内容替换为掩码,输出。5.根据权利要求2所述基于敏感数据的脱敏方法,其特征在于,当变量类型为时间时,所述匹配替换方法包括:提取出所述待脱敏数据的时间信息;如果时间信息是有效信息,将所述时间信息转化为预设的按秒计时格式,以获得初始时间信息;当所述初始时间信息中存在部分内容属于预设的时间脱敏范围时,把属于时间脱敏范围的内容替换为0;将替换后的时间信息转化为预设的标准时间后,输出。6.根据权利要求2所述基于敏感数据的脱敏方法,其特征在于,当变量类型为正则表达式时,所述匹配替换方法包括:从所述待脱敏数据的第一位数据开始识别,直至识别到所述待脱敏数据的最后一位数据;当存在与所述正则表达式匹配的数据时,将该数据替换为预设的脱敏符号;输出替换后的待脱敏数据。7.根据权利要求1-6中任一所述基于敏感数据的脱敏方法,其特征在于,所述采用k-means改进算法对待脱敏数据进行分组划分,并加入Laplace噪声对划分后的待脱敏数据进行脱敏具体包括:设置聚类中心;获取包含统计分类结果的数据集,计算所述数据集的均值向量;计算所述数据集中每个数据向量与均值向量之间的距离,定义为当前距离;如果当前距离小于预设的最小距离时,更新最小距离为当前距离;对所述待脱敏数据进行重新分组,保存新...

【专利技术属性】
技术研发人员:李适季周莅涛施全立白林陈天立张宏伟
申请(专利权)人:深圳市优网科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1