基于敏感数据的脱敏方法及系统技术方案

技术编号：22000875 阅读：70 留言：0更新日期：2019-08-31 05:34

本发明专利技术提供的基于敏感数据的脱敏方法，获取待脱敏数据；当待脱敏数据的数据量满足k‑means算法阈值时，采用k‑means改进算法对待脱敏数据进行分组划分，并加入Laplace噪声对划分后的待脱敏数据进行脱敏；当待脱敏数据的数据量满足匹配替换阈值时，采用匹配替换方法对待脱敏数据进行脱敏；其中匹配替换方法包括根据预设的变量类型、以关键字为原则对待脱敏数据进行替换。该方法可灵活配置、支持多数据源、多种数据脱敏算法。

Desensitization Method and System Based on Sensitive Data

全部详细技术资料下载

【技术实现步骤摘要】
基于敏感数据的脱敏方法及系统
本专利技术属于数据脱敏
，具体涉及基于敏感数据的脱敏方法及系统。
技术介绍
目前，个人隐私保护问题己经引起了公众的广泛关注，不仅在我国，在欧盟和美国也有新增立法保护个人信息。由此可见，如果不能解决由于大数据发布或共享导致的个人隐私泄露的问题，将给相关数据发布和使用方带来严重的法律风险，进而阻碍大数据技术的应用和发展。针对隐私保护问题，Samarati和Sweeney于1998年首次提出了匿名化的概念，为了在数据共享过程中实现匿名化，最初使用传统脱敏算法通过对数据直接进行乱序、掩盖、统一泛化等操作达到保护用户隐私的目的。泛化是对数据中某个准标识属性，通过将具体值替换为描述属性的取值范围，来达到匿名化操作的方法。泛化操作包括值泛化和域泛化。域泛化又称全域重编码，以电话号码为例，一个88888888被泛化成8888888*，实现表达一个更大的范围。以此类推，再被泛化成888888**,直至********。某属性的值域经多次泛化形成的域泛化层次结构被称为域泛化。泛化层次越高，信息损失越大。值泛化又称局域重编码，指的是将原始属性域中的每个值直接泛化成一般域中的某一值。值泛化关系同样可以决定值泛化层。相比域泛化，值泛化拥有更高的灵活性，可以有效降低泛化带来的信息损失。隐匿，可视为最高级别的泛化，是指用最一般化的值代替原始值。即为用固定属性值代替该列的所有属性值。在数据匿名化操作的过程中，如果一些元组无法满足匿名规则的要求，一般会采取隐匿操作。被隐匿的属性值所在记录可以直接从数据表中删除，或者相应属性值用统一属性代替，以保持统计特性...

【技术保护点】
1.一种基于敏感数据的脱敏方法，其特征在于，获取待脱敏数据；当待脱敏数据的数据量满足k‑means算法阈值时，采用k‑means改进算法对待脱敏数据进行分组划分，并加入Laplace噪声对划分后的待脱敏数据进行脱敏；当待脱敏数据的数据量满足匹配替换阈值时，采用匹配替换方法对待脱敏数据进行脱敏；其中匹配替换方法包括根据预设的变量类型、以关键字为原则对待脱敏数据进行替换。

【技术特征摘要】
1.一种基于敏感数据的脱敏方法，其特征在于，获取待脱敏数据；当待脱敏数据的数据量满足k-means算法阈值时，采用k-means改进算法对待脱敏数据进行分组划分，并加入Laplace噪声对划分后的待脱敏数据进行脱敏；当待脱敏数据的数据量满足匹配替换阈值时，采用匹配替换方法对待脱敏数据进行脱敏；其中匹配替换方法包括根据预设的变量类型、以关键字为原则对待脱敏数据进行替换。2.根据权利要求1所述基于敏感数据的脱敏方法，其特征在于，所述变量类型包括数值、字符串、时间和正则表达式。3.根据权利要求2所述基于敏感数据的脱敏方法，其特征在于，当变量类型为数值时，所述匹配替换方法包括：提取出所述待脱敏数据的数字符号；计算所述数字符号的数值长度，并进行超限处理，以获得初始数值；将所述初始数值转化为字符串；根据所述数值长度和预设的数值脱敏范围，将字符串中指定字符转化为掩码；将转化后的字符串进行数字化后，输出。4.根据权利要求2所述基于敏感数据的脱敏方法，其特征在于，当变量类型为字符串时，所述匹配替换方法包括：提取出所述待脱敏数据的字符串；当所述字符串中存在部分内容属于预设的字符串脱敏范围时，把属于字符串脱敏范围的内容替换为掩码，输出。5.根据权利要求2所述基于敏感数据的脱敏方法，其特征在于，当变量类型为时间时，所述匹配替换方法包括：提取出所述待脱敏数据的时间信息；如果时间信息是有效信息，将所述时间信息转化为预设的按秒计时格式，以获得初始时间信息；当所述初始时间信息中存在部分内容属于预设的时间脱敏范围时，把属于时间脱敏范围的内容替换为0；将替换后的时间信息转化为预设的标准时间后，输出。6.根据权利要求2所述基于敏感数据的脱敏方法，其特征在于，当变量类型为正则表达式时，所述匹配替换方法包括：从所述待脱敏数据的第一位数据开始识别，直至识别到所述待脱敏数据的最后一位数据；当存在与所述正则表达式匹配的数据时，将该数据替换为预设的脱敏符号；输出替换后的待脱敏数据。7.根据权利要求1-6中任一所述基于敏感数据的脱敏方法，其特征在于，所述采用k-means改进算法对待脱敏数据进行分组划分，并加入Laplace噪声对划分后的待脱敏数据进行脱敏具体包括：设置聚类中心；获取包含统计分类结果的数据集，计算所述数据集的均值向量；计算所述数据集中每个数据向量与均值向量之间的距离，定义为当前距离；如果当前距离小于预设的最小距离时，更新最小距离为当前距离；对所述待脱敏数据进行重新分组，保存新...

【专利技术属性】
技术研发人员：李适季，周莅涛，施全立，白林，陈天立，张宏伟，
申请(专利权)人：深圳市优网科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人