当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于关系图谱的数据自适应脱敏方法及系统技术方案

技术编号:23498006 阅读:45 留言:0更新日期:2020-03-13 13:07
本发明专利技术提供一种基于关系图谱的数据自适应脱敏方法及系统,涉及数据安全技术领域,其中一种基于关系图谱的数据自适应脱敏方法,包括以下步骤:S1:生成脱敏算法库;S2:建立表与表之间的字段关系图谱;S3:联合关系图谱的字段节点的整体特性指标以及每个字段的敏感级值得到所有字段对应的评估指标;S4:从脱敏算法库中构建训练集;S5:训练决策树模型,测试时输入字段的评估指标,获取系统内所有字段对应的脱敏算法。本发明专利技术一种基于关系图谱的数据自适应脱敏方法及系统借助关系图谱处理表与表之间的关联性以及借助机器学习的分类算法做脱敏算法的选择,能使系统的数据脱敏摆脱过多的人工干预,有效提升脱敏效率和脱敏安全性。

A data adaptive desensitization method and system based on Relation Map

【技术实现步骤摘要】
一种基于关系图谱的数据自适应脱敏方法及系统
本专利技术涉及数据安全
,尤其是,本专利技术涉及一种基于关系图谱的数据自适应脱敏方法及系统。
技术介绍
随着数据时代的到来,数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息与关键性敏感数据保护方面的困难。如何在实现数据高效共享的同时,保护敏感信息不被泄露,已成为数据安全智能开发的关键环节。数据脱敏就是在保存数据原始特征的同时改变它的数值,从而保护敏感数据免于未经授权而被访问,同时又可以进行相关的数据处理,可以在保留数据意义和有效性的同时保持数据的安全性,并遵从数据隐私规范。借助数据脱敏,信息依旧可以被使用,并与业务相关联,不会违反相关规定,而且也避免了数据泄露的风险。近年来,由于机器学习的理论建立由来已久,机器学习在无论是数据科学比赛还是工业场景都有较好的落地效果。关系图谱近年来在类似于社交网络舆论预测和蛋白质分析这种有明显的关联关系的问题中表现突出。传统的数据脱敏系统往往需要较多的人工干预,在新任务、新环境下用户的初始配置工作较大。并且受限于传统数据脱敏技术和系统内置算法的繁杂程度,往往表与表之间的字段存在关联性,用户往往需要一定的业务和技术基础,这会导致传统数据脱敏系统的入门成本过高。所以,如何设计一种数据自适应脱敏方法或者系统,成为我们当前急需要解决的问题。
技术实现思路
本专利技术的目的在于提供一种简单实用,稳定可靠,借助关系图谱处理表与表之间的关联性以及借助机器学习的分类算法做脱敏算法的选择,能使系统的数据脱敏摆脱过多的人工干预,有效提升脱敏效率和脱敏安全性的基于关系图谱的数据自适应脱敏方法。为达到上述目的,本专利技术采用如下技术方案得以实现的:一种基于关系图谱的数据自适应脱敏方法,该方法包括以下步骤:S1:生成脱敏算法库;S2:建立表与表之间的字段关系图谱;S3:联合关系图谱的字段节点的中心度和其他整体特性指标以及每个字段的敏感级值得到所有字段对应的评估指标;S4:从脱敏算法库中构建训练集;S5:训练决策树模型,测试时输入字段的评估指标,获取系统内所有字段对应的脱敏算法。作为本专利技术的优选,执行步骤S1时,脱敏算法库包含无效化、乱序、平均取值、反关联、偏移、对称加密和动态环境控制7种脱敏算法。作为本专利技术的优选,执行步骤S3时,评估指标包括6个特性指标和1个敏感级值指标,其中6个特性指标包括有效性、关联性、可逆性、可重复性、时效性以及安全性指标。作为本专利技术的优选,执行步骤S3时,特性指标均为2值化指标。作为本专利技术的优选,步骤S3具体包括:S31:通过建立表与表之间所有字段的关系图谱得到的中心度乘以整体关联性指标S32:所有字段继承其他5个整体特性指标S33:每个字段对应的敏感级值指标,是离散指标。作为本专利技术的优选,执行步骤S4时,训练集为字段特性指标-脱敏算法训练集。作为本专利技术的优选,执行步骤S5时,决策树为C4.5决策树,输入为5个2值化指标、1个离散指标和1个连续指标,输出为7种脱敏算法中的一种。另一方面,本专利技术中另外还提供一种基于关系图谱的数据自适应脱敏系统,该系统包括:脱敏算法库选择模块;字段特性指标评估模块;字段脱敏算法选择模块;脱敏算法库选择模块生成脱敏算法库;字段特性指标评估模块建立表与表之间的字段关系图谱,并联合关系图谱的字段节点的中心度和其他整体特性指标以及每个字段的敏感级值得到所有字段对应的评估指标;字段脱敏算法选择模块从脱敏算法库中构建训练集,训练决策树,测试时输入字段的评估指标,获取系统内所有字段对应的脱敏算法。作为本专利技术的优选,本专利技术一种基于关系图谱的数据自适应脱敏系统中,脱敏算法库选择模块包括无效化、乱序、平均取值、反关联、偏移、对称加密和动态环境控制7种脱敏算法。作为本专利技术的优选,本专利技术一种基于关系图谱的数据自适应脱敏系统中,字段特性指标评估模块包括有效性、关联性、可逆性、可重复性、时效性以及安全性指标6个特性指标和1个敏感级值指标。本专利技术一种基于关系图谱的数据自适应脱敏方法及系统有益效果在于:简单实用,稳定可靠,借助关系图谱处理表与表之间的关联性以及借助机器学习的分类算法做脱敏算法的选择,能使系统的数据脱敏摆脱过多的人工干预,有效提升脱敏效率和脱敏安全性。附图说明图1为本专利技术一种基于关系图谱的数据自适应脱敏方法的流程示意图;图2为本专利技术一种基于关系图谱的数据自适应脱敏方法的表与表之间的字段关系图谱示意图;图3为本专利技术一种基于关系图谱的数据自适应脱敏系统的模块连接示意图。具体实施方式以下是本专利技术的具体实施例,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的模块和步骤的相对布置和步骤不限制本专利技术的范围。同时,应当明白,为了便于描述,附图中的流程并不仅仅是单独进行,而是多个步骤相互交叉进行。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法及系统可能不作详细讨论,但在适当情况下,技术、方法及系统应当被视为授权说明书的一部分。传统的数据脱敏系统往往需要较多的人工干预,在新任务、新环境下用户的初始配置工作较大。并且受限于传统数据脱敏技术和系统内置算法的繁杂程度,往往表与表之间的字段存在关联性,用户往往需要一定的业务和技术基础,这会导致传统数据脱敏系统的入门成本过高。实施例一如图1、2所示,仅为本专利技术的其中一个实施例,本专利技术提供一种基于关系图谱的数据自适应脱敏方法,该方法包括以下步骤:S1:生成脱敏算法库;在执行步骤S1时,脱敏算法库包括多种常见的脱敏算法,一般包括无效化、乱序、平均取值、反关联、偏移、对称加密和动态环境控制这7种常见的脱敏算法。S2:建立表与表之间的字段关系图谱;如图2所示,建立字段-表-字段的字段关系图谱,将系统所有表的所有字段信息和外键信息呈现在关系数据库中。S3:联合关系图谱的字段节点的中心度和其他整体特性指标以及每个字段的敏感级值得到所有字段对应的评估指标;为了将输入的整体的特性指标应用到系统的每个字段,字段特性指标评估模块将整体指标中除了关联性以外的指标作为所有字段默认的特性指标,然后对每个字段的关联性指标通过建立所有字段和所有表的连接关系图谱的字段中心度指标确定,除此以外引入每个字段的敏感级值,最后得到所有字段对应的7个指标。在这里,评估指标包括6个特性指标和1个敏感级值指标,其中6个特性指标包括有效性、关联性、可逆性、可重复性、时效性以及安全性指标。S4:从脱敏算法库中构建训练集;在执行步骤S4时,训练集为字段特性指标-脱敏算法本文档来自技高网...

【技术保护点】
1.一种基于关系图谱的数据自适应脱敏方法,其特征在于,包括以下步骤:/nS1:生成脱敏算法库;/nS2:建立表与表之间的字段关系图谱;/nS3:联合关系图谱的字段节点的中心度和其他整体特性指标以及每个字段的敏感级值得到所有字段对应的评估指标;/nS4:从脱敏算法库中构建训练集;/nS5:训练决策树模型,测试时输入字段的评估指标,获取系统内所有字段对应的脱敏算法。/n

【技术特征摘要】
1.一种基于关系图谱的数据自适应脱敏方法,其特征在于,包括以下步骤:
S1:生成脱敏算法库;
S2:建立表与表之间的字段关系图谱;
S3:联合关系图谱的字段节点的中心度和其他整体特性指标以及每个字段的敏感级值得到所有字段对应的评估指标;
S4:从脱敏算法库中构建训练集;
S5:训练决策树模型,测试时输入字段的评估指标,获取系统内所有字段对应的脱敏算法。


2.根据权利要求1所述的一种基于关系图谱的数据自适应脱敏方法,其特征在于:
执行步骤S1时,脱敏算法库包含无效化、乱序、平均取值、反关联、偏移、对称加密和动态环境控制7种脱敏算法。


3.根据权利要求1所述的一种基于关系图谱的数据自适应脱敏方法,其特征在于:
执行步骤S3时,评估指标包括6个特性指标和1个敏感级值指标,其中6个特性指标包括有效性、关联性、可逆性、可重复性、时效性以及安全性指标。


4.根据权利要求1所述的一种基于关系图谱的数据自适应脱敏方法,其特征在于:
执行步骤S3时,特性指标均为2值化指标。


5.根据权利要求1所述的一种基于关系图谱的数据自适应脱敏方法,其特征在于,步骤S3具体包括:
S31:通过建立表与表之间所有字段的关系图谱得到的中心度乘以整体关联性指标
S32:所有字段继承其他5个整体特性指标
S33:每个字段对应的敏感级值指标,是离散指标。...

【专利技术属性】
技术研发人员:刘勇马新强杨建党钟保权刘丽娜黄羿
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1