The present invention relates to a system and a method for sharing sensitive information or data oriented, the invention adopts statistics, Natural Language Processing technology and machine learning technology, realized from the data released to the data protection of sensitive data of the whole process using the application, put forward the construction of sensitive information automatic identification key thesaurus, named entity class and address class sensitive based on the information; calculation of sensitive attribute correlation using the Sigmoid function; by constructing the sensitive attribute generation rules and named entity rules and the core algorithm of desensitization desensitization composition in desensitization strategy; combined respectively with numerical sensitive attributes and categorical attributes of desensitization depth calculation, get the degree of desensitization of the overall dataset, and take the method of downloading link to the realization of Hash controlled output data, to ensure data security and sensitive information The sensitive information processing strategy which meets the requirements of analysis mining has the characteristics of good desensitization effect and strong reliability.
【技术实现步骤摘要】
一种面向数据共享的敏感信息脱敏方法及系统
本专利技术涉及信息技术与数据安全的交叉
,尤其涉及一种面向数据共享的敏感信息脱敏方法及系统。
技术介绍
近年来,信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为重要性发展资源。2016年,政府大力推动信息系统和公共数据互联开放共享,加快政府信息平台整合,消除信息孤岛,推荐数据资源向社会开放,引导社会发展,更好服务于公众。然而在大数据背景下,数据开放共享也带来挑战性的问题,各类数据泄露事件频繁发生,如安徽近六千名新生儿信息泄露事件、每年高考信息泄露、具有针对性的诈骗电话事件等,使得全社会从注重数据开放共享转移到更加协同关注数据安全保护。为此,许多国家颁布一系列信息安全相关的法律法规,例如我国的《保密法》和《中华人民共和国政府信息公开条例》,这就要求数据在开放共享的过程中必须符合特定的条件,在开放的数据集中不能包含标识个人身份的数据,以保证数据集的使用者不能轻易地推断出个人隐私信息等;而且又要合理地满足民众多元化需求、保证数据资源能够产生新的价值。因此,实现数据安全保护,又能最大化发挥数据资源利用价值,是目前信 ...
【技术保护点】
一种面向数据共享的敏感信息脱敏方法,其特征在于,包括如下步骤:(1)预先设置敏感信息自动识别规则和敏感信息处理规则,其中所述敏感信息自动识别规则包括构造各类敏感信息关键词库、对敏感信息关键词库内敏感信息的自动识别、号码与数值类敏感信息的自动识别、命名实体类敏感信息的自动识别、地址类敏感信息的精确识别;所述敏感信息处理规则包括敏感属性生成规则、设置脱敏算法、命名实体脱敏处理、地址信息脱敏处理;数据使用者请求查看数据提供者发布的数据;(2)对数据进行预处理,预处理后进行文本数据分词和词性标注;(3)根据预先设置的敏感信息自动识别规则对敏感信息进行自动识别;(4)通过对敏感信息的 ...
【技术特征摘要】
1.一种面向数据共享的敏感信息脱敏方法,其特征在于,包括如下步骤:(1)预先设置敏感信息自动识别规则和敏感信息处理规则,其中所述敏感信息自动识别规则包括构造各类敏感信息关键词库、对敏感信息关键词库内敏感信息的自动识别、号码与数值类敏感信息的自动识别、命名实体类敏感信息的自动识别、地址类敏感信息的精确识别;所述敏感信息处理规则包括敏感属性生成规则、设置脱敏算法、命名实体脱敏处理、地址信息脱敏处理;数据使用者请求查看数据提供者发布的数据;(2)对数据进行预处理,预处理后进行文本数据分词和词性标注;(3)根据预先设置的敏感信息自动识别规则对敏感信息进行自动识别;(4)通过对敏感信息的敏感属性关联度计算分析,保留敏感属性关联度高于阈值的敏感信息;其中阈值为预设的;(5)根据预先设置的敏感信息处理规则对敏感信息进行脱敏处理;(6)对敏感信息的脱敏深度进行计算,并判断脱敏深度是否符合预设的要求;若不符合,则返回步骤(5)重新进行脱敏处理;否则,对脱敏后的数据集进行输出,供数据使用者查看。2.根据权利要求1所述的一种面向数据共享的敏感信息脱敏方法,其特征在于:所述步骤(2)的预处理操作如下:对发布的数据根据数据类型进行分类,数据类型包括结构化形式各类数据库数据、表格数据、数据仓库数据和非结构化的文档数据;预处理时需要对属性值的完整性、一致性、正确性进行检查,并将非结构化的文档数据解析成文本数据,文档数据解析时采用解析工具进行解析。3.根据权利要求1所述的一种面向数据共享的敏感信息脱敏方法,其特征在于:所述命名实体类敏感信息的自动识别采用基于隐马尔可夫HMM模型的Viterbi算法的词性标注和构建命名实体知识库组合方式实现;所述的地址类敏感信息的精确识别通过判断地址信息邻接的词语序列进行实现。4.根据权利要求1所述的一种面向数据共享的敏感信息脱敏方法,其特征在于:所述的敏感属性关联度计算方法如下:(a)采用Sigmoid函数对分类型敏感属性的关联度进行标准化处理,如下定义:其中,该函数的值域区间为[0,1],且连续、光滑、单调递增;(b)假设数据集T中每条记录有p个属性{u1,u2,...,up},且每个属性都分别对应若干个属性值,分为记为{q1,q2,...,qp};当一条记录中,敏感属性对应的属性值出现记为1,不出现记为0,那么该条记录可以表示为一个(q1+q2+...+qp)维行向量当数据集T有n条记录,依次记为{t1,t2,...,tn},则就有n个(q1+q2+...+qp)维行向量,分别表示为(c)将(q1+q2+...+qp)维行向量中对应位上的值进行同或和异或运算,用表示同或运算时对应位上属性值都标记为1的情况,用表示同或运算时对应位上属性值都标记为0;则两属性之间的关联度S(I1,I2)计算公式如下:其中,计算中将参数λ1,λ2,λ3分别设为0.5,0.25,0.25,且值域为0≤S(I1,I2)≤1。5.根据权利要求1所述的一种面向数据共享的敏感信息脱敏方法,其特征在于:所述对号码与数值型的敏感信息进行脱敏处理具体为:通过制定敏感属性生成的规则,将该规则存入敏感属性生成规则库,调用预设的基于数据失真和加...
【专利技术属性】
技术研发人员:张云云,王开红,于海龙,吴培文,陈涛,
申请(专利权)人:银江股份有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。