一种大数据非结构化文件动态脱敏方法及系统技术方案

技术编号:16500723 阅读:42 留言:0更新日期:2017-11-04 11:37
本发明专利技术公开了一种大数据非结构化文件动态脱敏方法及系统,该系统包括:客户端、中央调度器、脱敏系统以及HDFS;所述客户端向中央调度器发送数据读取指令,并根据从所述中央调度器返回的DataNode地址从脱敏系统所在主机或者HDFS获取数据;所述中央调度器解析数据读取指令,判断是否需要脱敏,如果是,修改获取到的文件数据块的DataNode地址为脱敏系统所在主机地址,将修改过的DataNode地址返回客户端,同时将未修改的DataNode地址发给脱敏系统;所述脱敏系统用于将从DataNode地址获取的数据脱敏后返回给客户端。通过该发明专利技术的方案,实现简单,节约成本,透明部署,对已有应用无影响。

A big data and non structured file system dynamic desensitization method

The invention discloses a data desensitization method and system of non dynamic structured file system includes: the client, the central scheduler, desensitization system and HDFS; the client sends data to the central scheduler read instructions according to the return from the central scheduler DataNode address from the host system or desensitization data acquisition by HDFS; the central scheduler analytical data reading instruction, to determine whether to desensitization, if access to the file, modify the data block the DataNode address of host address for desensitization system, the modified DataNode address to the client, and will not modify the DataNode address to the desensitization desensitization system; system for will obtain from the DataNode address during the data back to the client. The scheme has the advantages of simple implementation, cost saving, transparent deployment, and no influence on the existing applications.

【技术实现步骤摘要】
一种大数据非结构化文件动态脱敏方法及系统
本专利技术涉及数据安全领域,具体涉及一种大数据非结构化文件动态脱敏方法及系统。
技术介绍
在Hadoop生态体系中,HDFS系统用来存储非结构化数据。在大数据处理系统从海量数据中挖掘价值的同时,一些数据字典、人口信息等存档数据作为数据价值挖掘的重要基础,一经存储就很少改动,HDFS文件是这类数据常见的存储方式。以基于权限的访问控制,对用户对数据资源的访问做出是或否两种鉴权结论,这种方式难以满足用户多样化的数据使用需求。当访问某类敏感数据的用户仅需要敏感数据的部分内容,而不需要获取安全级别较高的数据内容时,仅靠权限控制模型不能满足这种需求。大数据动态脱敏技术作为权限管控技术的有效补充,称为大数据应用领域的研究热点。静态脱敏是大数据脱敏一种较为常见的解决方案。其实现思路是通过调用数据存储系统提供的访问API,从原始数据存储库中读取数据,然后将脱敏引擎处理后的数据,写入到一个新的存储库中,如图1所示。目前采用的HDFS静态脱敏技术主要存在以下缺点:(1)脱敏一经完成,脱敏数据即固定,如果需要应用其他脱敏规则,必须重新执行脱敏过程。(2)需要额外的存本文档来自技高网...
一种大数据非结构化文件动态脱敏方法及系统

【技术保护点】
一种大数据非结构化文件动态脱敏方法,该方法包括以下步骤:1)客户端向中央调度器发送数据读取指令;2)中央调度器解析数据读取指令,判断是否需要脱敏,如果是,修改获取到的文件数据块的DataNode地址为脱敏系统所在主机地址,跳转到步骤3),如果不需要脱敏,则跳转到步骤6);3)将修改过的DataNode地址返回客户端,同时将未修改的DataNode地址发给脱敏系统;4)客户端向脱敏系统所在主机请求数据信息;5)脱敏系统将数据脱敏后返回给客户端,跳转到步骤7);6)将获取的真实文件数据块的DataNode地址返回客户端,客户端直接从DataNode获取数据;7)结束。

【技术特征摘要】
1.一种大数据非结构化文件动态脱敏方法,该方法包括以下步骤:1)客户端向中央调度器发送数据读取指令;2)中央调度器解析数据读取指令,判断是否需要脱敏,如果是,修改获取到的文件数据块的DataNode地址为脱敏系统所在主机地址,跳转到步骤3),如果不需要脱敏,则跳转到步骤6);3)将修改过的DataNode地址返回客户端,同时将未修改的DataNode地址发给脱敏系统;4)客户端向脱敏系统所在主机请求数据信息;5)脱敏系统将数据脱敏后返回给客户端,跳转到步骤7);6)将获取的真实文件数据块的DataNode地址返回客户端,客户端直接从DataNode获取数据;7)结束。2.根据权利要求1所述的方法,所述步骤2)中,所述中央调度器解析所述数据读取指令,形成三元组:用户、操作、资源。3.根据权利要求1所述的方法,所述步骤2)中,所述中央调度器根据预设规则对所述三元组进行比对,判断是否需要脱敏。4.根据权利要求1所述的方法,所述步骤5)中,所述脱敏系统通过从中央调度器转发来的真实的DataNode地址获取数据信息,将数据脱敏后返回给客户端。5.一种大数据非结构化文件动态脱敏系统,该系统包括:客户端、中央调度器、脱敏系统以及HDFS;所述客户端向中央调度器发送数据读取指令,并根据从所述中央调度器返回的DataNode地址从脱敏系统所在主机或者HDFS获取数据;所述中央调度器解析数据读取指令,判断是否需要脱敏,如果是,修改获取到的文件数据块的DataNode地址为脱敏...

【专利技术属性】
技术研发人员:李学进王志海喻波魏力
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1