基于标签的敏感数据追踪溯源方法技术

技术编号:20448705 阅读:41 留言:0更新日期:2019-02-27 02:52
本发明专利技术涉及一种基于标签的敏感数据追踪溯源方法,涉及数据安全技术领域。本发明专利技术针对大数据平台中结构化数据的追踪溯源问题,创新性地提出面向结构化数据的、基于标签的敏感数据追踪溯源方法,同时针对标签技术中元数据占用存储高的标签统一格式定义、标签提取、标签存储、存储优化、可视化展示环节展开设计,实现面向敏感数据的全路径追踪溯源,可对数据泄露源头进行回溯、定位。

Tag-based Traceability Method for sensitive data

The invention relates to a tag-based Traceability Method for sensitive data, and relates to the technical field of data security. Aiming at traceability of structured data in large data platform, the invention innovatively proposes a tag-based Traceability Method of sensitive data for structured data, and designs a unified tag format definition, tag extraction, tag storage, storage optimization and visual display link for High-Occupied metadata in tagging technology to realize sensitive number-oriented. The full path tracing of data can trace and locate the source of data leakage.

【技术实现步骤摘要】
基于标签的敏感数据追踪溯源方法
本专利技术涉及数据安全
,具体涉及一种基于标签的敏感数据追踪溯源方法。
技术介绍
(一)追踪溯源近年来,数据库审计、数据防泄漏等数据防护手段日渐成熟,但数据泄露事件仍频繁发生,“事后”追踪溯源变得越来越重要,一方面可实现数据泄露事件发生后泄漏源头追溯和责任定位,一方面可从管理角度上起到一定的威慑作用。目前主流的追踪溯源技术包括标注法、数字水印等。(1)标注法传统数据溯源追踪方法是标注法,这是一种简单且有效的数据溯源方法。通过记录处理相关的信息来追溯数据的历史状态,即用标注的方式来记录原始数据的一些重要信息,并让标注和数据一起传播,通过查看目标数据的标注来获得数据的溯源。采用标注法来进行数据溯源实现简单,容易管理,但其缺点是只适合小型系统,对于大型系统而言很难为细粒度的数据提供详细的数据溯源信息,因为可能导致元数据比原始数据还多,需要额外的存储空间,对存储造成很大的压力,而且效率低。(2)数字水印数字水印同样是为了保持对分发后的数据进行流向追踪的技术,在数据泄露行为发生后,对造成数据泄露的源头可进行回溯。对于结构化数据,在分发数据中掺杂不影响运算结果的数据,采用增加伪行、增加伪列等方法,拿到泄密数据的样本,可追溯数据泄露源。对于非结构化数据,数字水印可以应用于数字图像、音频、视频、打印、文本、条码等数据信息中,在数据外发的环节加上隐蔽标识水印,可以追踪数据扩散路径。但目前的数字水印方案大多还是针对静态的数据集,满足数据量巨大、更新速度极快的水印方案尚不成熟。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是:如何设计一种针对大数据平台中结构化数据的追踪溯源方法,实现面向敏感数据的全路径追踪溯源,可对数据泄露源头进行回溯、定位。(二)技术方案为了解决上述技术问题,本专利技术提供了一种基于标签的敏感数据追踪溯源方法,包括以下步骤:第一步、标签统一格式定义为审计记录中敏感数据相关的操作行为打标签,标签中的信息包括操作主体、操作客体、客体所在位置、课题敏感等级、操作类型、操作时间、操作主体主机IP和操作主体应用系统账号;所述操作主体为操作行为责任人,操作客体为敏感数据;所示操作类型包括数据增删改查;第二步、标签提取将涉及敏感数据的审计日志进行解析,通过正则表达式匹配的方式,将每条审计日志中相关信息提取出来,生成标签;其中,针对数据增删查操作,生成一个标签,针对数据修改操作,生成分别对应为修改前后两个表格的操作行为标签;第三步、标签存储提取标签后将其单独存储在数据库中,存储中间件设计为由server模块、console模块、异构源统一模块、优化模块和服务状态监视器多个模块组成;所述Server模块用于提供多协议的支持;console模块包括系统配置、部署管理、集群管理内容,用于提供读取数据库配置文件和保存配置信息的接口,对server模块中集群扩展功能进行管理;异构源统一模块用于针对各种异构的数据源提供统一标准化接口,屏蔽不同数据源差异性;优化模块用于实现与下一节中设计的存储优化进行互相调用,共同完成标签存储优化功能;服务状态监视器包括服务监控、流程监控内容,用于提供对server模块运行数据的监控、分析能力。优选地,在第三步的标签存储过程中进行存储优化,分析审计记录结构,对无用的操作行为记录进行删除,合并相似操作行为,在数据标签中增加查询次数信息,从而降低标签数据存储量。优选地,第三步中存储优化包括以下方式:(1)在解析敏感数据审计日志记录、基于正则表达式提取标签信息时,对不能通过正则表达式提取标签统一格式中全部信息的审计记录,直接删除;(2)提取出标签信息后,对操作主体、操作客体、操作类型三项内容完全相同的记录,记为一个操作集合;(3)将同一操作主体的、操作时间间隔不超过1分钟的、连续相同操作行为,只提取一条标签信息,操作次数由默认值1改为连续相同操作次数。优选地,在第三步之后还包括可视化展示的步骤:用于在输入敏感数据词汇时,展示敏感数据的流转路径及所有相关操作行为;输入用户IP时,展示此用户所有面向敏感数据的操作行为。优选地,可视化展示的步骤中,敏感数据流转路径可视化展示的内容包含数据生成信息、数据在各应用系统间或大数据平台组件间的流转路径,所述数据生成信息包括时间、位置、操作主体信息;敏感数据相关操作行为的展示,是以敏感数据为中心,展示所有针对此敏感数据的操作行为,包括数据的增删改查;用户操作行为展示,是以用户为中心,展示此用户所有针对敏感数据的操作行为。优选地,在第三步之后还包括违规行为分析的步骤:违规行为分析以溯源标签中记录的关键操作行为信息为基础,基于统计分析、聚类算法两种方式展开安全分析:一是通过统计分析方法,对访问间隔时间相同、夜间大量访问、访问规律突变这些的异常情况进行分析;二是采用k-means聚类算法进行异常行为分析,将所有标签信息按操作行为分为增删查改四类,对每类操作单独使用k-means算法进行细分类,以检测出异常操作行为。(三)有益效果本专利技术针对大数据平台中结构化数据的追踪溯源问题,创新性地提出面向结构化数据的、基于标签的敏感数据追踪溯源方法,同时针对标签技术中元数据占用存储高的标签统一格式定义、标签提取、标签存储、存储优化、可视化展示环节展开设计,实现面向敏感数据的全路径追踪溯源,可对数据泄露源头进行回溯、定位。附图说明图1为本专利技术的基于标签的敏感数据追踪溯源流程图;图2为本专利技术的敏感数据相关操作行为可视化展示示意图;图3是本专利技术的用户操作行为可视化展示示意图。具体实施方式为使本专利技术的目的、内容、和优点更加清楚,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。如图1所示,本专利技术的基于标签的敏感数据追踪溯源方法包括敏感数据定义、操作行为审计、标签统一格式设计、操作行为标签提取、标签存储、存储优化、敏感数据流向可视化追踪等环节,实现对数据泄露事件源头回溯,并在此基础上开展违规行为分析,实现对异常操作行为的告警。其中,追踪溯源对象为大数据平台中存储、流转的结构化数据。其中,敏感数据定义与实际应用场景相关,一般来说包含身份证号、住址、银行卡号、病历、基因信息等,还可能包含企业特殊敏感信息,需根据实际应用场景进行提炼。操作行为审计涵盖面向应用系统的操作行为审计,以及面向大数据平台的操作行为审计。与通用的数据库审计系统不同,操作行为审计直接定位到人员,针对应用系统的审计,可根据应用系统账号定位到操作行为责任人;针对大数据平台的操作行为审计,可根据操作主机IP定位到操作行为责任人。敏感数据操作行为标签提取、存储、优化,主要是基于审计日志,按照统一制定的标签标准,对针对敏感数据的操作行为打标签,所有标签单独集中存储在数据库中,并为了提高追踪溯源性能开展存储优化。此部分是本专利技术的核心内容,在下一章节重点阐述。敏感数据流向可视化展示涵盖敏感数据的流转路径展示,及敏感数据相关操作行为展示。本专利技术在敏感数据定义、操作行为审计的基础上,开展基于标签的敏感数据追踪溯源方法设计,支撑敏感数据流向追踪溯源。具体包括以下步骤:第一步、标签统一格式定义为审计记录中敏感数据相关的操作行为打标签,标签中信息包括操作主体(操作行为责任人)、操作客体(敏感数据本文档来自技高网...

【技术保护点】
1.一种基于标签的敏感数据追踪溯源方法,其特征在于,包括以下步骤:第一步、标签统一格式定义为审计记录中敏感数据相关的操作行为打标签,标签中的信息包括操作主体、操作客体、客体所在位置、课题敏感等级、操作类型、操作时间、操作主体主机IP和操作主体应用系统账号;所述操作主体为操作行为责任人,操作客体为敏感数据;所示操作类型包括数据增删改查;第二步、标签提取将涉及敏感数据的审计日志进行解析,通过正则表达式匹配的方式,将每条审计日志中相关信息提取出来,生成标签;其中,针对数据增删查操作,生成一个标签,针对数据修改操作,生成分别对应为修改前后两个表格的操作行为标签;第三步、标签存储提取标签后将其单独存储在数据库中,存储中间件设计为由server模块、console模块、异构源统一模块、优化模块和服务状态监视器多个模块组成;所述Server模块用于提供多协议的支持;console模块包括系统配置、部署管理、集群管理内容,用于提供读取数据库配置文件和保存配置信息的接口,对server模块中集群扩展功能进行管理;异构源统一模块用于针对各种异构的数据源提供统一标准化接口,屏蔽不同数据源差异性;优化模块用于实现与下一节中设计的存储优化进行互相调用,共同完成标签存储优化功能;服务状态监视器包括服务监控、流程监控内容,用于提供对server模块运行数据的监控、分析能力。...

【技术特征摘要】
1.一种基于标签的敏感数据追踪溯源方法,其特征在于,包括以下步骤:第一步、标签统一格式定义为审计记录中敏感数据相关的操作行为打标签,标签中的信息包括操作主体、操作客体、客体所在位置、课题敏感等级、操作类型、操作时间、操作主体主机IP和操作主体应用系统账号;所述操作主体为操作行为责任人,操作客体为敏感数据;所示操作类型包括数据增删改查;第二步、标签提取将涉及敏感数据的审计日志进行解析,通过正则表达式匹配的方式,将每条审计日志中相关信息提取出来,生成标签;其中,针对数据增删查操作,生成一个标签,针对数据修改操作,生成分别对应为修改前后两个表格的操作行为标签;第三步、标签存储提取标签后将其单独存储在数据库中,存储中间件设计为由server模块、console模块、异构源统一模块、优化模块和服务状态监视器多个模块组成;所述Server模块用于提供多协议的支持;console模块包括系统配置、部署管理、集群管理内容,用于提供读取数据库配置文件和保存配置信息的接口,对server模块中集群扩展功能进行管理;异构源统一模块用于针对各种异构的数据源提供统一标准化接口,屏蔽不同数据源差异性;优化模块用于实现与下一节中设计的存储优化进行互相调用,共同完成标签存储优化功能;服务状态监视器包括服务监控、流程监控内容,用于提供对server模块运行数据的监控、分析能力。2.如权利要求1所述的方法,其特征在于,在第三步的标签存储过程中进行存储优化,分析审计记录结构,对无用的操作行为记录进行删除,合并相似操作行为,在数据标签中增加查询次数信息,从而降低标签数据存储量。3.如权利要求2所述的方法,其特征在...

【专利技术属性】
技术研发人员:郭敏吴朝雄石波于冰查尤平
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1