【技术实现步骤摘要】
针对数据中台的数据泄露追溯方法及系统
[0001]本专利技术属于信息安全
,具体涉及一种针对数据中台的数据泄露追溯方法及系统。
技术介绍
[0002]随着经济技术的发展和人们生活水平的提高,电能已经成为了人们生产和生活中必不可少的二次能源,给人们的生产和生活带来了无尽的便利。因此,保证电能的稳定可靠供应,就成为了电力系统最重要的任务之一。
[0003]目前,电力系统的信息化水平越来越高;电力系统的信息安全也越来越重要。因此,对于电力系统而言,数据泄漏追溯技术就显得尤为重要。数据泄漏追溯技术集数据水印、日志分析及泄露源识别技术于一体,具有多维分析、可扩展、综合防护等特点;数据泄漏追溯技术还结合了访问控制、数据行为审计、脱敏等技术,从而成为了数据安全防护体系的重要一环。
[0004]在现有的环境下,通过采用特定数据水印,可以对数据泄露进行部分追溯,满足基础的数据安全需求。然而,随着数据类型及数据组件类型逐渐增多,单一性的、机械性的数据水印在较多场景下并不能成功溯源,且风险识别不能随着既有泄露事实进行动态优化,从而无法对数据泄露风险实现灵活、动态的防护。
[0005]针对现有的单一数据水印方案,较好的解决方法包括逐个梳理数据源、通过数据源的数据类型及存储组件类型逐个指定附着水印类型、定期更新数据源台账并逐一进行调整等。但是,这类方法仍需要人工梳理与查找,工作十分繁琐,而且往往无法及时、动态地调整策略,易造成数据安全防护可靠性差的问题。而且,现有的数据水印方案也无法自适应的对不同安全等级要求的数 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种针对数据中台的数据泄露追溯方法,包括如下步骤:S1.收集数据中台每一次的数据共享信息,并生成对应的唯一标识;S2.根据步骤S1得到的唯一标识,对数据共享过程进行风险度量,并构建风险库;S3.根据步骤S1得到的唯一标识和步骤S2构建的风险库,确定各个数据共享过程所对应的水印形式;S4.当数据泄露时,获取数据泄露样本和对应的水印内容,并构建泄露事实库;S5.采用步骤S4构建的泄露事实库,对风险模型进行训练,得到训练后的风险模型;S6.采用步骤S5得到的训练后的风险模型,对步骤S2中的风险度量过程进行参数更新;S7.重复步骤S1~S6,实时完成针对数据中台的数据泄露追溯。2.根据权利要求1所述的针对数据中台的数据泄露追溯方法,其特征在于步骤S1所述的收集数据中台每一次的数据共享信息,并生成对应的唯一标识,具体包括如下步骤:采用python的Log Service服务,将数据中台的数据共享日志数据发送到日志服务中,分析得到每一次数据共享的详细要素;所述的详细要素包括数据接收方信息、共享表信息、数据接收方IP信息、数据使用用途和范围信息、数据共享形式信息和共享数据存储量信息;通过正则表达式的方式,提取数据共享日志的数据信息,并形成日志筛选要素库{E
j
},其中E
j
=[ID
j
,ele
j
],ID
j
为数据共享事件的ID,ele
j
为日志筛选要素且ele
j
={r
jk
,t
jk
,i
jk
,u
jk
,m
jk
,s
jk
},r
jk
为数据接收方信息的正则表达式,t
jk
为共享表信息的正则表达式,i
jk
为数据接收方IP信息的正则表达式,u
jk
为数据使用用途和范围信息的正则表达式,m
jk
为数据共享形式信息的正则表达式,s
jk
为共享数据存储量信息的正则表达式;根据日志筛选要素库{E
j
},形成对应关系库{R
j
},其中R
j
=[E
j
,U
j
],U
j
为数据共享事件的唯一ID信息;其中,使用python语言uuid库的uuid4方法生成唯一标识;采用python语言numpy库的vectorize方法对数据进行存储。3.根据权利要求2所述的针对数据中台的数据泄露追溯方法,其特征在于步骤S2所述的根据步骤S1得到的唯一标识,对数据共享过程进行风险度量,并构建风险库,具体包括如下步骤:通过python的AcsClient和CommonRequest库,将每一个数据共享请求转化为唯一标识和共享事件信息的映射关系;利用OTS数据库构造字典表data_sharing_events,用于存储所有产生的映射关系;使用python语言NumPy的multiply函数、scikit
‑
learn库的KNeighborsClassifier分类器,对各个要素赋予权重值,并计算对应的风险分数值;所述的要素包括数据暴露面、数据敏感程度和数据接收方安全合规能力完备程度;采用python语言Pandas库的DataFrame类创建数据框,并存入OTS数据库中字典表中。4.根据权利要求3所述的针对数据中台的数据泄露追溯方法,其特征在于所述的风险分数值,具体为采用如下步骤计算得到:采用如下算式计算得到风险分数值:
其中,α为隐私风险评估模型与差分隐私风险度量模型计分的权重值;eler
j
为风险要素;w
j
为对应风险要素设定的初始权值;ε为差分隐私风险度量中隐私保护的强度值;δ为共享的数据集大小;Gr
j
为计算得到的风险分数值。5.根据权利要求4所述的针对数据中台的数据泄露追溯方法,其特征在于步骤S3所述的根据步骤S1得到的唯一标识和步骤S2构建的风险库,确定各个数据共享过程所对应的水印形式,具体包括如下步骤:数据共享形式包括:对内以表形式共享、对内以API接口形式共享、对内以离线文件形式共享、对内以实时数据流形式共享、对外以表形式共享、对外以API接口形式共享、对外以离线文件形式共享和对外以实时数据流形式共享;水印形式包括隐形水印、最低位变换水印和零宽字符水印;构建水印筛选规则库{RU
j
},其中RU
j
=[FO
j
,W
j
],FO
j
为数据共享形式,W
j
为对应的水印形式的正则表达式;在数据共享事件触发时,对当前的数据共享事件与水印筛选规则库{RU
j
}进行匹配:首先根据当前的数据共享事件所对应的数据共享形式,与水印筛选规则库{RU
j
}进行匹配:若直接匹配成功,则给出匹配的数据共享形式所对应的水印形式,并将当前的数据共享事件与对应的水印形式进行联合保存,并构建水印方式库{F
技术研发人员:罗豪凯,孙毅臻,蔡哲儒,余琦,朱宏宇,田建伟,薛静远,廖铭鼎,李轶佳,
申请(专利权)人:国网湖南省电力有限公司信息通信分公司国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。