针对数据中台的数据泄露追溯方法及系统技术方案

技术编号:39306555 阅读:13 留言:0更新日期:2023-11-12 15:54
本发明专利技术公开了一种针对数据中台的数据泄露追溯方法,包括收集数据中台每一次的数据共享信息并生成唯一标识;进行风险度量并构建风险库;确定各个数据共享过程所对应的水印形式;数据泄露时获取数据泄露样本和对应的水印内容并构建泄露事实库;训练风险模型;对风险度量过程进行参数更新;重复以上步骤实时完成针对数据中台的数据泄露追溯。本发明专利技术还公开了一种实现所述针对数据中台的数据泄露追溯方法的系统。本发明专利技术能够通过数据水印信息进行对应的解析判断,最后通过既定泄露事实依据深度学习模型调整风险识别参数,实现风险识别的实时优化;因此本发明专利技术的可靠性高、准确性好且客观科学。观科学。观科学。

【技术实现步骤摘要】
针对数据中台的数据泄露追溯方法及系统


[0001]本专利技术属于信息安全
,具体涉及一种针对数据中台的数据泄露追溯方法及系统。

技术介绍

[0002]随着经济技术的发展和人们生活水平的提高,电能已经成为了人们生产和生活中必不可少的二次能源,给人们的生产和生活带来了无尽的便利。因此,保证电能的稳定可靠供应,就成为了电力系统最重要的任务之一。
[0003]目前,电力系统的信息化水平越来越高;电力系统的信息安全也越来越重要。因此,对于电力系统而言,数据泄漏追溯技术就显得尤为重要。数据泄漏追溯技术集数据水印、日志分析及泄露源识别技术于一体,具有多维分析、可扩展、综合防护等特点;数据泄漏追溯技术还结合了访问控制、数据行为审计、脱敏等技术,从而成为了数据安全防护体系的重要一环。
[0004]在现有的环境下,通过采用特定数据水印,可以对数据泄露进行部分追溯,满足基础的数据安全需求。然而,随着数据类型及数据组件类型逐渐增多,单一性的、机械性的数据水印在较多场景下并不能成功溯源,且风险识别不能随着既有泄露事实进行动态优化,从而无法对数据泄露风险实现灵活、动态的防护。
[0005]针对现有的单一数据水印方案,较好的解决方法包括逐个梳理数据源、通过数据源的数据类型及存储组件类型逐个指定附着水印类型、定期更新数据源台账并逐一进行调整等。但是,这类方法仍需要人工梳理与查找,工作十分繁琐,而且往往无法及时、动态地调整策略,易造成数据安全防护可靠性差的问题。而且,现有的数据水印方案也无法自适应的对不同安全等级要求的数据进行动态、敏捷的防护。

技术实现思路

[0006]本专利技术的目的之一在于提供一种可靠性高、准确性好且客观科学的针对数据中台的数据泄露追溯方法。
[0007]本专利技术的目的之二在于提供一种实现所述针对数据中台的数据泄露追溯方法的系统。
[0008]本专利技术提供的这种针对数据中台的数据泄露追溯方法,包括如下步骤:
[0009]S1.收集数据中台每一次的数据共享信息,并生成对应的唯一标识;
[0010]S2.根据步骤S1得到的唯一标识,对数据共享过程进行风险度量,并构建风险库;
[0011]S3.根据步骤S1得到的唯一标识和步骤S2构建的风险库,确定各个数据共享过程所对应的水印形式;
[0012]S4.当数据泄露时,获取数据泄露样本和对应的水印内容,并构建泄露事实库;
[0013]S5.采用步骤S4构建的泄露事实库,对风险模型进行训练,得到训练后的风险模型;
[0014]S6.采用步骤S5得到的训练后的风险模型,对步骤S2中的风险度量过程进行参数更新;
[0015]S7.重复步骤S1~S6,实时完成针对数据中台的数据泄露追溯。
[0016]步骤S1所述的收集数据中台每一次的数据共享信息,并生成对应的唯一标识,具体包括如下步骤:
[0017]采用python的Log Service服务,将数据中台的数据共享日志数据发送到日志服务中,分析得到每一次数据共享的详细要素;所述的详细要素包括数据接收方信息、共享表信息、数据接收方IP信息、数据使用用途和范围信息、数据共享形式信息和共享数据存储量信息;
[0018]通过正则表达式的方式,提取数据共享日志的数据信息,并形成日志筛选要素库{E
j
},其中E
j
=[ID
j
,ele
j
],ID
j
为数据共享事件的ID,ele
j
为日志筛选要素且ele
j
={r
jk
,t
jk
,i
jk
,u
jk
,m
jk
,s
jk
},r
jk
为数据接收方信息的正则表达式,t
jk
为共享表信息的正则表达式,i
jk
为数据接收方IP信息的正则表达式,u
jk
为数据使用用途和范围信息的正则表达式,m
jk
为数据共享形式信息的正则表达式,s
jk
为共享数据存储量信息的正则表达式;
[0019]根据日志筛选要素库{E
j
},形成对应关系库{R
j
},其中R
j
=[E
j
,U
j
],U
j
为数据共享事件的唯一ID信息;
[0020]其中,使用python语言uuid库的uuid4方法生成唯一标识;采用python语言numpy库的vectorize方法对数据进行存储。
[0021]步骤S2所述的根据步骤S1得到的唯一标识,对数据共享过程进行风险度量,并构建风险库,具体包括如下步骤:
[0022]通过python的AcsClient和CommonRequest库,将每一个数据共享请求转化为唯一标识和共享事件信息的映射关系;利用OTS数据库构造字典表data_sharing_events,用于存储所有产生的映射关系;
[0023]使用python语言NumPy的multiply函数、scikit

learn库的KNeighborsClassifier分类器,对各个要素赋予权重值,并计算对应的风险分数值;所述的要素包括数据暴露面、数据敏感程度和数据接收方安全合规能力完备程度;
[0024]采用python语言Pandas库的DataFrame类创建数据框,并存入OTS数据库中字典表中。
[0025]所述的风险分数值,具体为采用如下步骤计算得到:
[0026]采用如下算式计算得到风险值Gr
j

[0027][0028]其中,α为隐私风险评估模型与差分隐私风险度量模型计分的权重值;eler
j
为风险要素;w
j
为对应风险要素设定的初始权值;ε为差分隐私风险度量中隐私保护的强度值,用于表示允许的隐私泄露程度;δ为共享的数据集大小,可以利用共享数据的存储量来表示;Gr
j
为利用隐私风险评估模型及差分隐私风险度量模型结合要素权值计算得到的风险值。
[0029]步骤S3所述的根据步骤S1得到的唯一标识和步骤S2构建的风险库,确定各个数据
共享过程所对应的水印形式,具体包括如下步骤:
[0030]数据共享形式包括:对内以表形式共享、对内以API接口形式共享、对内以离线文件形式共享、对内以实时数据流形式共享、对外以表形式共享、对外以API接口形式共享、对外以离线文件形式共享和对外以实时数据流形式共享;
[0031]水印形式包括隐形水印、最低位变换水印和零宽字符水印;
[0032]构建水印筛选规则库{RU
j
},其中RU
j
=[FO
j
,W
j
]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对数据中台的数据泄露追溯方法,包括如下步骤:S1.收集数据中台每一次的数据共享信息,并生成对应的唯一标识;S2.根据步骤S1得到的唯一标识,对数据共享过程进行风险度量,并构建风险库;S3.根据步骤S1得到的唯一标识和步骤S2构建的风险库,确定各个数据共享过程所对应的水印形式;S4.当数据泄露时,获取数据泄露样本和对应的水印内容,并构建泄露事实库;S5.采用步骤S4构建的泄露事实库,对风险模型进行训练,得到训练后的风险模型;S6.采用步骤S5得到的训练后的风险模型,对步骤S2中的风险度量过程进行参数更新;S7.重复步骤S1~S6,实时完成针对数据中台的数据泄露追溯。2.根据权利要求1所述的针对数据中台的数据泄露追溯方法,其特征在于步骤S1所述的收集数据中台每一次的数据共享信息,并生成对应的唯一标识,具体包括如下步骤:采用python的Log Service服务,将数据中台的数据共享日志数据发送到日志服务中,分析得到每一次数据共享的详细要素;所述的详细要素包括数据接收方信息、共享表信息、数据接收方IP信息、数据使用用途和范围信息、数据共享形式信息和共享数据存储量信息;通过正则表达式的方式,提取数据共享日志的数据信息,并形成日志筛选要素库{E
j
},其中E
j
=[ID
j
,ele
j
],ID
j
为数据共享事件的ID,ele
j
为日志筛选要素且ele
j
={r
jk
,t
jk
,i
jk
,u
jk
,m
jk
,s
jk
},r
jk
为数据接收方信息的正则表达式,t
jk
为共享表信息的正则表达式,i
jk
为数据接收方IP信息的正则表达式,u
jk
为数据使用用途和范围信息的正则表达式,m
jk
为数据共享形式信息的正则表达式,s
jk
为共享数据存储量信息的正则表达式;根据日志筛选要素库{E
j
},形成对应关系库{R
j
},其中R
j
=[E
j
,U
j
],U
j
为数据共享事件的唯一ID信息;其中,使用python语言uuid库的uuid4方法生成唯一标识;采用python语言numpy库的vectorize方法对数据进行存储。3.根据权利要求2所述的针对数据中台的数据泄露追溯方法,其特征在于步骤S2所述的根据步骤S1得到的唯一标识,对数据共享过程进行风险度量,并构建风险库,具体包括如下步骤:通过python的AcsClient和CommonRequest库,将每一个数据共享请求转化为唯一标识和共享事件信息的映射关系;利用OTS数据库构造字典表data_sharing_events,用于存储所有产生的映射关系;使用python语言NumPy的multiply函数、scikit

learn库的KNeighborsClassifier分类器,对各个要素赋予权重值,并计算对应的风险分数值;所述的要素包括数据暴露面、数据敏感程度和数据接收方安全合规能力完备程度;采用python语言Pandas库的DataFrame类创建数据框,并存入OTS数据库中字典表中。4.根据权利要求3所述的针对数据中台的数据泄露追溯方法,其特征在于所述的风险分数值,具体为采用如下步骤计算得到:采用如下算式计算得到风险分数值:
其中,α为隐私风险评估模型与差分隐私风险度量模型计分的权重值;eler
j
为风险要素;w
j
为对应风险要素设定的初始权值;ε为差分隐私风险度量中隐私保护的强度值;δ为共享的数据集大小;Gr
j
为计算得到的风险分数值。5.根据权利要求4所述的针对数据中台的数据泄露追溯方法,其特征在于步骤S3所述的根据步骤S1得到的唯一标识和步骤S2构建的风险库,确定各个数据共享过程所对应的水印形式,具体包括如下步骤:数据共享形式包括:对内以表形式共享、对内以API接口形式共享、对内以离线文件形式共享、对内以实时数据流形式共享、对外以表形式共享、对外以API接口形式共享、对外以离线文件形式共享和对外以实时数据流形式共享;水印形式包括隐形水印、最低位变换水印和零宽字符水印;构建水印筛选规则库{RU
j
},其中RU
j
=[FO
j
,W
j
],FO
j
为数据共享形式,W
j
为对应的水印形式的正则表达式;在数据共享事件触发时,对当前的数据共享事件与水印筛选规则库{RU
j
}进行匹配:首先根据当前的数据共享事件所对应的数据共享形式,与水印筛选规则库{RU
j
}进行匹配:若直接匹配成功,则给出匹配的数据共享形式所对应的水印形式,并将当前的数据共享事件与对应的水印形式进行联合保存,并构建水印方式库{F

【专利技术属性】
技术研发人员:罗豪凯孙毅臻蔡哲儒余琦朱宏宇田建伟薛静远廖铭鼎李轶佳
申请(专利权)人:国网湖南省电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1