一种针对网络安全事件的数据泛化方法技术

技术编号:39648764 阅读:30 留言:0更新日期:2023-12-09 11:16
本发明专利技术公开了一种针对网络安全事件的数据泛化方法,包括:对网络安全事件数据集抽样,获取抽样数据并进行数据清洗,基于清洗后的数据集合判断清洗数据是否匹配聚合规则,并对与聚合规则匹配进行数据聚合计算获得按照对象

【技术实现步骤摘要】
一种针对网络安全事件的数据泛化方法


[0001]本专利技术属于网络安全数据处理领域,具体涉及一种针对网络安全事件的数据泛化方法


技术介绍

[0002]网络安全事件通过数据泛化技术进行分析和转化,现有的方案通过对数据依次进行脱敏处理

匿名化处理

泛化层次处理

统计聚合处理

数据量化处理完成数据泛化,实现在一定程度上降低数据的细节和精确性,且同时也保护了敏感信息和隐私,使其难以还原或识别;但是采用当前数据泛化技术存在一些问题和缺陷,包括:
(1)
泛化后造成网络安全数据的信息损失;
(2)
泛化后造成网络安全数据的失真;
(3)
泛化后造成数据可用性与实用性降低;
(4)
现有的数据泛化方法难以兼容多任务;因此通过现有的数据泛化技术分析网络安全事件依然还不是很完善


技术实现思路

[0003]专利技术目的:为了克服现有技术中的不足,本专利技术提供一种针对网络安全事件的数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种针对网络安全事件的数据泛化方法,其特征在于,包括:对网络安全事件数据集抽样,获取抽样数据;对抽样数据进行数据清洗,获得清洗后的数据集合;基于清洗后的数据集合判断清洗数据是否匹配聚合规则,并对与聚合规则匹配进行数据聚合计算,获得按照对象

时间约定

聚合次数预设限值聚合后的数据集合;对聚合后的连续数据集合进行数据分箱处理,获得分箱后具有多个离散数据区间的数据集;对具有多个离散数据区间的数据集进行降维处理,获得降维后的数据集;对降维数据集进行特征选择,获得降维数据集中的特征子集;其中,降维数据集中的特征子集为最终生成的网络安全事件的泛化数据
。2.
根据权利要求1所述的一种针对网络安全事件的数据泛化方法,其特征在于,对网络安全事件数据集抽样,获取抽样数据,包括:根据网络安全事件的总体数据量,确定抽样数据样本量;基于确定的抽样数据样本量启动抽样动作,由系统随机确定起始位置或者人工指定一个起始位置
i
,当选择随机确定起始位置时,通过随机数生成器生成随机确定起始位置;从起始位置开始,按照预设固定步长
k
依次选取样本直至达到样本量,输出抽样数据集;其中,达到样本量的抽样数据分别进行统计分析和建模,用于评估所选网络安全事件数据泛化的总体结果
。3.
根据权利要求1所述的一种针对网络安全事件的数据泛化方法,其特征在于,对抽样数据进行数据清洗,获得清洗后的数据集合,包括:对抽样数据分别进行缺失值填充或删除

异常值检测和处理

噪声数据处理

数据格式转换以及数据归一化处理,清洗为无缺失值

无异常值

噪声消除

数据格式标准化以及数据度量范围限定的样本数据集合
。4.
根据权利要求3所述的一种针对网络安全事件的数据泛化方法,其特征在于,对抽样数据进行缺失值填充或删除包括对根据均值

中位数

众数填充缺失值或将缺失值所在行或列删除;对抽样数据进行异常值检测和处理包括:分别采用平滑和截断的方法处理抽样数据;平滑处理方法为使用移动平均

指数平滑的方法降低突发性异常值的影响;截断处理方法是将超过一定范围的异常值视为缺失值或删去;对抽样数据进行噪声数据处理包括:采用滤波和插值处理抽样数据,通过均值滤波方法消除噪声以及通过已知数据点推算出未知点的取值;对抽样数据进行数据格式转换包括:将不符合格式要求的抽样数据转换为标准格式,用于时间序列的分析;对抽样数据进行归一化处理包括:将不同度量范围的数据进行归一化操作使得数据度量限值在一定范围内
。5.
根据权利要求1所述的一种针对网络安全事件的数据泛化方法,其特征在于,基于清洗后的数据集合判断清洗数据是否匹配聚合规则,并对与聚合规则匹配进行数据聚合计算,获得按照对象

时间约定

聚合次数预设限值聚合后的数据集合,包括:判断清洗数据是否为匹配聚合规则的数据,并基于判断结果获得清洗数据的聚合次数
以及聚合时间;基于预设聚合次数的范围值

时间约定分别判断清洗数据的聚合次数以及聚合时间,并基于判断结果执行聚合操作或关闭聚合操作或重新分析清洗后的数据集合
。6.
根据权利要求5所述的一种针对网络安全事件的数据泛化方法,其特征在于,判断清洗数据是否为匹配聚合规则的数据,并基于判断结果获得清洗数据的聚合次数以及聚合时间,包括:当判断清洗数据为匹配聚合规则的第一条数据时,进行开启聚合监测,此时聚合次数为1,聚合开始时间

聚合更新时间为本数据的时间,获得聚合开始时间

聚合更新时间

聚合次数;当判断清洗数据不为匹配聚合规则的第一条数据时,基于预设聚合次数的范围值

时间约定分别判断清洗数据的...

【专利技术属性】
技术研发人员:李威李健俊姜学峰乐欢邵慧董惠良
申请(专利权)人:浙江中烟工业有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1