一种预测模型的自学习方法、装置和计算机可读存储介质制造方法及图纸

技术编号:36954864 阅读:17 留言:0更新日期:2023-03-22 19:15
一种预测模型的自学习方法,包括:获取预测模型的预测边界阈值,所述预测模型是网络安全态势感知的预测模型;连续采集N个窗口的数据样本,N≥2;根据所述预测边界阈值和所述采集的数据样本计算偏离阈值区间,其中所述偏离阈值区间用于表示所述数据样本相对于所述预测边界阈值发生偏离的阈值;判断每个窗口内实时数据的偏离值是否超过所述偏离阈值区间,在实时数据的偏离值大于所述偏离阈值区间的情况下,重新训练预测模型并更新预测模型。上述预测模型的自学习方法,能够持续采集实时数据、分析数据偏差的趋势,判断真实数据与基线发生明显偏离后,自动训练更新预测模型,从而避免固定模型自学习周期设置太短带来的计算资源浪费,设置太长带来的模型更新滞后性的问题。题。题。

【技术实现步骤摘要】
一种预测模型的自学习方法、装置和计算机可读存储介质


[0001]本公开涉及但不限于信息安全技术,更具体地,涉及一种预测模型的自学习方法、装置和计算机可读存储介质。

技术介绍

[0002]在信息安全领域中,网络安全态势感知是通过将例如入侵检测系统、日志审计系统、终端防护系统等安全系统的数据进行收集后,针对当前网络的安全情况进行评估并预测未来变化趋势。预测是态势感知的重要任务之一,其中时间序列等基于历史数据构建预测趋势基线的算法是趋势预测的主要方法之一。在时间序列的预测过程中,通过观测值来持续对时间序列模型所预测的趋势值进行修正是很有必要的,很多时间序列的周期性都比较容易被准确预测,但趋势性会容易受到近期一些实时的随机事件影响,如果使用时间间隔较久的历史数据训练出的模型来预测,会让时间序列预测的趋势性判断出现较大偏差,尤其在将时间序列方法使用在网络安全态势感知预测中时,如对网络安全事件数量的趋势预测、对网络流量值的趋势预测等,其采样点的时间数量级往往都在小时甚至分钟级。
[0003]相关技术中,一些态势感知系统采用周期性重新采集数据训练模型,但往往都是与现在数据完全不相关,一方面会出现大量预测异常,另一方面也具有较大的滞后性。定期的自动训练模型不仅浪费计算资源,也无法对周期内或跨周期的趋势变化建模。此外,自动训练更新模型的还会存在由于采集到脏数据而影响模型准确率的情况,如果系统没有自动修正措施会使得自动更新的模型不可用。

技术实现思路

[0004]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0005]本公开实施例提出了一种预测模型的自学习方法,包括:
[0006]获取预测模型的预测边界阈值,所述预测模型是网络安全态势感知的预测模型;
[0007]连续采集N个窗口的数据样本,N≥2;
[0008]根据所述预测边界阈值和所述采集的数据样本计算偏离阈值区间,其中所述偏离阈值区间用于表示所述数据样本相对于所述预测边界阈值发生偏离的阈值;
[0009]判断每个窗口内实时数据的偏离值是否超过所述偏离阈值区间,在实时数据的偏离值大于所述偏离阈值区间的情况下,重新训练预测模型并更新预测模型。
[0010]在本公开一示例性实施例中,所述连续采集N个窗口的数据样本,N≥2,包括:
[0011]设置滑动窗口大小和滑动距离;
[0012]按照预先设置的滑动距离向前滑动所述滑动窗口以连续采集N个窗口的数据样本。
[0013]在本公开一示例性实施例中,所述根据所述预测边界阈值和所述采集的数据样本计算偏离阈值区间,包括:
[0014]根据所述预测边界阈值和所述采集的数据样本计算第一偏离阈值区间;和/或,
[0015]根据所述预测边界阈值和所述采集的数据样本计算第三偏离阈值区间;
[0016]其中,所述第一偏离阈值区间用于表示发生偏离的数据样本的数量;所述第三偏离阈值区间用于表示发生偏离的数据样本的偏离总量。
[0017]在本公开一示例性实施例中,所述根据所述预测边界阈值和所述采集的数据样本计算第一偏离阈值区间,包括:
[0018]计算所述N个窗口的每个窗口内数据样本超过所述预测边界阈值的样本个数N1;
[0019]将N1除以每个窗口总样本数N2,得到每个窗口内的偏离率;
[0020]计算所述N个窗口的窗口内偏离率的高斯分布,得到第一偏离阈值区间。
[0021]在本公开一示例性实施例中,所述根据所述预测边界阈值和所述采集的数据样本计算第三偏离阈值区间,包括:
[0022]计算所述N个窗口内所有非重复数据样本的偏离值的高斯分布,得到第二偏离阈值区间;其中,数据样本的偏离值为数据样本的真实值超过所述预测边界阈值的差值;
[0023]找出每个窗口内偏离值超过所述第二偏离阈值区间的数据样本,计算找出的数据样本的偏离值的和;计算所述N个窗口偏离值的和的高斯分布,得到第三偏离阈值区间。
[0024]在本公开一示例性实施例中,所述判断每个窗口内实时数据的偏离值是否超过所述偏离阈值区间,在实时数据的偏离值大于所述偏离阈值区间的情况下,重新训练预测模型并更新预测模型,包括:
[0025]计算每个窗口内实时数据的偏离率,在实时数据的偏离率大于所述第一偏离阈值区间的情况下,重新训练预测模型并更新预测模型;或者
[0026]计算每个窗口内实时数据的偏离值的和,在实时数据的偏离值的和大于所述第三偏离阈值区间的情况下,重新训练预测模型并更新预测模型;或者
[0027]计算每个窗口内实时数据的偏离率和每个窗口内实时数据的偏离值的和,在实时数据的偏离率大于所述第一偏离阈值区间并且实时数据的偏离值的和大于所述第三偏离阈值区间的情况下,重新训练预测模型并更新预测模型。
[0028]在本公开一示例性实施例中,在所述连续采集N个窗口的数据样本之前,该方法还包括:
[0029]按照数据样本的采样时刻保存数据样本,根据所述数据样本的时间戳判断是否有数据样本记录;
[0030]在没有数据样本记录的情况下,将缺失的记录标记为NA。
[0031]在本公开一示例性实施例中,该方法还包括:
[0032]在数据样本中存在脏数据污染的情况下,计算所有趋势周期中所述脏数据对应时刻的数据样本值的高斯分布,得到第四偏离阈值区间;
[0033]在数据样本值超过第四偏离阈值区间的情况下,用所述第四偏离阈值区间中的正态分布均值替代所述数据样本值;或者
[0034]在存在NA记录的情况下,用所述第四偏离阈值区间中的正态分布均值替代所述NA记录。
[0035]本公开一实施例还提供了一种,包括存储器和处理器,所述存储器中保存有计算机程序,所述处理器执行所述计算机程序时能够实现如本公开任一实施例所述的预测模型
的自学习方法。
[0036]本公开实施例的预测模型的自学习方法及装置,能够自动判断真实数据与基线发生大量明显偏离,不基于固定的时间周期进行模型自学习,从而避免固定模型自学习周期设置太短带来的计算资源浪费,设置太长带来的模型更新滞后性的问题;2)通过同时对发生偏离的数据的数量和偏离阈值的总和来判断自学习时间,能够避免少量异常数据产生告警或大量边界值附近异常数据产生告警引起的趋势误判,尤其适用于安全态势感知中以分钟为采样统计周期的短周期且存在非规律性突发业务的趋势预测;3)通过自动处理脏数据,避免了自学习过程中,缺失值和异常值对模型训练结果的影响,提高了模型的准确性。
[0037]在阅读并理解了附图和详细描述后,可以明白其他方面。
附图说明
[0038]附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。
[0039]图1是本公开一实施例预测模型的自学习方法的流程图;
[0040]图2是本公开又一实施例预测模型的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预测模型的自学习方法,包括:获取预测模型的预测边界阈值,所述预测模型是网络安全态势感知的预测模型;连续采集N个窗口的数据样本,N≥2;根据所述预测边界阈值和所述采集的数据样本计算偏离阈值区间,其中所述偏离阈值区间用于表示所述数据样本相对于所述预测边界阈值发生偏离的阈值;判断每个窗口内实时数据的偏离值是否超过所述偏离阈值区间,在实时数据的偏离值大于所述偏离阈值区间的情况下,重新训练预测模型并更新预测模型。2.根据权利要求1所述的预测模型的自学习方法,其特征在于:所述连续采集N个窗口的数据样本,N≥2,包括:设置滑动窗口大小和滑动距离;按照预先设置的滑动距离向前滑动所述滑动窗口以连续采集N个窗口的数据样本。3.根据权利要求1所述的预测模型的自学习方法,其特征在于:所述根据所述预测边界阈值和所述采集的数据样本计算偏离阈值区间,包括:根据所述预测边界阈值和所述采集的数据样本计算第一偏离阈值区间;和/或,根据所述预测边界阈值和所述采集的数据样本计算第三偏离阈值区间;其中,所述第一偏离阈值区间用于表示发生偏离的数据样本的数量;所述第三偏离阈值区间用于表示发生偏离的数据样本的偏离总量。4.根据权利要求3所述的预测模型的自学习方法,其特征在于:所述根据所述预测边界阈值和所述采集的数据样本计算第一偏离阈值区间,包括:计算所述N个窗口的每个窗口内数据样本超过所述预测边界阈值的样本个数N1;将N1除以每个窗口总样本数N2,得到每个窗口内的偏离率;计算所述N个窗口的窗口内偏离率的高斯分布,得到第一偏离阈值区间。5.根据权利要求3所述的预测模型的自学习方法,其特征在于:所述根据所述预测边界阈值和所述采集的数据样本计算第三偏离阈值区间,包括:计算所述N个窗口内所有非重复数据样本的偏离值的高斯分布,得到第二偏离阈值区间;其中,数据样本的偏离值为数据样本的真实值超过所述预测边界阈值的差值;找出每个窗口内数据样本偏离值超过所述第二偏离阈值区间的数据样本,计算找出的数据样本的偏离值的和;计算所述N个窗口偏离值的和的高斯...

【专利技术属性】
技术研发人员:李陟田源罗欢
申请(专利权)人:北京启明星辰信息安全技术有限公司启明星辰信息技术集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1