一种数据仓库数据量的预测和监控方法技术

技术编号:37746716 阅读:9 留言:0更新日期:2023-06-05 23:33
本发明专利技术公开了一种数据仓库数据量的预测和监控方法,包括根据选定的数据特征和时间粒度,获取数据仓库的各数据分层的时间序列集合。本数据仓库数据量的预测和监控方法通过对数据仓库的各数据分层建立不同的预测网络模型,得到各数据分层最优的时间周期和预测步长,得到各数据分层的数据量预测值,进而得到数据仓库总数据量预测值,提高了预测的准确度,解决了现有技术中通过人工进行预测,工作量大且预测不准确的问题;本数据仓库数据量的预测和监控方法在监控时将预测结果和当前实际数据进行对比,当相差程度不在波动率范围内时,当前数据设定为问题数据,触发告警机制,进行异常信息推送,提高了监控的准确度。提高了监控的准确度。提高了监控的准确度。

【技术实现步骤摘要】
一种数据仓库数据量的预测和监控方法


[0001]本专利技术属于数据预测监控领域,具体涉及一种数据仓库数据量的预测和监控方法。

技术介绍

[0002]在大数据领域,数据仓库技术在不断发展,其重要的作用之一是对数据进行更好的组织和存储;在实际应用中,随着业务的发展,产生的数据越来越多,对存储空间的需求也越来越大。对数据仓库数据量的分析和监控是存储管理和优化中重要的一部分。
[0003]目前一般是对数据仓库中新增数据量和历史数据量进行对比、统计分析的方式进行监控。当新增周期数据量与历史周期数据量相差程度超过预设范围,则判定为异常数据;对历史数据量的均值、分位数、方差等统计指标进行分析和监控,寻找异常数据。通过人工经验评估的方式预估未来数据量大致范围。
[0004]以上方式是基于现有存储情况进行分析和监控,不能对未来数据存储情况进行感知;在数据仓库数据量预测方面,一般是开发人员根据经验进行范围估计,无具体数值估计,存在精确度不高的问题;在监控机制设定方面,一般采用人为配置,不仅增加了人员工作量,且不能根据实际情况进行动态调整,人为调整存在滞后性。

技术实现思路

[0005]本专利技术的目的在于针对解决
技术介绍
中提出的问题,提出一种数据仓库数据量的预测和监控方法。
[0006]为实现上述目的,本专利技术所采取的技术方案为:
[0007]本专利技术提出的一种数据仓库数据量的预测和监控方法,包括根据选定的数据特征和时间粒度,获取数据仓库的各数据分层的时间序列集合。
[0008]初始化粒子位置和速度,根据粒子初始位置得到预测网络模型初始输入节点数、隐层节点数和输出节点数,并初始化各数据分层的预测网络模型。
[0009]对各数据分层的时间序列集合进行重构后,输入至预测网络模型中进行迭代训练,将得到的预测网络模型训练误差作为粒子的适应度值,并更新个体极值和种群极值,以及粒子的位置和速度,直到达到迭代次数。
[0010]得到各数据分层的最优粒子适应度值对应的粒子位置,进而得到最优的时间周期和预测步长。
[0011]然后预测网络模型根据最优的时间周期和预测步长对数据进行预测,得到各数据分层的数据量预测值,进而得到数据仓库总数据量预测值。
[0012]监控时,设置各数据层数据量和总数据量的波动率范围,获取当前时间预测网络模型的预测结果,并获取当前实际数据,将预测结果和当前实际数据进行对比,判断相差程度是否在波动率范围内。
[0013]优选地,预测网络模型为LSTM网络模型。
[0014]优选地,数据仓库的数据分层包括操作数据层、数据明细层、汇总数据层、应用数据层和维表层。
[0015]优选地,对各数据分层的时间序列集合进行标准化:
[0016][0017]T={T1,...,T
j
,...,T
J
}
[0018]其中,T表示各数据分层的时间序列集合,T

表示对各数据分层的时间序列集合进行标准化,σ表示特征均值,u表示特征标准差,J表示时间序列总长度。
[0019]优选地,粒子位置表示为X
id
=(x
i1
,x
i2
,x
i3
),速度表示为V
id
=(v
i1
,v
i2
,v
i3
),且x
i1
为输入节点数并等于时间周期,x
i2
为隐层节点数,x
i3
为输出节点数并等于预测步长。
[0020]优选地,对时间序列集合进行重构时,采用滑动时间窗口方法将时间序列集合转化为如下结构train:
[0021][0022]其中,N表示滑动窗口大小。
[0023]优选地,粒子的适应度值、个体极值和群体极值,以及粒子的位置和速度满足以下公式:
[0024][0025][0026]d=1,2,...,D
[0027]i=1,2,...,sizepop
[0028]V
id
∈[v
d,min
,v
d,max
][0029]X
id
∈[x
d,min
,x
d,max
][0030]其中,第i个粒子对应的个体极值表示为种群极值表示为θ表示惯性权重,sizepop表示种群规模,k表示迭代次数,且当k表示当代,则k+1表示下一代,c1和c2均表示学习因子,λ表示收缩因子,r1和r2均表示[0,1]之间的随机数,d表示粒子的维度,round表示取整函数。
[0031]优选地,当预测结果和当前实际数据的相差程度不在波动率范围内时,当前数据设定为问题数据,触发告警机制,进行异常信息推送。
[0032]与现有技术相比,本专利技术的有益效果为:
[0033]1、本数据仓库数据量的预测和监控方法通过对数据仓库的各数据分层建立不同的预测网络模型,得到各数据分层最优的时间周期和预测步长,得到各数据分层的数据量预测值,进而得到数据仓库总数据量预测值,提高了预测的准确度,解决了现有技术中通过人工进行预测,工作量大且预测不准确的问题;
[0034]2、本数据仓库数据量的预测和监控方法在监控时将预测结果和当前实际数据进
行对比,当相差程度不在波动率范围内时,当前数据设定为问题数据,触发告警机制,进行异常信息推送,提高了监控的准确度。
附图说明
[0035]图1为本专利技术数据仓库数据量的预测和监控方法的预测流程图;
[0036]图2为本专利技术数据仓库数据量的预测和监控方法的监控流程图。
具体实施方式
[0037]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0038]需要说明的是,当组件被称为与另一个组件“连接”时,它可以直接与另一个组件连接或者也可以存在居中的组件。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
[0039]如图1

2所示,一种数据仓库数据量的预测和监控方法,包括:
[0040]步骤S1、根据选定的数据特征和时间粒度,获取数据仓库的各数据分层的时间序列集合。
[0041]具体为,数据仓库的数据分层包括操作数据层ODS、数据明细层DWD、汇总数据层DWS、应用数据层ADS和维表层DIM。
[0042]数据仓库数据量可以看成一种带有时间属性的时态数据,时间粒度指的是在一段时间上的聚集,时间段越长,时间粒度就越高,一般熟悉的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据仓库数据量的预测和监控方法,其特征在于:所述数据仓库数据量的预测和监控方法,包括:根据选定的数据特征和时间粒度,获取数据仓库的各数据分层的时间序列集合;初始化粒子位置和速度,根据粒子初始位置得到预测网络模型初始输入节点数、隐层节点数和输出节点数,并初始化各数据分层的预测网络模型;对各数据分层的时间序列集合进行重构后,输入至预测网络模型中进行迭代训练,将得到的预测网络模型训练误差作为粒子的适应度值,并更新个体极值和种群极值,以及粒子的位置和速度,直到达到迭代次数;得到各数据分层的最优粒子适应度值对应的粒子位置,进而得到最优的时间周期和预测步长;然后预测网络模型根据最优的时间周期和预测步长对数据进行预测,得到各数据分层的数据量预测值,进而得到数据仓库总数据量预测值;监控时,设置各数据层数据量和总数据量的波动率范围,获取当前时间预测网络模型的预测结果,并获取当前实际数据,将预测结果和当前实际数据进行对比,判断相差程度是否在波动率范围内。2.如权利要求1所述的数据仓库数据量的预测和监控方法,其特征在于:所述预测网络模型为LSTM网络模型。3.如权利要求1所述的数据仓库数据量的预测和监控方法,其特征在于:所述数据仓库的数据分层包括操作数据层、数据明细层、汇总数据层、应用数据层和维表层。4.如权利要求1所述的数据仓库数据量的预测和监控方法,其特征在于:对各数据分层的时间序列集合进行标准化:T={T1,

,T
j
,

,T
J
}其中,T表示各数据分层的时间序列集合,T'表示对各数据分层的时间序列集合进行标准化,σ表示特征均值,u表示特征标准差,J表示时间序列总长度。5.如权利要求1所述的数据仓库数据量的预测和监控方法,其特征在于:所述粒子位置表示为X
id<...

【专利技术属性】
技术研发人员:朱涵琪李朋云苏天翔
申请(专利权)人:中国电子科技集团公司第五十二研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1