数据分析处理方法、装置及设备制造方法及图纸

技术编号:37459752 阅读:10 留言:0更新日期:2023-05-06 09:32
本申请提供一种数据分析处理方法、装置及设备。本方案通过对实际业务场景深入分析,充分采集云平台多维度运营、运维数据,挖掘、构造有用数据特征,选择多种异构预测算法进行数据分析,对各算法按照预测准确性进行合理模型融合,最后按照预测结果进行数据预警,减少了人工数据处理成本,提高了云平台数据预测效率和预测准确性,促进了及时回收CPU、内存,存储资源,还提升了云平台运营能力。还提升了云平台运营能力。还提升了云平台运营能力。

【技术实现步骤摘要】
数据分析处理方法、装置及设备


[0001]本申请涉及云计算
,尤其涉及一种数据分析处理方法、装置及设备。

技术介绍

[0002]云计算是一种基于分布式计算、虚拟化、网络技术等融合发展的技术。基于云计算技术建设的云平台,通过共享软硬件资源,将大量使用网络连接的计算资源统一管理,构成计算资源池向用户提供按需,个性化服务。然而在云平台运营过程中,需要对运营数据进行分析预测,才能实现资源的节约、运作效率的提高。
[0003]在现有技术中,通常是使用时序预测算法、机器学习算法、深度学习算法或者是时序分解算法对运营数据进行分析预测。例如基于机器学习算法的互联网数据中心流量数据预测方法,对互联网数据中心流量数据利用滑窗进行特征提取,使用分布式梯度提升(Light Gradient Boosting Machine,LightGBM)模型,极端梯度提升(eXtreme Gradient Boosting,XGBoost)模型进行训练,训练后的LightGBM,XGBoost模型,使用线性回归模型次级学习器进行Stacking融合。
[0004]然而,采用上述算法对运营数据分析预测时,未充分利用不同预测算法预测原理差异,从而无法针对具体的云平台实际业务场景进行分析预测。

技术实现思路

[0005]本申请提供一种数据分析处理方法、装置及设备,用以解决现有技术未充分利用不同预测算法的预测原理差异针对具体云平台实际业务场景分析预测的问题。
[0006]第一方面,本申请提供一种数据分析处理方法,包括:
[0007]对所述原始数据进行预处理得到时序数据,并将所述时序数据划分为训练集,验证集以及测试集;
[0008]将所述训练集分别输入预先设置的多个模型,分别进行模型训练,并对每个训练的模型采用所述验证集进行调优,得到多个预测模型,所述多个模型包括以下模型中的至少两个:差分整合移动平均自回归ARIMA模型、极端梯度提升XGBoost模型、分布式梯度提升LightGBM模型、长短期记忆网络LSTM模型以及基于时序分解Prophet模型;
[0009]将所述测试集分别输入每个预测模型,得到每个预测模型对应的预测值;
[0010]针对每个预测模型,根据所述测试集以及所述每个预测模型对应的预测值计算均方根误差;根据每个预测模型的均方根误差,对每个预测模型的对应的预测值进行融合,得到预测结果。
[0011]结合第一方面,在一些实施例中,所述根据每个预测模型的均方根误差,对每个预测模型的对应的预测值进行融合,得到预测结果,包括:
[0012]根据每个预测模型的均方根误差,计算得到均方根标准差;
[0013]根据所述均方根标准差,以及预设的模型误差阈值,将每个预测模型对应的预测值进行融合,得到所述预测结果。
[0014]结合第一方面,在一些实施例中,所述根据所述均方根标准差,以及预设的模型误差阈值,将每个预测模型对应的预测值进行融合,得到所述预测结果,包括:
[0015]若所述均方根标准差小于所述模型误差阈值,则将每个预测模型对应的预测值求平均值,得到所述预测结果;
[0016]若所述均方根标准差大于或等于所述模型误差阈值,则将每个预测模型对应的预测值进行加权平均计算,得到所述预测结果。
[0017]结合第一方面,在一些实施例中,所述方法还包括:
[0018]根据预先设置的达标门限和安全边界,确定所述预测结果的达标情况;
[0019]根据所述达标情况,向用户的终端设备推送数据预警信息。
[0020]结合第一方面,在一些实施例中,所述根据预先设置的达标门限和安全边界,确定所述预测结果的达标情况,包括:
[0021]若所述预测结果高于所述达标门限和所述安全边界之和,则确定所述预测结果达标;
[0022]若所述预测结果,在所述达标门限和所述安全边界之差,与所述达标门限和所述安全边界之和之间,则确定所述预测结果为待改进;
[0023]若所述预测结果低于所述达标门限和所述安全边界之差,则确定所述预测结果不达标;
[0024]其中,所述达标情况包括达标,不达标,或者待改进。
[0025]结合第一方面,在一些实施例中,所述原始数据包括资源配额,利用率,监控运行指标;
[0026]相应的,所述对所述原始数据进行预处理得到时序数据,包括:
[0027]将所述原始数据进行时间序列处理,并将其中的异常数据和空值赋值为0,并删除重复数据,得到所述时序数据。
[0028]第二方面,本申请提供一种数据分析处理装置,包括:
[0029]数据采集模块,用于采集云平台的原始数据;
[0030]数据分析模块,用于对所述原始数据进行预处理得到时序数据,并将所述时序数据划分为训练集,验证集以及测试集;
[0031]模型训练模块,用于将所述训练集分别输入预先设置的多个模型,分别进行模型训练,并对每个训练的模型采用所述验证集进行调优,得到多个预测模型,所述多个模型包括以下模型中的至少两个:差分整合移动平均自回归ARIMA模型、极端梯度提升XGBoost模型、分布式梯度提升LightGBM模型、长短期记忆网络LSTM模型以及基于时序分解Prophet模型;
[0032]数据预测模块,用于将所述测试集分别输入每个预测模型,得到每个预测模型对应的预测值;
[0033]误差分析模块,用于针对每个预测模型,根据所述测试集以及所述每个预测模型对应的预测值计算均方根误差;
[0034]模型融合模块,用于根据每个预测模型的均方根误差,对每个预测模型的对应的预测值进行融合,得到预测结果。
[0035]结合第二方面,在一些实施例中,所述模型融合模块,包括:
[0036]数据计算单元,用于根据每个预测模型的均方根误差,计算得到均方根标准差;
[0037]模型融合单元,用于根据所述均方根标准差,以及预设的模型误差阈值,将每个预测模型对应的预测值进行融合,得到所述预测结果。
[0038]结合第二方面,在一些实施例中,所述模型融合单元,包括:
[0039]若所述均方根标准差小于所述模型误差阈值,则将每个预测模型对应的预测值求平均值,得到所述预测结果;
[0040]若所述均方根标准差大于或等于所述模型误差阈值,则将每个预测模型对应的预测值进行加权平均计算,得到所述预测结果。
[0041]结合第二方面,在一些实施例中,所述装置还包括:
[0042]结果判断模块,用于根据预先设置的达标门限和安全边界,确定所述预测结果的达标情况;
[0043]数据预警模块,用于根据所述达标情况,向用户的终端设备推送数据预警信息。
[0044]结合第二方面,在一些实施例中,所述结果判断模块,包括:
[0045]第一判断单元,用于若所述预测结果高于所述达标门限和所述安全边界之和,则确定所述预测结果达标;
[0046]第二判断单元,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分析处理方法,其特征在于,包括:采集云平台的原始数据;对所述原始数据进行预处理得到时序数据,并将所述时序数据划分为训练集,验证集以及测试集;将所述训练集分别输入预先设置的多个模型,分别进行模型训练,并对每个训练的模型采用所述验证集进行调优,得到多个预测模型,所述多个模型包括以下模型中的至少两个:差分整合移动平均自回归ARIMA模型、极端梯度提升XGBoost模型、分布式梯度提升LightGBM模型、长短期记忆网络LSTM模型以及基于时序分解Prophet模型;将所述测试集分别输入每个预测模型,得到每个预测模型对应的预测值;针对每个预测模型,根据所述测试集以及所述每个预测模型对应的预测值计算均方根误差;根据每个预测模型的均方根误差,对每个预测模型的对应的预测值进行融合,得到预测结果。2.根据权利要求1所述的方法,其特征在于,所述根据每个预测模型的均方根误差,对每个预测模型的对应的预测值进行融合,得到预测结果,包括:根据每个预测模型的均方根误差,计算得到均方根标准差;根据所述均方根标准差,以及预设的模型误差阈值,将每个预测模型对应的预测值进行融合,得到所述预测结果。3.根据权利要求2所述的方法,其特征在于,所述根据所述均方根标准差,以及预设的模型误差阈值,将每个预测模型对应的预测值进行融合,得到所述预测结果,包括:若所述均方根标准差小于所述模型误差阈值,则将每个预测模型对应的预测值求平均值,得到所述预测结果;若所述均方根标准差大于或等于所述模型误差阈值,则将每个预测模型对应的预测值进行加权平均计算,得到所述预测结果。4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:根据预先设置的达标门限和安全边界,确定所述预测结果的达标情况;根据所述达标情况,向用户的终端设备推送数据预警信息。5.根据权利要求4所述的方法,其特征在于,所述根据预先设置的达标门限和安全边界,确定所述预测结果的达标情况,包括:若所述预测结果高于所述达标门限和所述安全边界之和,则确定所述预测结果达标;若所述预测结果,在所述达标门限和所述安全边界之差,与所述达标门限和所述安全边界之和之间,则确定所述预测结果为待改进;若所述预测结果低于所述达标门限和所述安全边界之差,则确定所述预测结果不达标;其中,所述达标情况包括达标,不达标,或者待改进。6.根据权利要求1至3任一项所述的方法,其特征在于,所述原始数据包括资源配额,利用率,监控运行指标;相应的,所述对所述原始数据进行预处理得到时序数据,包括:将所述原始数据进行时间序列处理,并将其中的异常数据和空值赋值为0,并删除重复数据,得到所述时序数据。
7.一种数据分析处理装置,其特征在于,包括:数据采集模块,用于采集云平台的原始数据;数据分析模块,用于对所述原始数据进行预处理得到时序数据,并将所述时序数据划分为训练集,验证集以及测试集;模型训练模块,用于...

【专利技术属性】
技术研发人员:徐锐孙妍沈松王柯丁颖睿王美玉朱威冯江璇李东佩
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1