一种结合线上业务指标特征的容量预估方法技术

技术编号:28034599 阅读:16 留言:0更新日期:2021-04-09 23:16
本发明专利技术公开了一种结合线上业务指标特征的容量预估方法,属于IT容量管理领域,解决了现有技术中互联网银行业务数据量巨大,对未来数据容量预估,准确率低,时效性具有延迟,自动化程度较低的问题,本发明专利技术提供一种结合业务指标与系统资源,共同对所有相关系统做容量预估的方法,通过引入时间序列模型和xgboost模型的,提升数据的准确性,提升数据的时效性,提升容量预估的自动化程度。

【技术实现步骤摘要】
一种结合线上业务指标特征的容量预估方法
本专利技术属于IT容量管理领域,具体涉及一种结合线上业务指标特征的容量预估方法。
技术介绍
传统的容量管理领域主要在解决2个问题,其一是根据业务的增长情况有效评估系统在某时间节点的QPS与硬件资源是否足够;其二是根据当前的硬件资源消耗趋势,为下一个周期的采购计划提供有力的支撑,获得技术投入与业务发展之间的合理值,追求无限接近于“刚刚好”的状态。现有容量预估技术主要通过专家经验对业务增量进行假设,在业务增量的假设前提下进行uv(UniqueVistor)30天内的访客数、pv(pageview)30天内的页面浏览次数估计;再根据uv、pv的具体推算值计算可能的QPS并发量,从而根据公式推算出需要增加多少个节点(资源)才能达到所需并发量。互联网银行是新一代互联网银行的运营模式,其没有线下网点,全实时、全网、全线上进件的方式与传统银行完全不同,所以互联网银行的每个客户每一笔操作(认证、贷款、还款)都会在行内相关业务系统都会产生一次全流程操作,从而带来一部分资源消耗压力,如何评估不同业务量情况下系统容量是否能满足需求成为一个比较棘手的问题。
技术实现思路
针对现有技术中互联网银行业务数据量巨大,对未来数据容量预估,准确率低,时效性具有延迟,自动化程度较低的问题,本专利技术提供所以我们提出一种结合业务指标与系统资源共同对相关系统做容量预估的方法来解决此问题,通过引入prophet时间序列模型和xgboost回归训练模型的,提升数据的准确性,提升数据的时效性,提升容量预估的自动化程度。本专利技术中一种结合线上业务指标特征的容量预估方法采用的技术方案如下:步骤1:以日为单位收集硬件资源数据,并做清洗和归一化处理得到硬件资源数据列m;步骤2:以日为单位收集业务指标数据,并做清洗和归一化处理得到业务指标数据列y;步骤3:对硬件资源数据列m和业务指标数据列y按照时间序列进行排序,并对m和y做关联性计算,得到关联数据列c;步骤4:使用prophet时间序列模型对清洗处理后的业务指标数据进行历史拟合建模,并将过去30天内的历史数据下限值定义为ylower,整合训练数据为X=<m,ylower,c>,预测标准数据为Y=<y>,将X,Y作为历史训练数据;步骤5:将历史训练数据X,Y,输入xgboost回归训练预测模型,对未来容量进行预估,得到预测数据。本专利技术通过引入时间序列模型,对硬件资源监控数据收集并清洗归一化处理得到硬件资源数据列m,对业务指标数据收集并清洗归一化处理得到业务指标数据列y、并硬件资源数据列m和业务指标数据列y做关联性计算得到关联数据列c,从三个维度对数据进行拟合建模,得到数据历史训练数据X和Y,再通过引入xgboost回归训练模型,输入数据X、数据Y,得到未来半年的预测数据Y-hat。本专利技术考虑到时间因素的影响,加入时间序列模型使得15日内预测准确性高达90%,平均误差0.2以内,可预见范围内有效预测180天左右,使用关联性分析等方法抛弃了人工经验干预,无须再预估QPS等参数,实现端到端预测容量预估。其中,步骤1具体包括:步骤1.1:由资源监控agent工具采集硬件资源数据到数据仓库中,再使用etl工具抽取数据仓库中的硬件资源数据(CPU,内存,磁盘)并按时间排序;步骤1.2:由于CPU,内存,磁盘等数据不属于同一量级,故使用离差标准化方法将排序后的硬件资源数据处理为0~1范围数据,同时也可以使后续模型训练过程避免出现权重倾斜,得到硬件资源数据列m。其中,步骤2具体包括:步骤2.1:由资源监控agent工具采集业务指标数据到数据仓库中,再使用etl工具抽取数据仓库中的业务指标数据(进件量、放款数和还款数)并按时间排序;步骤2.2:由于进件量、放款数和还款数等数据不属于同一量级,故使用离差标准化方法将排序后的业务指标数据处理为0~1范围数据,同时也可以使后续模型训练过程避免出现权重倾斜,得到业务指标数据列m。进一步的,上述步骤1和步骤2均采用公式:其中x表示每一行输入数据,xi表示每一行输入的第i个特征参数,xj每一行输入的第j个特征参数。其中,步骤3具体包括:步骤3.1:用Pearson相关系数计算业务指标数据列y与各个硬件资源数据列m之间的关联性,具体计算公式如下所示:其中m和y分别表示按时间排序后的业务指标数据值与硬件资源数据值,Cov(m,y)为m与y的协方差,Var[m]为m的方差,Var[y]为y的方差,r(m,y)为关联性数据;步骤3.2:关联性较弱的数据没有太大的参考意义,对每个业务指标与系统资源都取关联性前20的数据,构成数据列c,构建可靠的历史数据,在真实的数据使用中,无论关联性强弱都会作为一个指数参数输入模型作为u预测参考变量,抛开人工经验,使用数学方法建立资源与业务数据的关系,预测结果更加准确。其中,步骤4具体包括:步骤4.1:对清洗后的业务指标数据进行平滑处理,消除数据噪声;步骤4.2:使用prophet时间序列模型对平滑处理后的业务指标数据拟合建模,并将业务指标数据过去30天内的历史数据下限值定义为ylower;步骤4.3:整合历史数据列为X=<m,ylower,c>,预测标准数据为Y=<y>,并将X,Y作为历史训练数据,并按顺序一一对应。进一步的,所述建模主要包含以下步骤:步骤4.2.1:搭建python3及fbprophet环境;步骤4.2.2:引入fbprophet包,并调用fbprophet包中的Prophet方法,选择核函数为“线性”,节假日设置未来一年的节假日日期,预测宽度为0.5;步骤4.2.3:调用fit方法,将平滑处理后的业务指标数据按照标准格式作为参数输入该函数;步骤4.2.4:调用make_future_dataframe方法,选择预测周期为30,日期单位为‘d’,并将业务指标数据过去30天内的历史数据下限值定义为ylower。进一步的,所述步骤4时间序列模型采用的伪代码如下:Algorithm时间序列Input:m,y.Output:model.1:引入fbprophet依赖.2:读取数据列m,y.3:调用Prophet(growth='linear'holidays=holiday).4:调用model=fit(m,y.).5:调用make__future_dataframe(periods=predict_length,freq='d'include_history=history).6:输出model.其中,步骤5具体包括:步骤5.1:将历史训练数据X,Y,输入xgboost回归训练预测模型;步骤5.2:对未来数据进行预测,得到未来半年内的容量变化情况,并可以根据用户对本文档来自技高网...

【技术保护点】
1.一种结合线上业务指标特征的容量预估方法,其特征在于,包括:/n步骤1:以日为单位收集硬件资源数据,并做清洗和归一化处理得到硬件资源数据列m;/n步骤2:以日为单位收集业务指标数据,并做清洗和归一化处理得到业务指标数据列y;/n步骤3:对硬件资源数据列m和业务指标数据列y按照时间序列进行排序,并对m和y做关联性计算,得到关联数据列c;/n步骤4:使用prophet时间序列模型对清洗处理后的业务指标数据进行历史拟合建模,并将过去30天内的历史数据下限值定义为ylower,整合训练数据为X=<m,ylower,c>,预测标准数据为Y=<y>,将X,Y作为历史训练数据;/n步骤5:将历史训练数据X,Y,输入xgboost回归训练预测模型,对未来容量进行预估,得到预测数据。/n

【技术特征摘要】
1.一种结合线上业务指标特征的容量预估方法,其特征在于,包括:
步骤1:以日为单位收集硬件资源数据,并做清洗和归一化处理得到硬件资源数据列m;
步骤2:以日为单位收集业务指标数据,并做清洗和归一化处理得到业务指标数据列y;
步骤3:对硬件资源数据列m和业务指标数据列y按照时间序列进行排序,并对m和y做关联性计算,得到关联数据列c;
步骤4:使用prophet时间序列模型对清洗处理后的业务指标数据进行历史拟合建模,并将过去30天内的历史数据下限值定义为ylower,整合训练数据为X=<m,ylower,c>,预测标准数据为Y=<y>,将X,Y作为历史训练数据;
步骤5:将历史训练数据X,Y,输入xgboost回归训练预测模型,对未来容量进行预估,得到预测数据。


2.根据权利要求1所述一种结合线上业务指标特征的容量预估方法,其特征在于,步骤1具体包括:
步骤1.1:由资源监控agent工具采集硬件资源数据到数据仓库中,再使用etl工具抽取数据仓库中的硬件资源数据并按时间排序;
步骤1.2:使用离差标准化方法对排序后的硬件资源数据进行归一化处理,得到硬件资源数据列m。


3.根据权利要求2所述的一种结合线上业务指标特征的容量预估方法,其特征在于所述的硬件资源数据包括cpu、内存和磁盘数据。


4.根据权利要求1所述的一种结合线上业务指标特征的容量预估方法,其特征在于,步骤2具体包括:
步骤2.1:由资源监控agent工具采集业务指标数据到数据仓库中,再使用etl工具抽取数据库中的业务指标数据并按时间排序;
步骤2.2:使用离差标准化方法对清洗后的业务指标数据进行归一化处理,得到业务数据列y。


5.根据权利要求4所述的一种结合线上业务指标特征的容量预估方法,其特征在于,所述业务指标数据包括进...

【专利技术属性】
技术研发人员:何思佑
申请(专利权)人:四川新网银行股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1