时序数据预测方法技术

技术编号:39658458 阅读:16 留言:0更新日期:2023-12-09 11:27
本发明专利技术实施例提供一种时序数据预测方法

【技术实现步骤摘要】
时序数据预测方法、装置、设备及计算机可读存储介质


[0001]本专利技术涉及机器学习
,尤指一种时序数据预测方法

装置

设备及计算机可读存储介质


技术介绍

[0002]当前,人类社会已进入大数据时代,包括各行各业每时每刻都在产生不同类型的海量数据

其中,有一类数据是按照不同的时间间隔依次

连续产生的,并且往往包含着丰富且庞杂的信息,例如电力系统的负荷变化

网络设备的通信流量变化

交易资金变化

气象数据变化等

这类数据通常被统称为时序数据

时序数据可能隐含着某些事件的未来发展趋势,对其进行分析预测具有十分重要的现实意义

但是,不同场景的时序数据都有着各自的特点,因而对于不同场景的时序数据使用机器学习模型进行预测,需要为这些场景分别单独设计机器学习模型,设计机器学习模型需要设计人员同时具备应用场景领域的专家经验和机器学习领域的专业知识,使得使用机器学习技术对相关场景的时序数据进行预测过程的难度较高


技术实现思路

[0003]本专利技术实施例提供一种时序数据预测方法

装置

设备及计算机可读存储介质,用以提供一种对不同应用场景所需机器学习技术专家经验要求不高的时序数据预测方式

[0004]本专利技术实施例提供了一种时序数据预测方法,包括:
[0005]将预测对象的历史时序数据输入目标时序数据预测模型,得到所述目标时序数据预测模型输出的预测时序数据,向用户展示所述预测时序数据;所述预测时序数据用于表示预测对象在预测时间的预测状态;
[0006]其中,所述目标时序数据预测模型通过如下方式得到:
[0007]基于训练样本,对与所述训练样本的数据内容类型对应的多个目标机器学习模型中的任一目标机器学习模型进行多轮训练,得到多个候选时序数据预测模型;其中,所述目标机器学习模型是基于至少一个目标预处理组件

至少一个目标特征处理组件和至少一个目标机器学习算法组件确定的;
[0008]利用测试样本从所述候选时序数据预测模型中确定所述目标时序数据预测模型;
[0009]其中,所述训练样本和所述测试样本基于用户输入的原始时序数据,按照预设划分比例或者用户设置的划分比例划分得到;
[0010]对任一目标机器学习模型,每轮训练具体包括如下步骤:
[0011]调用训练样本的数据内容类型对应的目标预处理组件对原始时序数据进行预处理得到目标时序数据,并调用所述数据内容类型应的目标特征处理组件对所述目标时序数据提取特征得到目标特征向量,调用目标机器学习算法组件对所述目标特征向量进行训练

[0012]可选地,在对目标时序数据预测模型训练过程中,对任一目标机器学习模型,每轮
目标机器学习模型进行训练后还进行如下步骤:
[0013]判断是否满足训练结束条件,若不满足则调整所述目标预处理组件

所述目标特征处理组件和目标机器学习算法组件中的至少一个组件的超参数,并再次进行一轮训练;若确定满足训练结束条件则结束训练,得到所述目标机器学习模型对应的候选时序数据预测模型

[0014]可选地,所述调整所述目标预处理组件

所述目标特征提取组件和目标机器学习算法组件中的至少一个组件的超参数,具体包括:
[0015]使用贝叶斯优化算法调整所述目标预处理组件

所述目标特征处理组件和目标机器学习算法组件中的至少一个组件的超参数

[0016]可选地,所述目标预处理组件包括如下至少一项:
[0017]与所述数据内容类型对应的数据归一化组件;
[0018]数据去重组件;
[0019]与所述数据内容类型对应的数据异常值去除组件;
[0020]连续性检验组件,用于对时序数据进行数据连续性检验;
[0021]与所述数据内容类型对应的数据填补组件,用于对所述连续性检验组件判定满足预设条件的非连续时序数据填充缺失时间点对应的数据;其中,所述非连续时序数据缺少待填补时间点采样的数据,所述待填补时间点是根据所述时序数据中的各采样时间点的时间间隔规律确定的不存在于所述时序数据中的时间点,且所述待填补时间点位于所述时序数据的第一个采样时间点与最后一个采样时间点之间

[0022]可选地,所述目标特征处理组件包括滑窗组件

与所述数据内容类型对应的目标特征提取组件

与所述数据内容类型对应的目标特征选择组件

与所述数据内容类型对应的目标降维组件;
[0023]所述调用所述数据内容类型应的目标特征处理组件对所述目标时序数据提取特征,具体包括:
[0024]对所述目标时序数据通过调用所述滑窗组件,使用目标滑窗对所述目标时序数据进行划分得到子目标时序数据;其中,所述目标滑窗的大小通过调用所述滑窗组件利用斐波那契数列确定;
[0025]对任一子目标时序数据,通过调用所述目标特征提取组件提取特征,得到目标特征数据;
[0026]对所述目标特征数据通过调用所述目标特征选择组件和所述目标降维组件进行特征降维得到目标特征向量

[0027]可选地,所述目标特征提取组件包括如下至少一项:
[0028]与所述数据内容类型对应的特征编码组件;
[0029]与所述数据内容类型对应的文本特征提取组件;
[0030]与所述数据内容类型对应的多项式特征提取组件;
[0031]与所述数据内容类型对应的时间特征提取组件;其中,若时序数据以月份为单位,所述时间特征提取组件用于对月份进行正弦变换或余弦变换提取特征;
[0032]与所述数据内容类型对应的曲线特征提取组件;
[0033]与所述数据内容类型对应的统计学特征提取组件;
[0034]差分特征提取组件

[0035]可选地,所述目标机器学习算法组件包括如下任意多项:
[0036]线性回归算法组件

随机森林算法组件
、XGBoost
算法组件

轻梯度提升器
(Light Gradient Boosting Machine

LightGBM)
算法组件
、CatBoost
算法组件

神经预测
NeuralProphet
算法组件

[0037]基于同一专利技术构思,本专利技术实施例提供了一种电子装置,包括:
[0038]使用单元,用于将预测对象的历史时序数据输入目标时序数据预测模型,得到所述目标时序数据预测模型输出的预测时序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种时序数据预测方法,其特征在于,包括:将预测对象的历史时序数据输入目标时序数据预测模型,得到所述目标时序数据预测模型输出的预测时序数据,向用户展示所述预测时序数据;所述预测时序数据用于表示预测对象在预测时间的预测状态;其中,所述目标时序数据预测模型通过如下方式得到:基于训练样本,对与所述训练样本的数据内容类型对应的多个目标机器学习模型中的任一目标机器学习模型进行多轮训练,得到多个候选时序数据预测模型;其中,所述目标机器学习模型是基于至少一个目标预处理组件

至少一个目标特征处理组件和至少一个目标机器学习算法组件确定的;利用测试样本从所述候选时序数据预测模型中确定所述目标时序数据预测模型;其中,所述训练样本和所述测试样本基于用户输入的原始时序数据,按照预设划分比例或者用户设置的划分比例划分得到;对任一目标机器学习模型,每轮训练具体包括如下步骤:调用训练样本的数据内容类型对应的目标预处理组件对原始时序数据进行预处理得到目标时序数据,并调用所述数据内容类型应的目标特征处理组件对所述目标时序数据提取特征得到目标特征向量,调用目标机器学习算法组件对所述目标特征向量进行训练
。2.
如权利要求1所述的方法,其特征在于,在对目标时序数据预测模型训练过程中,对任一目标机器学习模型,每轮目标机器学习模型进行训练后还进行如下步骤:判断是否满足训练结束条件,若不满足则调整所述目标预处理组件

所述目标特征处理组件和目标机器学习算法组件中的至少一个组件的超参数,并再次进行一轮训练;若确定满足训练结束条件则结束训练,得到所述目标机器学习模型对应的候选时序数据预测模型
。3.
如权利要求2所述的方法,其特征在于,所述调整所述目标预处理组件

所述目标特征提取组件和目标机器学习算法组件中的至少一个组件的超参数,具体包括:使用贝叶斯优化算法调整所述目标预处理组件

所述目标特征处理组件和目标机器学习算法组件中的至少一个组件的超参数
。4.
如权利要求1所述的方法,其特征在于,所述目标预处理组件包括如下至少一项:与所述数据内容类型对应的数据归一化组件;数据去重组件;与所述数据内容类型对应的数据异常值去除组件;连续性检验组件,用于对时序数据进行数据连续性检验;与所述数据内容类型对应的数据填补组件,用于对所述连续性检验组件判定满足预设条件的非连续时序数据填充缺失时间点对应的数据;其中,所述非连续时序数据缺少待填补时间点采样的数据,所述待填补时间点是根据所述时序数据中的各采样时间点的时间间隔规律确定的不存在于所述时序数据中的时间点,且所述待填补时间点位于所述时序数据的第一个采样时间点与最后一个采样时间点之间
。5.
如权利要求1所述的方法,其特征在于,所述目标特征处理组件包括滑窗组件

与所述数据内容类型对应的目标特征提取组件

与所述数据内容类型对应的目标特征选择组件

与所述数据内容类型对应的目标降维组件;
所述调用所述数据内容类型应的目标...

【专利技术属性】
技术研发人员:葛伟刘胜伟马国良吴杰文刘秦豫朱恩庆
申请(专利权)人:新奥新智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1