【技术实现步骤摘要】
一种基于数模共生的时间序列预测闭环框架
[0001]本专利技术涉及人工智能
,尤其涉及一种基于数模共生的时间序列预测闭环框架。
技术介绍
[0002]数据是大数据时代各种先进技术的基础。时间序列数据是一种常见的数据类型。时间序列数据的时序性质为预测现实动态系统的未来状态提供了可能。时间序列预测通过对历史数据的变量的时变规律和变量间影响进行归纳总结以推导未来数据。对比传统的统计学方法,机器学习类的预测方法具有求解速度快的优势。得益于机器学习算法的发展,机器学习类的时间序列预测方法已经在各种领域的数据集上取得了优于统计学方法的准确率。
[0003]机器学习类的预测方法本质上是将数据集重构为样本集,用预测模型拟合样本的输入输出关系,再对未知输出进行预测。其中,数据集的数据质量极大程度地影响预测准确率。数据缺失是常见的数据质量问题。缺失数据的处理方法可分为两大类,删除法和填补法。删除法即删除含有缺失值的样本。填补法包括基于统计学的插值、基于机器学习的预测和生成方法。时间序列的时序性质表现在各变量具有时序前后项的递推关系 ...
【技术保护点】
【技术特征摘要】
1.一种基于数模共生的时间序列预测闭环框架,包括初始化过程和迭代过程两个步骤;S1所述初始化过程的步骤只进行一次,其特征在于,包括:S1.1初始化数据集,时间序列数据集是具有显性或隐性时间信息的数据集,时间信息体现为数据的先后顺序;所述时间序列数据集用二维表格表示,由多列特征数据以及一列目标数据构成,每一行对应一个时间;时间序列预测需要的数据包括历史数据及新数据;时间上,历史数据先于新数据获得;数据特点上,历史数据的目标列大多是实际值,允许含有小部分缺失值,新数据的目标列是缺失值,是预测的目标;其数据集构成方法是,将历史数据及新数据上下拼接,按时间先后顺序排序,相邻行的时间间隔应一致,或间隔一个该数据的常见周期,不符合时插入适量的空值行;S1.2标记缺失值,历史数据的特征列和目标列可能含有缺失值,新数据的特征列可能含有缺失值,新数据的目标列为缺失值,称为“真缺失值”;除此以外,用户可自定义需要清洗的部分数据,将数据遮挡,称为“伪缺失值”;真缺失值和伪缺失值都是缺失值;缺失值将在后续步骤中被预测填补;相对地,除缺失值以外的数据称为真实值;本方案需要记录初始数据集中所有缺失值的位置,缺失值和真实值在本方案中具有不同的职能;S1.3初始化缺失值,缺失值的首次填补方式对最终预测结果影响不大;对数据集按列填补缺失值,即填补时只依据同列数据;伪缺失值直接使用原始数据;真缺失值采用前项填充,即填充该缺失值之前的时间上最临近的同列真实值;S1.4初始化预测模型;机器学习类预测模型可以表示为输入输出模型o=f(i),其中i为输入,o为输出,则训练样本为(i,o);将时间序列数据集看作一个多维数列数据的列序号默认为从0到n的整数;本方案为每一列数据建立一个预测模型用于预测该列的缺失值;结合单列数据的递推性质和不同列数据间的关联性,第i列数据的预测模型的输入输出表示为m+1为时间窗口大小,根据数据集的具体物理含义进行取值,是超参数;N为自然数;预测模型的输入维数为(m+1)(n+1)
‑
1,输出维数为1,预测模型可选用任意机器学习类模型;S2所述迭代过程的步骤按顺序循环进行,直到满足结束条件停止迭代,其特征在于,包括:S2.1构造样本集,每一个预测模型都需要不同的样本集,样本集均由数据集重构获得;第i列数据的预测模型的样本集的输入输出由确定,样本即输入输出对样本集为S2.2提取训练集,每一个预测模型的训练集由其样本集中输出为真实值的样本构成;S2.3训练预测模型,每一个预测模型在其训练集上进行训练,保存训练完成的模型;S2.4更新缺失值,对每一列数据的缺失值进行预测,数据集中的每一个缺失值用其预测值替换,保存更新后的数据集;预测数据集第i列第t个缺失值时,输入为
预测模型为该列对应的预测模型;S2.5计算目标函数,目标函数只与数据集有关;新建一个目标列的预测模型,构造目标列的样本集并提取训练集,随机取训练集中x%的样本作为“子测试集”,其余y%的样本是“子训练集”,其中x、y约束关系为(x<y)∩(x+y=100);预测模型在子训练集上训练后在子测试集上预测并计算预测值与真实值的误差并记录该误差,重复上述过程Z1次,Z1为大于等于1的...
【专利技术属性】
技术研发人员:刘宏达,陈理先,卢芳,刘天娇,杨子林,程梦雷,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。