一种基于时间序列的缺失数据补充方法与系统技术方案

技术编号:17779780 阅读:59 留言:0更新日期:2018-04-22 08:19
本发明专利技术公开了一种基于时间序列的缺失数据补充方法与系统,本方法包括:1)数据获取与处理模块获取基模型所需的历史数据,以及对所述历史数据中各时间点的历史数据进行特征提取并生成对应时间点的历史数据的数据列;所述时间点为构成时间序列的时间单元;2)基模型开发模块根据历史数据的数据列和待预测数据的数据列构建一基模型,用于对数据进行拟合进而达到回归预测;所述基模型为B(k)=(X

【技术实现步骤摘要】
一种基于时间序列的缺失数据补充方法与系统
本专利技术属于一种基于时间序列的酒店缺失数据补充方法与系统,属于计算机软件

技术介绍
在现有技术方案中,用于酒店预测的数据通常要求是一个完整的时间序列,中间不能有延迟、缺失,以保证预测结果的准确性。而事实上,由于数据处理技术(数据的存储、收集、加工、转换)、数据传输、数据交接(企业间或部门间)等众多因素的限制使得数据挖掘人员获取的数据多多少少会存在一定程度的延迟或缺失。例如,由于某种原因A酒店可用于生产的数据比模型所需的数据少了一天。而如果直接利用这些不完整数据来建模,对于模型本身来说,造成的影响可能是模型不稳定或精度不高,而对于酒店来讲,这种影响可能是灾难性的,因为错误的模型预测结果对于酒店的经营策略反馈和酒店的实际经营数据对于模型的反馈之间会存在一个恶性循环的结果,从而给酒店带来不必要的的经济损失。然而对于缺少数据的补充,目前并没有一个比较好的解决方法。
技术实现思路
针对酒店不能提供全部历史数据或有数据延迟的的技术问题,本专利技术的目的在于提供一种基于时间序列的缺失数据补充方法与系统,以辅助酒店决策。本专利技术是通过下述技术方案来解决上述问题的:一种基于时间序列的缺失数据补充方法,其步骤包括:1)数据获取与处理模块获取基模型所需的历史数据,以及对所述历史数据中各时间点的历史数据进行特征提取并生成对应时间点的历史数据的数据列;所述时间点为构成时间序列的时间单元;2)基模型开发模块根据历史数据的数据列和待预测数据的数据列构建一基模型,用于对数据进行拟合进而达到回归预测;所述基模型为B(k)=(XTX+kI)-1XTY;其中,X为一时间点对应的历史数据的数据列,Y为待预测数据的数据列;k为惩罚系数,I为单位矩阵,B(k)为数据列X的特征所对应的回归系数;3)利用历史数据的数据列对基模型进行训练,再用训练好的基模型对待预测数据的数据列进行预测补齐。进一步的,所述步骤3)中,对训练好的基模型的预测精度进行评估,评估指标为平均绝对误差MAPE;如果基模型的预测精度达不到设定条件,则查找基模型中数据对应的各日期对应的历史同期数据,将这些历史同期数据对应的数据列作为训练数据再次训练基模型。进一步的,利用公式进行评估;其中,Mean为求均值函数,abs为求绝对值函数,true_value为真实值,pred_value为预测值。进一步的,利用公式找到基模型中数据对应的各日期的历史同期;其中,k代表基模型中数据对应的一日期的浮动天数,y代表年,m代表月,d代表天。进一步的,所述特征为所述时间点的不同提前预定天数。进一步的,所述时间点为以年月日表示的日期。一种基于时间序列的缺失数据补充系统,其特征在于,包括基模型开发模块、数据获取与处理模块、模型训练及评价模块;其中,所述数据获取与处理模块,用于获取基模型所需的历史数据,以及对所述历史数据中各时间点的历史数据进行特征提取并生成对应时间点的历史数据的数据列;所述时间点为构成时间序列的时间单元;所述基模型开发模块,用于根据历史数据的数据列和待预测数据的数据列构建一基模型;所述基模型为B(k)=(XTX+kI)-1XTY,用于对数据进行拟合进而达到回归预测;其中,X为一时间点对应的历史数据的数据列,Y为待预测数据的数据列;k为惩罚系数,I为单位矩阵,B(k)为数据列X的特征所对应的回归系数;所述模型训练及评价模块,用于利用历史数据的数据列对基模型进行训练,再用训练好的基模型对待预测数据的数据列进行预测补齐。进一步的,系统还包括一模型优化模块,用于对训练好的基模型的预测精度进行评估,评估指标为平均绝对误差MAPE;如果基模型的预测精度达不到设定条件,则查找基模型中数据对应的各日期对应的历史同期数据,将这些历史同期数据对应的数据列作为训练数据再次训练基模型。进一步的,利用公式进行评估;其中,Mean为求均值函数,abs为求绝对值函数,true_value为真实值,pred_value为预测值;利用公式找到基模型中数据对应的各日期的历史同期;其中,k代表基模型中数据对应的一日期的浮动天数,y代表年,m代表月,d代表天。进一步的,所述特征为所述时间点的不同提前预定天数;所述时间点为以年月日表示的日期。本专利技术提供了一种基于时间序列的缺失数据补充方法与系统,其特点在于,在酒店不能提供全部历史数据或有数据延时的情况下,对模型预测所需的数据进行自动补齐,并且可以在保证预测精度的况下为酒店为酒店的业务决策提供推荐。本技术方案主要有四部分组成:基模型开发模块、数据获取与处理模块、模型训练及评价模块、模型优化模块。(注:本专利技术中基模型的定义为——能够实初步现专利技术结果但尚有优化和改进空间,可作为后续实验作参考和对比的基本模型)。基模型开发模块:本专利技术的核心思想是通过最小二乘对多维空间中的点,基模型中不同特征feature所对应的某一日期中的数据进行拟合进而达到回归预测的目的,其所依据的公式如下:B(k)=(XTX+kI)-1XTY公式中,X和Y分别表已存在的数据列和待预测的数据列(即延时的数据列),k为惩罚系数,通常是一个很接近于0的小数,I为单位矩阵,B(k)为X所在数据列的特征feature所对应的回归系数。数据获取与处理模块用于获取基模型所需的酒店历史数据、并对数据做必要的处理,如数据筛选、特征提取(每个日期的不同提前预定天数对应的间夜量所在的列作为特征featuure)、数据归一化(利用Minmax归一化)等等。本专利技术的基模型图如图1所示:图中横轴Tn代表提前天数,纵轴代表间夜量rns;本专利技术的目标是用Tn及其之后t天Tn+1,…,Tn+t的数据预测Tn-1的值,比如要预测提前1天的间夜量,基模型中的Y为待预测T1对应的rns构成的数据列,X为历史数据T2~Tn对应的rns构成的数据列。模型训练及预测模块:利用历史数据对基模型训练(即将上述X输入模型得到Y,对模型进行训练),再用训练好的基模型对延时数据进行预测补齐。同时对基模型的预测精度进行评估,评估指标为平均绝对误差MAPE,其计算公式如下:其中Mean为求均值函数,abs为求绝对值函数,true_value为真实值,pred_value为预测值。较佳地,如果基模型的预测精度达不到所需要求,本专利技术还提出了一种能够有效提高模型的精度的方法。以预测酒店间夜量例,由于酒店的历史数据为时间序列型数据,因此可以找出当前每一个日期(基模型中数据对应的日期)对应的历史同期数据,再将这些同期数据作为一个新的属性(即新的数据列)加入模型训练,本专利技术称之为“浮动同期”,其计算公式如下:公式中,k代表某个日期的浮动天数,y代表年,m代表月,d代表天,如在计算2017.5.1号的“浮动同期”时,就需找到其y-1年即2016.5.1号,取左右浮动k天日期对应的rns求均值所得到的结果。理论上,这种通过给当前日期打上历史同期的标签的方法,起到了进一步对回归结果进行约束的效果,可以达到提高模型预测精度的要求,实验也证明这种方法是有效的。与现有技术相比,本专利技术的积极效果为:在酒店历史数据存在延时或缺失的情况下,本专利技术可在业务要求的精度范围内对所需数据进行自动补齐,进而达到提前预测的目的。附图说明图1为模型为部分缺失时间序本文档来自技高网...
一种基于时间序列的缺失数据补充方法与系统

【技术保护点】
一种基于时间序列的缺失数据补充方法,其步骤包括:1)数据获取与处理模块获取基模型所需的历史数据,以及对所述历史数据中各时间点的历史数据进行特征提取并生成对应时间点的历史数据的数据列;所述时间点为构成时间序列的时间单元;2)基模型开发模块根据历史数据的数据列和待预测数据的数据列构建一基模型,用于对数据进行拟合进而达到回归预测;所述基模型为B(k)=(X

【技术特征摘要】
1.一种基于时间序列的缺失数据补充方法,其步骤包括:1)数据获取与处理模块获取基模型所需的历史数据,以及对所述历史数据中各时间点的历史数据进行特征提取并生成对应时间点的历史数据的数据列;所述时间点为构成时间序列的时间单元;2)基模型开发模块根据历史数据的数据列和待预测数据的数据列构建一基模型,用于对数据进行拟合进而达到回归预测;所述基模型为B(k)=(XTX+kI)-1XTY;其中,X为一时间点对应的历史数据的数据列,Y为待预测数据的数据列;k为惩罚系数,I为单位矩阵,B(k)为数据列X的特征所对应的回归系数;3)利用历史数据的数据列对基模型进行训练,再用训练好的基模型对待预测数据的数据列进行预测补齐。2.如权利要求1所述的方法,其特征在于,所述步骤3)中,对训练好的基模型的预测精度进行评估,评估指标为平均绝对误差MAPE;如果基模型的预测精度达不到设定条件,则查找基模型中数据对应的各日期对应的历史同期数据,将这些历史同期数据对应的数据列作为训练数据再次训练基模型。3.如权利要求2所述的方法,其特征在于,利用公式进行评估;其中,Mean为求均值函数,abs为求绝对值函数,true_value为真实值,pred_value为预测值。4.如权利要求2所述的方法,其特征在于,利用公式找到基模型中数据对应的各日期的历史同期;其中,k代表基模型中数据对应的一日期的浮动天数,y代表年,m代表月,d代表天。5.如权利要求1所述的方法,其特征在于,所述特征为所述时间点的不同提前预定天数。6.如权利要求1或5所述的方法,其特征在于,所述时间点为以年月日表示的日期。7.一种基于时...

【专利技术属性】
技术研发人员:许海军戴宇超暴筱林小俊
申请(专利权)人:北京众荟信息技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1