大数据量预测的三层联合动态选择最优模型方法技术

技术编号:14313359 阅读:83 留言:0更新日期:2016-12-30 14:29
本发明专利技术提供一种大数据量预测的三层联合动态选择最优模型方法,包括预测模型算法库、权重算法库、最优权重算法甄选算法三层,预测模型算法库放置在的最底层,在预测算法模型库之上是权重算法库,在权重算法库之上是最优权重算法甄选算法;该种大数据量预测的三层联合动态选择最优模型方法,三层结构具有高扩展性、预测稳定性、模型的动态调整特性、预测数据对模型的无差异性这四种特性。本申请运用了联合算法,该算法规避了常用算法的一些缺点,利用赋予多种模型权重的方法,将多种算法有机地组合在一起,将最适应的算法赋予高权重,而将相对不好的算法赋予的低的权重,这样既保证了数据预测的准确性,也保证了数据长度增加后,预测的稳定性。

【技术实现步骤摘要】

本专利技术涉及一种大数据量预测的三层联合动态选择最优模型方法
技术介绍
现在每天生成的数据高达250兆亿个字节,超过过去两年里生成的数据总量的90%。大量的数据,以结构化的形式存储于计算机。这些数据被结构化后,在方便储存的同时,也失去了逻辑上的关联,比如,通讯上相邻的两个小区之间,彼此影响,相互因果,并以某种模式延续到未来,而存储在计算机里的,只是两列数据,并无关联和模式,实际情况下,可能是无数列这样的数据,这让关联和模式隐藏的更深,形式更复杂。在如此大量而复杂的数据中,要发现关联、捕捉模式,以预测未来,需要一个稳定而准确的模型,这对现有算法提出了更高的要求。为了获得这样一个理想模型,分析常规建模过程是有必要的。基于大量数据预测时,首先是借助统计和可视化的方法,分析数据的特征,比如,是线性的还是非线性的,周期多少,滞后期多少,呈何种分布等等,如果到这步还没有清晰的特征,就需要对数据进行数学转换,转换后的数据继续上述步骤,直到得到清晰的数学特征,然后是基于数学特征建模。这种建模流程固然很好,且绝大多数情况下能很好的实现目标。然而,有时候这么做会有问题。第一个问题是,模型可能会选择错误,假设模拟产生某列数据,符合周期逐渐变小的震荡的数学特性(假定是周期渐小的正弦),并且让它的周期特别大,大到在一定范围内看,局部分布是呈线性的,但从足够的远期看,才能看到它的庐山真面目。在一段时间内,它的模式很可能被错误捕捉,实际运用中,如果数据不够多,或者数据没有累计到一定程度,那么,在选用模型时,很可能会有问题。而且,一旦选用了某个模型,很可能没有机会再去选用别的,甚至也不能修正模型本身,因为在一开始模型就被评估的很好,然后就进入正式开发,放入工程中,当数据增加或情况改变时,也不会再考虑重新选择模型。随着数据的积累或者在预测长期的数据时,问题就会凸现,预测效果会变得很差。第二个问题是,当要预测大量不同数据时,需要针对每列数据选择一个模型,这样,需要花大量时间在模型甄选上,即使这样做了,仍然不能避免上述的问题--模型选择错误,而希望每个模型的选择流程都简单而科学,模型预测结果稳定而相对准确。第三个问题是,无法实现快速动态预测。当有一列新的数据需要建模和预测时,需要重新开始建模流程,分析,建模,评估。显然,这不能满足快速动态的进行预测。而希望这列数据像其他已经建模完的数据一样,能智能地选用某个现成的模型,进行预测和相关处理,并能保证结果的准确性。
技术实现思路
为了解决上述问题,本专利技术针对三个问题进行了具体的分析,发现三个问题的一些共同之处,大数据量时,预测值与观测值常常有较大误差,误差会随着预测长度的增加而增大。为了避免误差过大,本专利技术提供一种大数据量预测的三层联合动态选择最优模型方法,在预测时,可以动态地选择最合适的模型,摒弃预测效果不好的模型,这样做一方面,保证了效果的稳定型,另一方面将误差控制在合理的范围内。本专利技术的技术解决方案是:一种大数据量预测的三层联合动态选择最优模型方法,包括预测模型算法库、权重算法库、最优权重算法甄选算法三层,预测模型算法库放置在的最底层,在预测算法模型库之上是权重算法库,在权重算法库之上是最优权重算法甄选算法;预测模型算法库:包含若干种预测模型算法,这些算法被抽象成共同的接口,放置在联合算法的最底层,提供预测功能,支撑更上层的功能;权重算法库:对预测算法库的最底层算法的多样性进行屏蔽,根据底层算法的预测结果,按若干种标准对底层算法进行甄选组合,形成若干种权重算法;最优权重算法甄选算法:根据验证集中权重算法的效果,选择最优的权重算法,进行预测。进一步地,预测模型算法库具体的实现步骤如下。输入训练数据;对训练数据预处理后,得到待用数据;使用两种以上的不同算法对待用数据进行模型拟合,得到各待选模型。进一步地,对训练数据预处理,具体包括:数据筛选:去除过于稀疏的数据列;时间格式的处理:将时间列映射为连续的整数;数据补值:缺失数据插值、错误数据插值。进一步地,权重算法采用如下算法:算法一:给予所有预测模型相同的权重;算法二:剔除百分之二十预测结果相对较差的模型,并给予剩下的模型相同的权重;算法三:计算各模型误差均方根,然后根据误差均方根大小,设计一个反趋势的函数,并根据该函数给各模型赋予权重;算法四:计算各模型最小绝对误差,然后根据最小绝对误差大小,设计一个反趋势的函数,并根据该函数给各模型赋予权重;算法五:计算各模型最小二乘计算的误差,然后根据最小二乘计算的误差大小,设计一个反趋势的函数,并根据该函数给各模型赋予权重;算法六:计算各模型赤池信息量准则,然后根据赤池信息量准则大小,设计一个反趋势的函数,并根据该函数给各模型赋予权重。进一步地,预测模型算法库具体的实现步骤如下:调用预测模型库,得到预测模型的预测数据集;分别调用各个权重算法,并计算权重;赋予各预测模型相应权重,进行数据预测,存储预测的数据。进一步地,最优权重算法依据各权重算法在测试集上的预测效果,来甄选最优权重算法;最优权重算法甄选算法的具体步骤如下:调用权重算法库的算法,得到权重预测的数据的集合;利用权重库预测的数据集,与验证集比对,得到误差;由最小误差,得到最优权重算法;将最优权重方法预测的数据存储,得到预测结果。本专利技术的有益效果是:本专利技术一种大数据量预测的三层联合动态选择最优模型方法,三层结构具有高扩展性、预测稳定性、模型的动态调整特性、预测数据对模型的无差异性这四种特性。本申请运用了联合算法,该算法规避了常用算法的一些缺点,利用赋予多种模型权重的方法,将多种算法有机地组合在一起,将最适应的算法赋予高权重,而将相对不好的算法赋予的低的权重,这样既保证了数据预测的准确性,也保证了数据长度增加后,预测的稳定性。附图说明图1是本专利技术实施例大数据量预测的三层联合动态选择最优模型方法的说明示意图。图2是实施例中ARIMA算法KPI综合误差率的示意图。图3是实施例中Holtwinters算法在KPI下误差率的示意图。图4是实施例中Arima算法KPI下误差率的示意图。具体实施方式下面结合附图详细说明本专利技术的优选实施例。在小区KPI预测时,需要预测的数据准确而稳定,但是实际运用中往往不好,这是因为,一般算法有一定的局限性和适用性,导致有的数据预测不好。在这种情况下,实施例运用了联合算法,该算法规避了常用算法的一些缺点,利用赋予多种模型权重的方法,将多种算法有机地组合在一起,将最适应的算法赋予高权重,而将相对不好的算法赋予的低的权重,这样既保证了数据预测的准确性,也保证了数据长度增加后,预测的稳定性。随后,将联合算法运用于实验中,取得了预期的效果,在稳定性和准确性方面都取得了具佳的效果。实施例如图1,大数据量预测的三层联合动态选择最优模型方法由预测模型算法库、权重算法库、最优权重算法甄选算法三层组成。预测模型算法库包含了各种经典算法、经典算法改进型及部分专利算法,这些算法被抽象成共同的接口,放置在联合算法的最底层,提供预测功能,支撑更上层的功能。在预测算法模型库之上是权重算法,权重算法对预测算法库进行了一层包装,屏蔽了最底层算法的多样性,用户不需要考虑底层各种算法的参数、周期、收敛性、误差等,权重算法根据底层算法的预测结果,按若干种标准本文档来自技高网
...
大数据量预测的三层联合动态选择最优模型方法

【技术保护点】
一种大数据量预测的三层联合动态选择最优模型方法,其特征在于:包括预测模型算法库、权重算法库、最优权重算法甄选算法三层,预测模型算法库放置在的最底层,在预测算法模型库之上是权重算法库,在权重算法库之上是最优权重算法甄选算法;预测模型算法库:包含若干种预测模型算法,这些算法被抽象成共同的接口,放置在联合算法的最底层,提供预测功能,支撑更上层的功能;权重算法库:对预测算法库的最底层算法的多样性进行屏蔽,根据底层算法的预测结果,按若干种标准对底层算法进行甄选组合,形成若干种权重算法;最优权重算法甄选算法:根据验证集中权重算法的效果,选择最优的权重算法,进行预测。

【技术特征摘要】
2016.03.23 CN 20161016847311.一种大数据量预测的三层联合动态选择最优模型方法,其特征在于:包括预测模型算法库、权重算法库、最优权重算法甄选算法三层,预测模型算法库放置在的最底层,在预测算法模型库之上是权重算法库,在权重算法库之上是最优权重算法甄选算法;预测模型算法库:包含若干种预测模型算法,这些算法被抽象成共同的接口,放置在联合算法的最底层,提供预测功能,支撑更上层的功能;权重算法库:对预测算法库的最底层算法的多样性进行屏蔽,根据底层算法的预测结果,按若干种标准对底层算法进行甄选组合,形成若干种权重算法;最优权重算法甄选算法:根据验证集中权重算法的效果,选择最优的权重算法,进行预测。2.如权利要求1所述的大数据量预测的三层联合动态选择最优模型方法,其特征在于,预测模型算法库具体的实现步骤如下。输入训练数据;对训练数据预处理后,得到待用数据;使用两种以上的不同算法对待用数据进行模型拟合,得到各待选模型。3.如权利要求2所述的大数据量预测的三层联合动态选择最优模型方法,其特征在于,对训练数据预处理,具体包括:数据筛选:去除过于稀疏的数据列;时间格式的处理:将时间列映射为连续的整数;数据补值:缺失数据插值、错误数据插值。4.如权利要求1-3任一项所述的大数据量预测的三层联合动态选择最优模型方法,其特征在于...

【专利技术属性】
技术研发人员:吴冬华胡曼恬胡岳闫兴秀
申请(专利权)人:南京华苏科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1