一种宏观经济多源混频大数据建模方法技术

技术编号:21453920 阅读:41 留言:0更新日期:2019-06-26 04:46
本发明专利技术公开了一种宏观经济多源混频大数据建模方法,涉及人工智能技术领域。本发明专利技术包括如下步骤:扩充响应变量,为高频解释变量加入建模提供建模基础;对获取的多源混频大数据进行特征处理,排除了变量间的共线性性和冗余变量对模型的干扰;根据解释变量的更新滞后时长和响应变量的频率确定解释变量前推的时间长度和跨越的历史时长,得到样本;使用回归器对数据进行训练和预测,得到分析结果。本发明专利技术通过对响应变量进行扩充,以及引入更多更高频的解释变量,得到细粒度更高的建模结果;引入了多源混频大数据构造训练样本训练模型,使得建模结果更客观,具有更好的可解释性。

【技术实现步骤摘要】
一种宏观经济多源混频大数据建模方法
本专利技术属于人工智能
,特别是涉及一种宏观经济多源混频大数据建模方法,该方法构建了一种细粒度更高的优于传统宏观经济指标建模方法的新型模型。
技术介绍
宏观经济指标衡量了一个国家的经济发展水平,反映了一个国家的经济发展状况。宏观经济指标的建模结果对该区域未来的经济发展规划起到了一定的影响作用。但是目前,宏观经济指标由国家或地区统计局发布,受限于传统的指标计算方法,存在着发布维度较少、频率较低、时滞严重等问题。因此,这些指标难以及时准确地反映现实宏观经济发展的真实情况。而使用宏观经济多源混频大数据建模方法,能够更准确、更及时的反映当前区域经济的发展态势。为经济发展规划和监测经济发展过程中的突发性问题提供了有力的佐证,协助决策者更好的发展区域经济。宏观经济多源混频大数据建模方法面临如下问题:(1)如何更好地使用多源混频大数据构造出具有宏观经济意义的解释变量用于建模分析;(2)如何挑选更优的模型对宏观经济指标进行预测;(3)如何分析模型预测出的宏观经济指标的结果,从中挖掘出值得关注的点。然而,目前框架下使用的模型仍是基于线性模型的改进模型,使得模型能够承受的解释变量的维度有一定的限制;因此,本专利技术提供了一种使用传统的建模数据和基于多源混频大数据直接的对比,宏观经济多源混频大数据建模方法在MAPE、Max-APE以及季度末的值的MAPE上都有较好的表现。
技术实现思路
本专利技术的目的在于提供一种宏观经济多源混频大数据建模方法,通过数据获取、特征分析、训练样本生成、模型训练、结果分析步骤设计的建模框架,解决了现有的模型解释变量维度有一定限制、结果分析困难的问题。为解决上述技术问题,本专利技术是通过以下技术方案实现的:本专利技术为一种宏观经济多源混频大数据建模方法,包括如下步骤:步骤S1、扩充响应变量:对响应变量进行扩充,获取高频的响应变量数据;步骤S2、数据获取:从多源渠道获取与宏观经济指标相关的混频大数据;步骤S3、特征分析:将获取的多源混频大数据进行特征处理,生成具备宏观经济意义的新特征变量;步骤S4、训练样本生成:根据数据更新滞后性和响应变量的频率确定解释变量数据前推时间长度和解释变量选取的历史时间长度,生成训练样本,划分成训练集和测试集;步骤S5、模型训练:选择合适的模型对训练集进行训练,并给出模型在测试集上的结果以及训练模型的参数;步骤S6、结果分析与展示:分析模型在测试集上的结果,结合训练模型参数给出解释变量的重要性排序;其中,步骤S3中,对多源混频大数据进行特征处理包括如下情况:当对单个变量时,采用缺失值填补、数据变化和数据标准化处理;当对多个变量时,采用降维、特征选择和协变量构造处理。优选地,所述步骤S1中,扩充响应变量采用移动最小二乘法;所述移动最小二乘法具体方法如下:设原有的m个样本点为xt1,xt2,xt3,...,xtm,其对应的日期分别为t1,t2,t3,...,tm;扩充后的样本点设为其对应的日期为其中,t10=t1,t20=t2,...,tm0=tm;使用k阶多项式为在拟合时,引入权重:优化如下目标函数:得到扩充后的响应变量:优选地,所述协变量构造包括横向构造和纵向构造;所述横向构造用以同一时间点上相关变量的乘积或求和作为新的特征变量;所述纵向构造用以过去一定时间周期的数据均值和变化斜率作为新的特征变量。本专利技术具有以下有益效果:(1)本专利技术通过对响应变量进行扩充,引入更多更高频的解释变量,得到细粒度更高的建模结果,引入了多源混频大数据构造训练样本训练模型,使得建模结果更客观,具有更好的可解释性;(2)本专利技术使用了模型参数具备稀疏性特点的Lasso模型,能够从大量的解释变量中自动选择出对模型贡献较大的解释变量,方便之后对结果的分析。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术模型构建的整体框架图;图2为本专利技术实施例中提供的相应变量扩充结果图;图3为本专利技术实施例提供的Lasso模型预测结果示意图;图4为本专利技术实施例提供的Lasso模型周期项与趋势项示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1所示,本专利技术为一种宏观经济多源混频大数据建模方法,包括如下步骤:步骤S1、扩充响应变量:对响应变量进行扩充,获取高频的响应变量数据;步骤S2、数据获取:从多源渠道获取与宏观经济指标相关的混频大数据;步骤S3、特征分析:将获取的多源混频大数据进行特征处理,生成具备宏观经济意义的新特征变量;步骤S4、训练样本生成:根据数据更新滞后性和响应变量的频率确定解释变量数据前推时间长度和解释变量选取的历史时间长度,生成训练样本,划分成训练集和测试集;步骤S5、模型训练:选择合适的模型对训练集进行训练,并给出模型在测试集上的结果以及训练模型的参数;步骤S6、结果分析与展示:分析模型在测试集上的结果,结合训练模型参数给出解释变量的重要性排序;其中,步骤S3中,对多源混频大数据进行特征处理包括如下情况:当对单个变量时,采用缺失值填补、数据变化和数据标准化处理,如对数据取log函数或指数函数等;当对多个变量时,采用降维、特征选择和协变量构造处理,降维采用PCA、LDA、Autoencoder等算法;特征选择采用相关系数、卡方检验等算法。优选地,所述步骤S1中,扩充响应变量采用移动最小二乘法;所述移动最小二乘法具体方法如下:设原有的m个样本点为xt1,xt2,xt3,...,xtm,其对应的日期分别为t1,t2,t3,...,tm;扩充后的样本点设为其对应的日期为其中,t10=t1,t20=t2,...,tm0=tm;使用k阶多项式为在拟合时,引入权重:优化如下目标函数:得到扩充后的响应变量:优选地,所述协变量构造包括横向构造和纵向构造;所述横向构造用以同一时间点上相关变量的乘积或求和作为新的特征变量;所述纵向构造用以过去一定时间周期的数据均值和变化斜率作为新的特征变量。本实施例的一个具体应用为:在构造训练集时,考虑到数据更新存在一定的滞后性,对不同频率的解释变量进行数据前移处理:1.日度数据前移量为3日,历史长度取为90日;2.周度数据每周一更新上周数据,历史长度取为12周;月度数据每月10日更新上月(月末)数据,历史长度取为3个月。把每个时间点上经过前移处理操作的数据拉平成一个向量作为一个训练样本的解释变量部分。循环使用此方法遍历所有时间点,并与扩充后的响应变量在时间点上对应合并,生成了可用于模型训练的样本集。并根据时序关系,选择最新的一段时间作为测试集,之前的时间点上的样本作为训练集。由于多源混频大数据自身的特点,无法保证所有的数据在同一时间点上更新,在模型预测时,需要本文档来自技高网...

【技术保护点】
1.一种宏观经济多源混频大数据建模方法,其特征在于,包括如下步骤:步骤S1、扩充响应变量:对响应变量进行扩充,获取高频的响应变量数据;步骤S2、数据获取:从多源渠道获取与宏观经济指标相关的混频大数据;步骤S3、特征分析:将获取的多源混频大数据进行特征处理,生成具备宏观经济意义的新特征变量;步骤S4、训练样本生成:根据数据更新滞后性和响应变量的频率确定解释变量数据前推时间长度和解释变量选取的历史时间长度,生成训练样本,划分成训练集和测试集;步骤S5、模型训练:选择合适的模型对训练集进行训练,并给出模型在测试集上的结果以及训练模型的参数;步骤S6、结果分析与展示:分析模型在测试集上的结果,结合训练模型参数给出解释变量的重要性排序;其中,步骤S3中,对多源混频大数据进行特征处理包括如下情况:当对单个变量时,采用缺失值填补、数据变化和数据标准化处理;当对多个变量时,采用降维、特征选择和协变量构造处理。

【技术特征摘要】
1.一种宏观经济多源混频大数据建模方法,其特征在于,包括如下步骤:步骤S1、扩充响应变量:对响应变量进行扩充,获取高频的响应变量数据;步骤S2、数据获取:从多源渠道获取与宏观经济指标相关的混频大数据;步骤S3、特征分析:将获取的多源混频大数据进行特征处理,生成具备宏观经济意义的新特征变量;步骤S4、训练样本生成:根据数据更新滞后性和响应变量的频率确定解释变量数据前推时间长度和解释变量选取的历史时间长度,生成训练样本,划分成训练集和测试集;步骤S5、模型训练:选择合适的模型对训练集进行训练,并给出模型在测试集上的结果以及训练模型的参数;步骤S6、结果分析与展示:分析模型在测试集上的结果,结合训练模型参数给出解释变量的重要性排序;其中,步骤S3中,对多源混频大数据进行特征处理包括如下情况:当对单个变量时,采用缺失值填补、数据变化和数...

【专利技术属性】
技术研发人员:宋艳枝孔京杨路
申请(专利权)人:合肥黎曼信息科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1