一种数据处理的方法及装置制造方法及图纸

技术编号:21913946 阅读:32 留言:0更新日期:2019-08-21 12:25
一种数据处理的方法及装置,所述方法包括:从数据库获取因变量集和N个按照时间分布的第一变量集;对每个初始自变量进行滞后处理,得到N个第二变量集,第二变量集包括多个滞后自变量,以及获取每个滞后初始自变量的滞后时间点对应的因变量,对N个第二变量集和j个因变量进行重编码,得到j个滞后特征集,滞后特征集包括多个滞后特征,滞后特征包括滞后自变量与因变量之间的映射关系;对j个滞后特征集中的滞后特征进行回归处理,建立回归模型;根据回归模型和因变量的预测值,预测因变量的真实值,根据预测出的因变量的真实值预测预定义时间内的因变量取值。通过采用本方案,能够突出时间因素在预测中的作用,提高预测结果的全面性和准确性。

A Data Processing Method and Device

【技术实现步骤摘要】
一种数据处理的方法及装置
本申请涉及大数据处理
,尤其涉及一种数据处理的方法及装置。
技术介绍
传统财务预测大多依赖专家判断法或者基于业务管道数据做简单汇总/转化,受限于业务数据现状,在企业经营性现金流预测领域,一般是基于已有的业务数据去预测,考虑到年度内新业务、关键时点业务等复杂因素,为避免这些因素导致预测遗漏,目前采用连续数值预测技术、使用回归分析或时间序列分析等方式完成现金流预测。在回归分析中,需要基于业务数据中已有的特征变量来建立模型,还需要通过相关性从业务数据中识别出相关特征,以及对识别出的相关特征数据变换为新的特征,并计算每个特征与相应变量的相关性,然后分别构建每个特征的模型,通过模型的准确性对这些特征进行排序,以选择特征。但是,这种机制最终输出的模型容易出现过拟合,从而导致模型的使用受到限制。目前提供一种基于回归分析和时间序列预测的方式来构建数值预测模型,但是,目前的回归分析依赖已有的数据,若未提前获取自变量的预测值,就无法直接预测因变量的未来值。并且该时间序列预测是通过对预测对象自身时间序列的处理,以研究其变化趋势,但对历史数据规律的依赖性很强,虽然也能突出时间因素在预测中的作用,但并未分析探讨预测对象和影响因素之间的因果关系,最终的预测结果较为片面,导致预测结果无法准确反映复杂多变的环境因素。
技术实现思路
本申请提供了一种数据处理的方法及装置,能够解决现有技术中预测结果不全面的问题。本申请第一方面提供一种数据处理的方法,所述方法包括:从数据库获取或接收因变量集和N个按照时间分布的第一变量集,所述因变量集包括t个初始因变量,所述第一变量集包括t个初始自变量,N和t均为正整数。在所述第一变量集中,所述t个初始自变量分别对应不同的预测时间点,第m个初始自变量表示根据预测时间点m的数据预测初始自变量得到的预测版本,t≥m≥0,m为正整数。所述因变量集同理。对每个所述初始自变量进行滞后处理,得到N个第二变量集,以及获取滞后初始自变量的滞后时间点对应的j个因变量,所述第二变量集包括j个滞后自变量,j为正整数。在得到j个因变量和N个第二变量集后,对所述N个第二变量集和所述j个因变量进行重编码,得到j个滞后特征集,所述滞后特征集包括多个滞后特征,所述滞后特征包括滞后自变量与因变量之间的映射关系;对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型,以及根据所述回归模型和因变量的预测值,预测所述因变量的真实值。在预测出因变量的真实值后,根据预测出的所述因变量的真实值预测预定义时间内的因变量取值。相较于现有技术,本申请提供的方案中,在获取到待处理的初始自变量和初始因变量后,先对这些初始自变量和初始因变量分别进行滞后处理和重编码,然后基于重编码得到的滞后特征集建立回归模型,再根据所述回归模型和因变量的预测值去预测所述因变量的真实值。本申请不需要依赖自变量的预测值,仅基于因变量的预测值,就能够准确地预测因变量的真实值,并且由于滞后特征集是基于时间变化衍生得到的映射关系,所以突出了时间因素在预测中的作用,最终预测的结果比较全面和准确。在一些可能的设计中,所述对所述N个第二变量集和所述j个因变量进行重编码之后,所述对所述j个滞后特征集中的滞后特征进行回归处理之前,还可以基于随机森林法从所述j个滞后特征集中筛选出目标特征集,所述目标特征集包括多个滞后特征。具体来说,通过随机森林法可计算出各滞后特征的权重值,然后就可以根据权重值大小筛选出重要性较高的滞后特征。可选的,所述基于随机森林法从j个滞后特征集中筛选出目标特征集,包括:从相同的滞后p阶至j阶处理后的初始自变量筛选j次,以及从相同的滞后i阶至q阶处理后的初始自变量筛选i+q次,得到所述目标特征集,1≤p≤j,i≤q≤j。可见,本申请通过随机森林法可以准确地筛选出重要性高、具有预测代表性的滞后特征,进而缩小滞后特征的范围,降低后期建立回归模型中的运算量,提高运算效率和准确度。在一些可能的设计中,在所述第一变量集中,所述t个初始自变量分别对应不同的预测时间点,第m个初始自变量表示根据预测时间点m的数据预测初始自变量得到的预测版本,t≥m≥0,m为正整数。在一些可能的设计中,所述初始自变量用x表示,所述对每个所述初始自变量进行滞后处理,得到N个第二变量集,包括下述操作:根据所述初始自变量x预测第i个时间点的自变量时,对所述初始自变量x进行滞后i阶至j阶,得到所述初始自变量x的一个滞后自变量,j≥i≥1,i为正整数;根据所述初始自变量x预测第i+1个时间点的自变量时,对所述初始自变量进行滞后i+1阶至j阶,得到所述初始自变量x的一个滞后自变量。一些实施方式中,除了根据滞后初始自变量的滞后时间点去获取滞后时间点对应的j个因变量,还可以先选定要处理的初始自变量和初始因变量,然后分别对初始自变量和初始因变量进行滞后处理,且对同一时间点的初始自变量和初始因变量滞后的时间点相同。具体来说,根据所述初始因变量y预测第i个时间点的因变量时,对所述初始因变量y进行滞后i阶至j阶,得到所述初始因变量y的一个因变量;根据所述初始因变量y预测第i+1个时间点的因变量时,对所述初始因变量y进行滞后i+1阶至j阶,得到所述初始因变量y的一个滞后变量,得到所述初始因变量y的因变量。在一些可能的设计中,所述滞后特征集包括t*N*j个滞后特征,所述对所述N个第二变量集和所述j个因变量进行重编码,得到滞后特征集,包括以下操作:将参与相同的滞后i阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i阶至j阶处理的初始因变量进行特征编码,得到j个滞后特征;将参与相同的滞后i+1阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i+1阶至j阶处理后的初始因变量进行特征编码,得到j个滞后特征。其中,每个所述滞后特征包括滞后自变量与因变量之间的映射关系,便于后期利用该x与y之间的映射关系去预测y的预测值。在一些可能的设计中,所述j个滞后特征集中筛选出目标特征集之后,所述方法还包括:从所述目标特征集中选择重要性排前a的候选特征集;对所述候选特征集进行多次k折交叉验证,直至所述候选特征集中各滞后特征的重要性排序收敛。通过多次k折交叉验证,使得最终筛选出的滞后特征的重要性排序较为稳定,波动范围较小,能够减少后期建立回归模型的运算量,以及提高回归模型的预测精准度,也能够得到预测精度稳定性较高的预测模型。在一些可能的设计中,每个所述滞后特征集对应一个预测时间段,所述j个滞后特征集对应T1至T2,T1和T2均为预测时间段,T1先于T2;所述对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型,包括:基于所述j个滞后特征集进行滚动预测,得到T3至T4的滞后特征集,所述T3至T4的滞后特征集包括因变量预测值和自变量,所述滚动预测的预测时间从T3至T4,T3-T1=T4-T2,T3<T2,T3<T4;将所述T3至T2的滞后特征集作为训练集进行回归训练,得到多个回归模型的自变量权重值,回归模型的自变量权重值可用于后期建立组合模型时,按照回归模型的自变量权重值进行组合,以得到准确度较高、能够真实反映出自变量与因变量的映射关系的组合模型,以及提高预测因变量真实值的精度。根据所述T3至T4的滞后特本文档来自技高网...

【技术保护点】
1.一种数据处理的方法,其特征在于,所述方法由计算机系统执行,包括:获取因变量集和N个按照时间分布的第一变量集,所述因变量集包括t个初始因变量,所述第一变量集包括t个初始自变量,N和t均为正整数;对每个所述初始自变量进行滞后处理,得到N个第二变量集,以及从所述因变量集中获取滞后初始自变量的滞后时间点对应的j个因变量,所述第二变量集包括j个滞后自变量,j为正整数;对所述N个第二变量集和所述j个因变量进行重编码,得到j个滞后特征集,所述滞后特征集包括多个滞后特征,所述滞后特征包括滞后自变量与因变量之间的映射关系;对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型;根据所述回归模型和因变量的预测值,预测所述因变量的真实值。

【技术特征摘要】
1.一种数据处理的方法,其特征在于,所述方法由计算机系统执行,包括:获取因变量集和N个按照时间分布的第一变量集,所述因变量集包括t个初始因变量,所述第一变量集包括t个初始自变量,N和t均为正整数;对每个所述初始自变量进行滞后处理,得到N个第二变量集,以及从所述因变量集中获取滞后初始自变量的滞后时间点对应的j个因变量,所述第二变量集包括j个滞后自变量,j为正整数;对所述N个第二变量集和所述j个因变量进行重编码,得到j个滞后特征集,所述滞后特征集包括多个滞后特征,所述滞后特征包括滞后自变量与因变量之间的映射关系;对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型;根据所述回归模型和因变量的预测值,预测所述因变量的真实值。2.根据权利要求1所述的方法,其特征在于,所述对所述N个第二变量集和所述j个因变量进行重编码之后,所述对所述j个滞后特征集中的滞后特征进行回归处理之前,所述方法还包括:基于随机森林法从所述j个滞后特征集中筛选出目标特征集,所述目标特征集包括多个滞后特征。3.根据权利要求1或2所述的方法,其特征在于,在所述第一变量集中,所述t个初始自变量分别对应不同的预测时间点,第m个初始自变量表示根据预测时间点m的数据预测初始自变量得到的预测版本,t≥m≥0,m为正整数。4.根据权利要求3所述的方法,其特征在于,所述初始自变量用x表示,所述对每个所述初始自变量进行滞后处理,得到N个第二变量集,包括下述操作:根据所述初始自变量x预测第i个时间点的自变量时,对所述初始自变量x进行滞后i阶至j阶,得到所述初始自变量x的一个滞后自变量,j≥i≥1,i为正整数;根据所述初始自变量x预测第i+1个时间点的自变量时,对所述初始自变量进行滞后i+1阶至j阶,得到所述初始自变量x的一个滞后自变量。5.根据权利要求4所述的方法,其特征在于,所述滞后特征集包括t*N*j个滞后特征,所述对所述N个第二变量集和所述j个因变量进行重编码,得到滞后特征集,包括以下操作:将参与相同的滞后i阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i阶至j阶处理的初始因变量进行特征编码,得到j个滞后特征;将参与相同的滞后i+1阶至j阶处理后的初始自变量作为输入,分别与参与相同的滞后i+1阶至j阶处理后的初始因变量进行特征编码,得到j个滞后特征。6.根据权利要求2-5中任一所述的方法,其特征在于,所述基于随机森林法从j个滞后特征集中筛选出目标特征集,包括:从相同的滞后p阶至j阶处理后的初始自变量筛选j次,以及从相同的滞后i阶至q阶处理后的初始自变量筛选i+q次,得到所述目标特征集,1≤p≤j,i≤q≤j。7.根据权利要求6所述的方法,其特征在于,所述j个滞后特征集中筛选出目标特征集之后,所述方法还包括:从所述目标特征集中选择重要性排前a的候选特征集;对所述候选特征集进行多次k折交叉验证,直至所述候选特征集中各滞后特征的重要性排序收敛。8.根据权利要求3-7中任一所述的方法,其特征在于,每个所述滞后特征集对应一个预测时间段,所述j个滞后特征集对应T1至T2,T1和T2均为预测时间段,T1先于T2;所述对所述j个滞后特征集中的滞后特征进行回归处理,建立回归模型,包括:基于所述j个滞后特征集进行滚动预测,得到T3至T4的滞后特征集,所述T3至T4的滞后特征集包括因变量预测值和自变量,所述滚动预测的预测时间从T3至T4,T3-T1=T4-T2,T3<T2,T3<T4;将所述T3至T2的滞后特征集作为训练集进行回归训练,得到多个回归模型的自变量权重值;根据所述T3至T4的滞后特征集、以及回归模型的自变量权重值,建立多个回归模型,每个所述回归模型包括因变量预测值、自变量和因变量真实值。9.根据权利要求8所述的方法,其特征在于,所述根据所述回归模型和因变量的预测值,预测所述因变量的真实值,包括:基于所述多个回归模型、所述T3至T4的滞后特征集中的因变量预测值和自变量,预测所述T3至T4的因变量真实值,建立所述T3至T4的预测模型。10.根据权利要求8或9所述的方法,其特征在于,所述建立多个回归模型之后,所述方法还包括:根据模型测评条件、预测精度和平均绝对偏差率选择权重值高于预设权重值的回归模型;拟合权重值高于预设权重值的回归模型中各回归模型中的因变量预测值,得到多个模型拟合因变量预测值;根据所述权重值高于预设权...

【专利技术属性】
技术研发人员:倪鑫张明仕胡康兴曾嘉陈新杰王子钰
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1