当前位置: 首页 > 专利查询>同济大学专利>正文

基于遗传编程的多元回归预测模型优化方法技术

技术编号:16176149 阅读:44 留言:0更新日期:2017-09-09 03:25
本发明专利技术公开一种基于遗传编程的多元回归预测模型优化方法,通过初始多元回归预测模型簇构造和多元回归预测模型簇进化两个模块来获取最优的多元回归预测模型。初始多元回归预测模型簇构造模块生成用户指定数量的多元回归预测模型个体,并优化每个模型个体的权重参数。多元回归预测模型簇进化模块对初始多元回归预测模型簇进行解析之后,基于遗传编程策略实现选择、解析、交叉、变异和评估五个操作的迭代处理,并将最终的最优多元回归预测模型个体返回给用户。与现有技术相比,本发明专利技术具有准确度高、速度快以及泛化能力强等优点,能够有效应用于智能交通、电子商务、生物信息、医疗健康和社会公共安全等领域。

【技术实现步骤摘要】
基于遗传编程的多元回归预测模型优化方法
本专利技术涉及一种多元回归预测模型优化方法,尤其是涉及一种基于遗传编程的多元回归预测模型优化方法。
技术介绍
近年来,多元回归预测模型及其优化技术是信息服务学科的一个研究热点和重点,它广泛应用于智能交通、电子商务、生物信息、医疗健康和社会公共安全等领域。多元回归预测是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。它的通用数学模型可以表示为:其中,y表示因变量,为模型的预测值,x1~xn为n个与因变量紧密相关的自变量,代表n个不同的抽象特征或影响因素,a1~an为n个自变量的系数,即模型的n个参数,r1~rn为自变量x1~xn的次幂。当r1=r2=…=rn=1时,该模型为多元线性回归预测模型。在实际应用中,通常都会涉及到多元非线性回归预测模型,即r1~rn中,至少有一个次幂大于1。目前多元回归预测模型的检验主要有如下六种方式:1)模型拟合程度测定,2)标准误差评估,3)回归方程的显著性检验,4)回归系数的显著性检验,5)多重共线性判别以及6)杜宾-瓦特森(D-W:Durbin-Watson)检验。在实际应用中,与支持向量机(SVM:SupportVectorMachine)、人工神经网络(ANN:ArtificialNeuralNetwork)、随机森林(RF:RandomForest)、贝叶斯网络(BN:BayesianNetwork)、隐马尔可夫模型(HMM:HiddenMarkovModel)等预测方法相比,基于多元回归模型预测模型的预测方法具有简单方便、灵活以及速度快等优点。但是现有的模型优化方法仍然存在准确度不高、容易过拟合以及泛化能力弱等缺陷。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于遗传编程策略、高效且泛化能力强的多元回归预测模型优化方法,技术框架如图1所示。本专利技术主要由初始多元回归预测模型簇构造和多元回归预测模型簇进化两个模块组成。所述初始多元回归预测模型簇构造模块,通过2个步骤来实现:步骤1.1:多元回归预测模型簇生成。从输入端获取所要预测问题的w个影响因素以及模型个体数量参数值m(m为正整数),顺序产生m个多元回归预测模型个体分别表示为:其中y[z](1≤z≤m)为第z个模型个体的因变量,即该模型个体的预测值;n[z]为第z个模型个体的自变量个数,且n[z]≤w;a[z]i为第z个模型个体第i(1≤i≤n[z])个自变量的系数;r[z]i为第z个模型个体第i个自变量的次幂。每个模型个体中的自变量均取自且不重复。从而,这m个多元回归预测模型个体构成一个集合PM,即为多元回归预测模型簇。步骤1.2:簇内各模型个体参数优化。从输入端获取数据样本集合其中每个数据样本均由和两部分组成,为w个影响因素的取值,为实际预测值。然后,对于PM中的每一个模型个体基于Ψ,对中的n[z]个自变量系数a[z]1~a[z]n[z]进行迭代优化,并最终产生最优的多元回归预测模型个体。所述多元回归预测模型簇进化模块,通过5个步骤来实现:步骤2.1:多元回归预测模型簇选择。从输入端获取选择率的取值s(0<s<1)和数据样本集合计算模型簇PM中每个模型个体的预测准确度,并从中选取个预测准确度最高的模型个体,将它们组成集合OM,表示取上限整数,并从PM中删除OM中的模型个体。步骤2.2:多元回归预测模型簇解析。以步骤2.1中的模型簇PM为输入,对于其中的每一个模型个体将其转换成一棵二叉解析树BP[z]。BP[z]需要同时满足如下6个条件:1)任一个节点至多包含两个子节点,2)左叶子节点为自变量系数,3)右叶子节点为自变量及其次幂,4)叶子节点的父节点为乘法运算(即“×”号),5)其余节点为加法运算(即“+”号),6)右叶子节点关联中的一个影响因素标识符。从而,当所有模型个体转换完毕之后,将得到PM所对应的二叉解析树集合BM。步骤2.3:多元回归预测模型簇交叉。从输入端获取交叉率的取值c(0<c<1),并从步骤2.2获得的BM中选取棵二叉解析树,如果为奇数,那么再从BM中选取一棵,使得最终共选取偶数棵(记为q)二叉解析树,然后,将所选取的二叉解析树分成q/2个组,每组包含两棵二叉解析树。接着,对每个分组所包含的两棵树进行交叉处理,即分别在这两个棵树上选取一个相容节点,然后互换以相容节点为根节点的子树,从而得到两棵新的二叉解析树。两个节点称为相容节点,它们需要满足:1)运算符号相同,或者2)均为左叶子节点,或者3)均为右叶子节点。当所有q/2个分组处理完毕之后,得到q棵新的二叉解析树,并将它们取代BM中原先q棵旧的树,从而得到更新后的集合BM。步骤2.4:多元回归预测模型簇变异。从输入端获取变异率的取值h(0<h<1),并从步骤2.3更新的BM中选取棵二叉解析树。对于每棵被选取的二叉解析树进行变异处理,即执行如下4个变异操作中的任意一个操作:1)修改某一个左叶子节点所对应的自变量系数,2)修改某一个右叶子节点所对应的自变量次幂,3)删除以“×”号为根节点的子树,同时删除“×”号的父节点,4)删除以“+”号为根节点的子树,同时删除“+”号的父节点。当所有棵二叉解析树处理完毕之后,将它们取代BM中原先棵旧的树,从而得到更新后的集合BM。步骤2.5:多元回归预测模型簇评估。将步骤2.4得到集合BM中的每一棵二叉解析树转换成多元回归预测模型个体,并合并步骤2.1得到的OM,从而获得新的模型簇PM。从输入端获取数据样本集合对PM中的每个模型个体进行预测准确度评估,获取预测准确度最高的模型个体然后,从输入端获取预测准确度阈值γ(0<γ<1),如果的预测准确度达到γ,那么将返回给用户,否则转到步骤2.1,进行下一轮的迭代处理。本专利技术具有以下优点:1、本专利技术能够在多项式时间复杂度内获取最优的多元回归预测模型,从而具有较高的处理效率和较短的用户响应时间。2、本专利技术基于遗传编程策略来实施多元回归预测模型最优解的获取,从而避免陷入局部最优,因此具有较高的准确度。3、本专利技术分析、检测和挖掘不同长度、不同次幂的多元回归预测模型及其可能的组合,从而具有较强的泛化能力。附图说明图1本专利技术的技术框架图具体实施方式实施例在初始多元回归预测模型簇构造模块的步骤1.1(多元回归预测模型簇生成)中,影响因素个数w设置为20,即而模型个体的数量参数值m设定为100,即本专利技术顺序生成100个初始的多元回归预测模型个体每个模型个体生成的具体方式如下:1)产生一个[2,20]之间的随机数,并对该随机数取整数得到λ,并把λ赋值给自变量个数参数n[z],从而,可表示为2)对于每个自变量xi(1≤i≤λ),采取无放回的方式从中抽取一个影响因素从而,可表示为3)对于每个自变量系数参数a[z]i(1≤i≤λ),产生一个之间的随机数μi,并将μi赋值给a[z]i,从而,可进一步表示为4)对于每个自变量次幂参数r[z]i(1≤i≤λ),产生一个1~6之间的随机数,并对该随机数取整数得到σi,并将σi赋值给r[z]i,从而,最后可表示为经过上述的实施过程之后,本实施例将生成的100个多元回归预测模型个体组织成一个模型簇PM,即本文档来自技高网
...
基于遗传编程的多元回归预测模型优化方法

【技术保护点】
一种基于遗传编程的多元回归预测模型优化方法,其特征在于,包括初始多元回归预测模型簇构造和多元回归预测模型簇进化两个模块,所述初始多元回归预测模型簇构造模块,通过2个步骤来实现:步骤1.1:多元回归预测模型簇生成。从输入端获取所要预测问题的w个影响因素

【技术特征摘要】
1.一种基于遗传编程的多元回归预测模型优化方法,其特征在于,包括初始多元回归预测模型簇构造和多元回归预测模型簇进化两个模块,所述初始多元回归预测模型簇构造模块,通过2个步骤来实现:步骤1.1:多元回归预测模型簇生成。从输入端获取所要预测问题的w个影响因素以及模型个体数量参数值m(m为正整数),顺序产生m个多元回归预测模型个体分别表示为:其中y[z](1≤z≤m)为第z个模型个体的因变量,即该模型个体的预测值;n[z]为第z个模型个体的自变量个数,且n[z]≤w;a[z]i为第z个模型个体第i(1≤i≤n[z])个自变量的系数;r[z]i为第z个模型个体第i个自变量的次幂。每个模型个体中的自变量均取自且不重复。从而,这m个多元回归预测模型个体构成一个集合PM,即为多元回归预测模型簇。步骤1.2:簇内各模型个体参数优化。从输入端获取数据样本集合其中每个数据样本均由和两部分组成,为w个影响因素的取值,为实际预测值。然后,对于PM中的每一个模型个体基于Ψ,对中的n[z]个自变量系数a[z]1~a[z]n[z]进行迭代优化,并最终产生最优的多元回归预测模型个体。所述多元回归预测模型簇进化模块,通过5个步骤来实现:步骤2.1:多元回归预测模型簇选择。从输入端获取选择率的取值s(0<s<1)和数据样本集合计算模型簇PM中每个模型个体的预测准确度,并从中选取个预测准确度最高的模型个体,将它们组成集合OM,表示取上限整数,并从PM中删除OM中的模型个体。步骤2.2:多元回归预测模型簇解析。以步骤2.1中的模型簇PM为输入,对于其中的每一个模型个体将其转换成一棵二叉解析树BP[z]。BP[z]需要同时满足如下6个条件:1)任一个节点至多包含两个子节点,2)左叶子节点为自变量系数,3)右叶子节点为自变量及其次幂,4)叶子节点的父节点为乘法运算(即“×”号),5)其余节点为加法运算(即“+”号),6)右叶子节点关联中的一个...

【专利技术属性】
技术研发人员:黄震华
申请(专利权)人:同济大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1