基于梯度提升决策树的出行生成预测方法、系统及装置制造方法及图纸

技术编号:25951800 阅读:17 留言:0更新日期:2020-10-17 03:44
本发明专利技术属于人口出行生成预测领域,具体涉及了一种基于梯度提升决策树的出行生成预测方法、系统及装置,旨在解决现有出行生成方法不能真实反映输入值和预测之间的非线性关系且模型检验计算量大、结果不直观的问题。本发明专利技术包括:提取待预测区域的各个交通小区的当前出行生成数据的自变量,并进行归一化处理;通过出行生成预测模型,获取待预测区域当前的各个交通小区的预测值;对预测值进行反归一化,获得待预测区域当前的各个交通小区的预测出行生成数据。本发明专利技术能够准确的反映原始输入和输出之间的非线性关系,并且使用平方误差原理寻找最小划分特征和划分点,自动忽略掉冗余的变量,省去了变量的手动筛选过程,具有较高的精度和鲁棒性。

【技术实现步骤摘要】
基于梯度提升决策树的出行生成预测方法、系统及装置
本专利技术属于人口出行生成预测领域,具体涉及了一种基于梯度提升决策树的出行生成预测方法、系统及装置。
技术介绍
城市交通与城市土地利用间的互动关系决定了不同土地利用布局形态和强度会产生不同类型和强度的社会活动,从而决定不同区域的交通集散量和分布状况。相应地,交通系统功能效率的高低也直接影响周边地价、地租和人气,影响周边土地功能的实现充分与否。因此,在进行交通规划中需要深入研究城市土地利用与交通的相互关系,交通出行率是直观反映这种相互关系的重要指标之一。城市交通需求预测是城市交通规划的核心内容之一,是决定城市中交通网络规模、道路断面结构和枢纽规模等的重要依据。交通四阶段法以居民出行调查为基础,由出行生成(tripgeneration/attraction)、交通分布(tripdistribution)、交通方式划分(modelsplit)、交通量分配(trafficassignment)四个阶段组成。出行生成模型是单位时间内某一个交通小区的出行产生量等于家庭端点在这个分区的由家出行数,与起点在这个分区的非由家出行和货物出行的出行数之和。一次出行有两个端点:一端为产生端点;另一端为吸引端点。影响产生量的主要因素为人口规模及相关分类,如年龄结构、职业分类、收入水平、拥有交通工具情况等。传统的出行生成预测方法包括类型分析法、回归分析法、增长率法。类型分析方法预测出来的产生量其实没有包括非由家出行和货物出行这两部分,预测数据不全面;而增长率法结果较为粗糙。因此,目前实际工程应用最多的是多元回归分析法,但是该方法默认了输入值与预测之间的线性关系,并不能真实反映二者之间的非线性影响及输入间的耦合关系,且需要对预测模型进行统计性检验(显著性、相关性),计算量大,结果不够直观。
技术实现思路
为了解决现有技术中的上述问题,即现有出行生成方法不能真实反映输入值和预测之间的非线性关系且模型检验计算量大、结果不直观的问题,本专利技术提供了一种基于梯度提升决策树的出行生成预测方法,该出行生成预测方法包括:步骤S10,提取待预测区域的各个交通小区的当前出行生成数据的自变量,并进行自变量的归一化处理,获得预处理数据;步骤S20,基于所述预处理数据,通过训练好的出行生成预测模型,获取待预测区域的各个交通小区当前的预测值;步骤S30,对所述预测值进行反归一化,获得待预测区域的各个交通小区当前的预测出行生成数据;其中,所述出行生成预测模型,为梯度提升决策树模型结构,以决策树作为基学习器,以模型中所有决策树输出之和作为模型的输出,以平方误差作为模型预测值与真实值之间的损失函数L,模型训练方法为:步骤B10,提取待预测区域的各个交通小区的历史出行生成数据的自变量和因变量,并进行归一化处理,根据预设的比例将归一化后的数据划分为训练集和测试集;步骤B20,基于训练集的各训练数据进行N轮出行生成预测模型训练,在第n轮训练中,在模型中新增第n棵决策树,基于损失函数L计算第n轮模型输出的误差负梯度值r(n+1)i;1≤n≤N为当前模型训练的轮次;步骤B30,在模型中新增第n+1棵决策树,将第n轮的误差负梯度值r(n+1)i作为标签,进行第n+1棵决策树的训练,直至N棵决策树训练完成;步骤B40,基于测试集的各测试数据进行训练后的出行生成预测模型的性能测试,若测试结果不满足设定阈值,则增加训练轮次或调整基学习器决策树的结构并使用原训练集再次进行模型训练,直至测试结果满足设定阈值,获得训练好的出行生成预测模型。在一些优选的实施例中,所述待预测区域的各个交通小区的历史出行生成数据包括自变量和因变量;所述自变量包括各个交通小区内有车和无车家庭数量和人口数量、有车和无车工作人员、学生、其他类型人员的数量、每类就业岗位的总人数;所述就业岗位包括工业、水利环境与公共设施、交通运输与邮政仓储、公共管理、教育、居民服务业、金融业、信息科技服务业、农林牧渔业;所述因变量包括各个交通小区内有车、无车家庭基于家庭和非基于家庭的出行产生量。在一些优选的实施例中,步骤S10中“进行变量的归一化处理”,其方法为:其中,和分别为归一化前历史数据的自变量Xi和因变量Yi的各维数据的最大值,xi和yi分别为归一化后的自变量和因变量,k为xi的维数,D为yi的维数。在一些优选的实施例中,对于所述训练集中第i个训练数据(xi,yi),其损失值计算方法为:其中,f(xi)和yi分别为出行生成预测模型输出的预测值和训练数据xi对应的真实值,D为f(xi)和yi的维数。在一些优选的实施例中,步骤B20中“基于损失函数L计算第n轮模型输出的误差负梯度值r(n+1)i”,其方法为:其中,L(yi,fn(xi))代表第n轮训练中出行生成预测模型输出的预测值fn(xi)与对应的真实值yi之间的损失值,m为训练集中训练数据的数量,代表求损失值L(yi,fn(xi))关于预测值fn(xi)的偏导;其中,T(xi,Θn)为代表模型第n棵决策树输出的预测值,Θn为模型第n轮训练的第n棵决策树的参数。在一些优选的实施例中,步骤B30中“在模型中新增第n+1棵决策树,将第n轮的误差负梯度值r(n+1)i作为标签,进行第n+1棵决策树的训练”,其方法为:其中,Θn+1为模型第n+1轮训练时第n+1棵决策树的参数,r(n+1)i为第n轮模型输出的误差负梯度值,Lb(r(n+1)i,T(xi,Θn+1))代表模型第n+1轮训练的第n+1棵决策树输出的预测值T(xi,Θn+1)与对应的误差负梯度值r(n+1)i真之间的损失值,m为训练集中训练数据的数量;其中,Lb为基学习器的损失函数,D为模型第n+1轮训练时负梯度r(n+1)i和第n+1棵决策树输出的预测值T(xi,Θn+1)的维数。在一些优选的实施例中,步骤B40中“基于测试集的各测试数据进行训练后的出行生成预测模型的性能测试”,其方法为:步骤C10,将测试集的各测试数据中的自变量输入训练好的出行生成预测模型,获取出行生成预测模型输出的预测值;步骤C20,计算所述预测值与自变量对应的因变量之间的R2值、均方根误差和平均绝对误差;步骤C30,若所述R2值接近1且所述均方根误差和平均绝对误差小于设定阈值,则所述出行生成预测模型性能满足要求;否则,增加训练轮次或调整基学习器决策树的结构并使用原训练集再次进行模型训练。本专利技术的另一方面,提出了一种基于梯度提升决策树的出行生成预测系统,基于上述的基于梯度提升决策树的出行生成预测方法,该出行生成预测系统包括输入模块、预处理模块、预测模块、反归一化模块和输出模块;所述输入模块,配置为获取待预测区域的各个交通小区的当前出行生成数据并输入;所述预处理模块,配置为提取所述待预测区域的各个交通小区的当前出行生成数据的自变量,并进行自变量的本文档来自技高网
...

【技术保护点】
1.一种基于梯度提升决策树的出行生成预测方法,其特征在于,该出行生成预测方法包括:/n步骤S10,提取待预测区域的各个交通小区的当前出行生成数据的自变量,并进行自变量的归一化处理,获得预处理数据;/n步骤S20,基于所述预处理数据,通过训练好的出行生成预测模型,获取待预测区域的各个交通小区当前的预测值;/n步骤S30,对所述预测值进行反归一化,获得待预测区域的各个交通小区当前的预测出行生成数据;/n其中,所述出行生成预测模型,为梯度提升决策树模型结构,以决策树作为基学习器,以模型中所有决策树输出之和作为模型的输出,以平方误差作为模型预测值与真实值之间的损失函数L,模型训练方法为:/n步骤B10,提取待预测区域的各个交通小区的历史出行生成数据的自变量和因变量,并进行归一化处理,根据预设的比例将归一化后的数据划分为训练集和测试集;/n步骤B20,基于训练集的各训练数据进行N轮出行生成预测模型训练,在第n轮训练中,在模型中新增第n棵决策树,基于损失函数L计算第n轮模型输出的误差负梯度值r

【技术特征摘要】
1.一种基于梯度提升决策树的出行生成预测方法,其特征在于,该出行生成预测方法包括:
步骤S10,提取待预测区域的各个交通小区的当前出行生成数据的自变量,并进行自变量的归一化处理,获得预处理数据;
步骤S20,基于所述预处理数据,通过训练好的出行生成预测模型,获取待预测区域的各个交通小区当前的预测值;
步骤S30,对所述预测值进行反归一化,获得待预测区域的各个交通小区当前的预测出行生成数据;
其中,所述出行生成预测模型,为梯度提升决策树模型结构,以决策树作为基学习器,以模型中所有决策树输出之和作为模型的输出,以平方误差作为模型预测值与真实值之间的损失函数L,模型训练方法为:
步骤B10,提取待预测区域的各个交通小区的历史出行生成数据的自变量和因变量,并进行归一化处理,根据预设的比例将归一化后的数据划分为训练集和测试集;
步骤B20,基于训练集的各训练数据进行N轮出行生成预测模型训练,在第n轮训练中,在模型中新增第n棵决策树,基于损失函数L计算第n轮模型输出的误差负梯度值r(n+1)i;1≤n≤N为当前模型训练的轮次;
步骤B30,在模型中新增第n+1棵决策树,将第n轮的误差负梯度值r(n+1)i作为标签,进行第n+1棵决策树的训练,直至N棵决策树训练完成;
步骤B40,基于测试集的各测试数据进行训练后的出行生成预测模型的性能测试,若测试结果不满足设定阈值,则增加训练轮次或调整基学习器决策树的结构并使用原训练集再次进行模型训练,直至测试结果满足设定阈值,获得训练好的出行生成预测模型。


2.根据权利要求1所述的基于梯度提升决策树的出行生成预测方法,其特征在于,所述待预测区域的各个交通小区的历史出行生成数据包括自变量和因变量;
所述自变量包括各个交通小区内有车和无车家庭数量和人口数量、有车和无车工作人员、学生、其他类型人员的数量、每类就业岗位的总人数;所述就业岗位包括工业、水利环境与公共设施、交通运输与邮政仓储、公共管理、教育、居民服务业、金融业、信息科技服务业、农林牧渔业;
所述因变量包括各个交通小区内有车、无车家庭基于家庭和非基于家庭的出行产生量。


3.根据权利要求2所述的基于梯度提升决策树的出行生成预测方法,其特征在于,步骤S10中“进行变量的归一化处理”,其方法为:






其中,和分别为归一化前的历史数据自变量Xi和因变量Yi的各维数据的最大值,xi和yi分别为归一化后的自变量和因变量,k为xi的维数,D为yi的维数。


4.根据权利要求1所述的基于梯度提升决策树的出行生成预测方法,其特征在于,对于所述训练集中第i个训练数据(xi,yi),其损失值计算方法为:



其中,f(xi)和yi分别为出行生成预测模型输出的预测值和训练数据xi对应的真实值,D为f(xi)和yi的维数。


5.根据权利要求1所述的基于梯度提升决策树的出行生成预测方法,其特征在于,步骤B20中“基于损失函数L计算第n轮模型输出的误差负梯度值r(n+1)i”,其方法为:



其中,L(yi,fn(xi))代表第n轮训练中出行生成...

【专利技术属性】
技术研发人员:杜立群刘斌郑猛张宇吴丹婷吕宜生李志帅
申请(专利权)人:北京市城市规划设计研究院中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1