基于梯度提升决策树的出行生成预测方法、系统及装置制造方法及图纸

技术编号：25951800 阅读：17 留言：0更新日期：2020-10-17 03:44

本发明专利技术属于人口出行生成预测领域，具体涉及了一种基于梯度提升决策树的出行生成预测方法、系统及装置，旨在解决现有出行生成方法不能真实反映输入值和预测之间的非线性关系且模型检验计算量大、结果不直观的问题。本发明专利技术包括：提取待预测区域的各个交通小区的当前出行生成数据的自变量，并进行归一化处理；通过出行生成预测模型，获取待预测区域当前的各个交通小区的预测值；对预测值进行反归一化，获得待预测区域当前的各个交通小区的预测出行生成数据。本发明专利技术能够准确的反映原始输入和输出之间的非线性关系，并且使用平方误差原理寻找最小划分特征和划分点，自动忽略掉冗余的变量，省去了变量的手动筛选过程，具有较高的精度和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
基于梯度提升决策树的出行生成预测方法、系统及装置
本专利技术属于人口出行生成预测领域，具体涉及了一种基于梯度提升决策树的出行生成预测方法、系统及装置。
技术介绍
城市交通与城市土地利用间的互动关系决定了不同土地利用布局形态和强度会产生不同类型和强度的社会活动，从而决定不同区域的交通集散量和分布状况。相应地，交通系统功能效率的高低也直接影响周边地价、地租和人气，影响周边土地功能的实现充分与否。因此，在进行交通规划中需要深入研究城市土地利用与交通的相互关系，交通出行率是直观反映这种相互关系的重要指标之一。城市交通需求预测是城市交通规划的核心内容之一，是决定城市中交通网络规模、道路断面结构和枢纽规模等的重要依据。交通四阶段法以居民出行调查为基础，由出行生成(tripgeneration/attraction)、交通分布(tripdistribution)、交通方式划分(modelsplit)、交通量分配(trafficassignment)四个阶段组成。出行生成模型是单位时间内某一个交通小区的出行产生量等于家庭端点在这个分区的由家出行数，与起点在这个分区的非由家出行和货物出行的出行数之和。一次出行有两个端点：一端为产生端点；另一端为吸引端点。影响产生量的主要因素为人口规模及相关分类，如年龄结构、职业分类、收入水平、拥有交通工具情况等。传统的出行生成预测方法包括类型分析法、回归分析法、增长率法。类型分析方法预测出来的产生量其实没有包括非由家出行和货物出行这两部分，预测数据不全面；而增长率法结果较为粗糙。因此，...

【技术保护点】
1.一种基于梯度提升决策树的出行生成预测方法，其特征在于，该出行生成预测方法包括：/n步骤S10，提取待预测区域的各个交通小区的当前出行生成数据的自变量，并进行自变量的归一化处理，获得预处理数据；/n步骤S20，基于所述预处理数据，通过训练好的出行生成预测模型，获取待预测区域的各个交通小区当前的预测值；/n步骤S30，对所述预测值进行反归一化，获得待预测区域的各个交通小区当前的预测出行生成数据；/n其中，所述出行生成预测模型，为梯度提升决策树模型结构，以决策树作为基学习器，以模型中所有决策树输出之和作为模型的输出，以平方误差作为模型预测值与真实值之间的损失函数L，模型训练方法为：/n步骤B10，提取待预测区域的各个交通小区的历史出行生成数据的自变量和因变量，并进行归一化处理，根据预设的比例将归一化后的数据划分为训练集和测试集；/n步骤B20，基于训练集的各训练数据进行N轮出行生成预测模型训练，在第n轮训练中，在模型中新增第n棵决策树，基于损失函数L计算第n轮模型输出的误差负梯度值r

【技术特征摘要】
1.一种基于梯度提升决策树的出行生成预测方法，其特征在于，该出行生成预测方法包括：
步骤S10，提取待预测区域的各个交通小区的当前出行生成数据的自变量，并进行自变量的归一化处理，获得预处理数据；
步骤S20，基于所述预处理数据，通过训练好的出行生成预测模型，获取待预测区域的各个交通小区当前的预测值；
步骤S30，对所述预测值进行反归一化，获得待预测区域的各个交通小区当前的预测出行生成数据；
其中，所述出行生成预测模型，为梯度提升决策树模型结构，以决策树作为基学习器，以模型中所有决策树输出之和作为模型的输出，以平方误差作为模型预测值与真实值之间的损失函数L，模型训练方法为：
步骤B10，提取待预测区域的各个交通小区的历史出行生成数据的自变量和因变量，并进行归一化处理，根据预设的比例将归一化后的数据划分为训练集和测试集；
步骤B20，基于训练集的各训练数据进行N轮出行生成预测模型训练，在第n轮训练中，在模型中新增第n棵决策树，基于损失函数L计算第n轮模型输出的误差负梯度值r(n+1)i；1≤n≤N为当前模型训练的轮次；
步骤B30，在模型中新增第n+1棵决策树，将第n轮的误差负梯度值r(n+1)i作为标签，进行第n+1棵决策树的训练，直至N棵决策树训练完成；
步骤B40，基于测试集的各测试数据进行训练后的出行生成预测模型的性能测试，若测试结果不满足设定阈值，则增加训练轮次或调整基学习器决策树的结构并使用原训练集再次进行模型训练，直至测试结果满足设定阈值，获得训练好的出行生成预测模型。

2.根据权利要求1所述的基于梯度提升决策树的出行生成预测方法，其特征在于，所述待预测区域的各个交通小区的历史出行生成数据包括自变量和因变量；
所述自变量包括各个交通小区内有车和无车家庭数量和人口数量、有车和无车工作人员、学生、其他类型人员的数量、每类就业岗位的总人数；所述就业岗位包括工业、水利环境与公共设施、交通运输与邮政仓储、公共管理、教育、居民服务业、金融业、信息科技服务业、农林牧渔业；
所述因变量包括各个交通小区内有车、无车家庭基于家庭和非基于家庭的出行产生量。

3.根据权利要求2所述的基于梯度提升决策树的出行生成预测方法，其特征在于，步骤S10中“进行变量的归一化处理”，其方法为：

其中，和分别为归一化前的历史数据自变量Xi和因变量Yi的各维数据的最大值，xi和yi分别为归一化后的自变量和因变量，k为xi的维数，D为yi的维数。

4.根据权利要求1所述的基于梯度提升决策树的出行生成预测方法，其特征在于，对于所述训练集中第i个训练数据(xi，yi)，其损失值计算方法为：

其中，f(xi)和yi分别为出行生成预测模型输出的预测值和训练数据xi对应的真实值，D为f(xi)和yi的维数。

5.根据权利要求1所述的基于梯度提升决策树的出行生成预测方法，其特征在于，步骤B20中“基于损失函数L计算第n轮模型输出的误差负梯度值r(n+1)i”，其方法为：

其中，L(yi，fn(xi))代表第n轮训练中出行生成...

【专利技术属性】
技术研发人员：杜立群，刘斌，郑猛，张宇，吴丹婷，吕宜生，李志帅，
申请(专利权)人：北京市城市规划设计研究院，中国科学院自动化研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人