当前位置: 首页 > 专利查询>东南大学专利>正文

基于旅客出行多元数据分析的空铁联程中转地点确定方法技术

技术编号:23497971 阅读:51 留言:0更新日期:2020-03-13 13:06
本发明专利技术公开了一种基于旅客出行多元数据分析的空铁联程中转地点确定方法,该方法包括了分类预测模型多源数据采集、多元数据分类、旅客出行方式选择时最大影响因素的预测、空铁联程出行信息采集、出行方案排序及生成以及中转地点的确定六大步骤。本发明专利技术方法通过对旅客一年中的出行频率、旅客一年中出行的主要目的、旅客一年中一次出行的平均距离、旅客一年中一次出行的平均花费等数据的分类预测出不同旅客出行方式选择时影响最大的因素,为旅客的空铁联程出行提供最符合个人偏好的中转地点选择以及个性化的出行方案推荐。

A method to determine the transfer location of air rail transit based on the analysis of multiple data of passenger travel

【技术实现步骤摘要】
基于旅客出行多元数据分析的空铁联程中转地点确定方法
本专利技术涉及交通出行与数据挖掘领域,特别是涉及基于旅客出行多元数据分析的空铁联程中转地点确定方法。
技术介绍
随着我国高速铁路的快速发展,各条高铁线路的相继开通对于民航的分流产生了一定的影响,尤其是中短途的出行,高铁凭借其网络可达性以及准时性使其具有较大的竞争优势,航空公司因此减少或是修改了许多中短途出行的线路。但是,对于中长距离的出行,民航的优势有了明显的提升,对于长距离的出行,高铁对于航空几乎造不成影响。然而,高铁与民航之间并非只存在着竞争的关系。面对着与高铁的激烈竞争,航空公司除了调整既有线路之外,还可以考虑与高铁进行合作;除此之外,对于那些飞机无法直达的城市,旅客还需通过空铁联程的形式进行出行。因此,“空铁联程”为航空与高铁带来了合作的机会,为旅客的出行提供了除了高铁直达或航空直达外的新的出行方案。对于国内高铁城际出行网络较为发达的京津冀、长三角、珠三角地区,可以优先考虑空铁联程方案的实行。由于以上三个地区的高铁网络较为发达,因此对于空铁联程中转站可以有很多地点的选择。不同地点的选择会造成旅客空铁联程出行中的航空和高铁的在途时间以及票价的不同;同时不同地点的联程方案也会带来航空和高铁的到发时刻表的衔接有所差异。这些不同与差异针对旅客个人出行属性的差异会造成不同乘客同一次空铁联程出行中选择的中转换乘地点有所不同,因此对于旅客出行的推荐方案也就不尽相同。在目前的旅客空铁联程出行中,存在着一些可以提升的地方:1)运营商只是为旅客的出行提供了最简单的飞机与高铁的衔接,对于不同的旅客提供的都是同样的联程出行方案,并未考虑到不同旅客之间的个体差异和选择偏好的不同;2)目前空铁联程出行的中转地点选择大多单一固定,可供中转选择的城市很少,因此所能提供给旅客出行的选择方案数量并不理想。
技术实现思路
为了解决上述存在的问题,本专利技术提供基于旅客出行多元数据分析的空铁联程中转地点确定方法,为解决传统空铁联程出行方案中未考虑旅客个人选择和偏好的差异,且可供中转的地点较为单一的实际问题,专利技术目的在于提供一种基于多元数据分析的空铁联程用户中转地点确定方法,通过对旅客一年中的出行频率、旅客一年中出行的主要目的、旅客一年中一次出行的平均距离、旅客一年中一次出行的平均花费、旅客出行方式选择时影响最大的因素等多源数据的采集、分类,预测出不同旅客在旅客出行方式选择时影响最大的因素,并基于航班和高铁的信息数据,对不同的旅客匹配筛选出符合旅客个人选择偏好的出行方案,确定空铁联程的中转地点,为达此目的,本专利技术提供基于旅客出行多元数据分析的空铁联程中转地点确定方法,该方法包括如下步骤:(1)分类预测模型多源数据采集,包括:采集N名旅客的多元数据,用于分类预测模型的构建,所述第i名旅客的多源数据Xi,i=1,2,3…,N包括旅客一年中的出行频率Ai、旅客一年中出行的主要目的Bi、旅客一年中一次出行的平均距离Ci、旅客一年中一次出行的平均花费Di、旅客出行方式选择时影响最大的因素Ei;所述第i名旅客一年中的出行频率Ai的取值范围是1至5的五个自然数,其中Ai=1表示出行频率小于3次,Ai=2表示出行频率3-6次,Ai=3表示出行频率7-10次,Ai=4表示出行频率11-14次,Ai=5表示出行频率15次以上;所述旅客一年中出行的主要目的Bi的取值范围是1至5的五个自然数,其中Bi=1表示出行目的为公务出行,Bi=2表示出行目的为探亲访友,Bi=3表示出行目的为回家,Bi=4表示出行目的为旅游,Bi=5表示出行目的为上学;所述旅客一年中一次出行的平均距离Ci的取值范围是1至4的四个自然数,其中Ci=1表示平均出行距离小于500公里,Ci=2表示平均出行距离500-1000公里,Ci=3表示平均出行距离1000-1500公里,Ci=4表示平均出行距离大于1500公里;所述旅客一年中一次出行的平均花费Di的取值范围是1至4的四个自然数,其中Di=1表示平均花费小于500元,Di=2表示平均花费500-800元,Di=3表示平均花费800-1100元,Di=4表示平均花费大于1100元;所述旅客出行方式选择时影响最大的因素Ei的取值范围是集合{F,T,S}中的一个元素,其中Ei=F表示因素为出行费用的高低,Ei=T表示因素为出行时间的长短,Ei=S表示因素为出发时刻表;(2)多元数据分类,包括:创建分类模型,将所述步骤(1)中的N名旅客多源数据Xi,i=1,2,3…,N划分成训练旅客数据和检验旅客数据两类,训练旅客数据的个数为N1,其取值是N1=0.8×N取整后的数值,检验旅客数据的个数为N2,其取值是N2=N-N1;对于任意一个训练旅客数据utrain=1,2,3,4,…,N1包含旅客一年中的出行频率为一年中出行的主要目的为一年中一次出行的平均距离为一年中一次出行的平均花费为出行方式选择时影响最大的因素为对于任意一个检验旅客数据vtest=1,2,3,4,…,N2包含旅客一年中的出行频率为一年中出行的主要目的为一年中一次出行的平均距离为一年中一次出行的平均花费为出行方式选择时影响最大的因素为采用KNN算法对数据进行分类,将旅客的一年中的出行频率Ai、旅客一年中出行的主要目的Bi、旅客一年中一次出行的平均距离Ci、旅客一年中一次出行的平均花费Di这四项作为模型的自变量,分别以向量的形式表示;将旅客出行方式选择时影响最大的因素Ei作为模型的因变量,以向量的形式表示,通过寻找因变量与自变量的关系从而构建分类模型,寻找过程包括:首先进行外部循环,设定一个数值K,K的初始值为1,进行下一次外部循环时K的数值增加1,K的上限为对每一个检验旅客数据vtest=1,2,3,4,…,N2进行内部的嵌套循环,内部循环中依次计算检验数据与所有的训练数据之间的距离d,按照距离d的递增关系进行排序,找出与该检验数据距离d最小的K个训练数据,确定K个数据中各个因变量E的出现次数,将出现次数最高的因变量E作为检验数据的分类,从而找到;对于所有的检验数据判断分类模型预测得到的旅客因变量E与该名旅客实际出行方式选择时影响最大的因素E是否一致,一致的因变量个数记为M,准确率若准确率δ高于90%,,则认为分类效果较好,跳出内部循环和外部循环,整个循环结束,输出此时的K的数值;若测试的准确率δ低于90%时,则认为分类效果不理想,跳出内部循环进行下一次的外部循环,直至准确率δ高于90%为止;循环结束后,将输出的K值作为KNN算法用于分类类别预测的K值,对于任意一个新的数据,输入其四个自变量A、B、C、D的数值,计算其与各个训练数据之间的距离d,按照距离d的递增关系进行排序,找出距离d最小的K个训练数据确定K个数据中各个因变量E的出现次数,将出现次数最高的因变量E作为该新数据的预测分类值;(3)旅客出行方式选择时最大影响因素的预测,包括:对于任意一名需要分类预测的旅客L,获得其历史信息中一年中的出行频率Al、旅客一年中出行的主要目的Bl、旅客一年中一次出行的平均距离Cl、旅客一年中一本文档来自技高网
...

【技术保护点】
1.基于旅客出行多元数据分析的空铁联程中转地点确定方法,其特征在于,该方法包括如下步骤:/n(1)分类预测模型多源数据采集,包括:采集N名旅客的多元数据,用于分类预测模型的构建,所述第i名旅客的多源数据X

【技术特征摘要】
1.基于旅客出行多元数据分析的空铁联程中转地点确定方法,其特征在于,该方法包括如下步骤:
(1)分类预测模型多源数据采集,包括:采集N名旅客的多元数据,用于分类预测模型的构建,所述第i名旅客的多源数据Xi,i=1,2,3…,N包括旅客一年中的出行频率Ai、旅客一年中出行的主要目的Bi、旅客一年中一次出行的平均距离Ci、旅客一年中一次出行的平均花费Di、旅客出行方式选择时影响最大的因素Ei;所述第i名旅客一年中的出行频率Ai的取值范围是1至5的五个自然数,其中Ai=1表示出行频率小于3次,Ai=2表示出行频率3-6次,Ai=3表示出行频率7-10次,Ai=4表示出行频率11-14次,Ai=5表示出行频率15次以上;所述旅客一年中出行的主要目的Bi的取值范围是1至5的五个自然数,其中Bi=1表示出行目的为公务出行,Bi=2表示出行目的为探亲访友,Bi=3表示出行目的为回家,Bi=4表示出行目的为旅游,Bi=5表示出行目的为上学;所述旅客一年中一次出行的平均距离Ci的取值范围是1至4的四个自然数,其中Ci=1表示平均出行距离小于500公里,Ci=2表示平均出行距离500-1000公里,Ci=3表示平均出行距离1000-1500公里,Ci=4表示平均出行距离大于1500公里;所述旅客一年中一次出行的平均花费Di的取值范围是1至4的四个自然数,其中Di=1表示平均花费小于500元,Di=2表示平均花费500-800元,Di=3表示平均花费800-1100元,Di=4表示平均花费大于1100元;所述旅客出行方式选择时影响最大的因素Ei的取值范围是集合{F,T,S}中的一个元素,其中Ei=F表示因素为出行费用的高低,Ei=T表示因素为出行时间的长短,Ei=S表示因素为出发时刻表;
(2)多元数据分类,包括:创建分类模型,将所述步骤(1)中的N名旅客多源数据Xi,i=1,2,3…,N划分成训练旅客数据和检验旅客数据两类,训练旅客数据的个数为N1,其取值是N1=0.8×N取整后的数值,检验旅客数据的个数为N2,其取值是N2=N-N1;对于任意一个训练旅客数据utrain=1,2,3,4,…,N1包含旅客一年中的出行频率为一年中出行的主要目的为一年中一次出行的平均距离为一年中一次出行的平均花费为出行方式选择时影响最大的因素为对于任意一个检验旅客数据vtest=1,2,3,4,…,N2包含旅客一年中的出行频率为一年中出行的主要目的为一年中一次出行的平均距离为一年中一次出行的平均花费为出行方式选择时影响最大的因素为
采用KNN算法对数据进行分类,将旅客的一年中的出行频率Ai、旅客一年中出行的主要目的Bi、旅客一年中一次出行的平均距离Ci、旅客一年中一次出行的平均花费Di这四项作为模型的自变量,分别以向量的形式表示;将旅客出行方式选择时影响最大的因素Ei作为模型的因变量,以向量的形式表示,通过寻找因变量与自变量的关系从而构建分类模型,寻找过程包括:
首先进行外部循环,设定一个数值K,K的初始值为1,进行下一次外部循环时K的数值增加1,K的上限为对每一个检验旅客数据vtest=1,2,3,4,…,N2进行内部的嵌套循环,内部循环中依次计算检验数据与所有的训练数据之间的距离d,



按照距离d的递...

【专利技术属性】
技术研发人员:王哲源杨敏华雪东杨桂新徐铖铖李大韦
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1