本发明专利技术涉及一种高速铁路成网条件下旅客出行行为分析方法,包括:步骤1:获取地区经济数据和该地区的客票数据;步骤2:剔除客票数据中的不合理数据;步骤3:将地区经济数据和客票数据融合为一个数据集,并对该数据集进行预处理;步骤4:对数据集进行多次聚类,获得备选聚类子集;步骤5:对备选聚类子集进行聚类集成,获得最终的聚类结果;步骤6:根据最终筛选出的聚类结果完成对旅客出行行为的分析。与现有技术相比,本发明专利技术具有更具客观性、行为分析更加细化、实现速度更快等优点。
Analysis method and storage medium of passenger travel behavior under the condition of high-speed railway network
【技术实现步骤摘要】
高速铁路成网条件下旅客出行行为分析方法及存储介质
本专利技术涉及轨道交通
,尤其是涉及一种高速铁路成网条件下旅客出行行为分析方法。
技术介绍
传统的出行行为分析方法通常基于旅客行为选择模型得出,首先建立旅客出行离散选择模型,进而通过SP问卷调查推定模型中的参数,得出不同方式分配的比例。该方法对SP问卷调查的要求较高,需要保证调查者能够清楚的反映自己意愿,在问题和答案设计上也要保证相互独立性和没有明显的倾向性。因此,该方法具有一定的主观性,并受限于调查数据的可靠性,无法真实地反映客观存在的出行行为。客票数据是指通过12306网站或app以及高速铁路车站售票窗口所购买的车票信息,在铁路客票系统中以订单数据的形式保存。订单数据中包括订单发生的事件id、订购的车次、起讫点、座席类型、订购数量等字段信息,不直接提供旅客的个人属性。因此,客票数据无法应用于传统的出行行为分析方法中。综上,现阶段出行行为分析存在以下缺陷:1、传统的出行行为分析方法具有一定的主观性,并受限于调查数据的可靠性,无法真实地反映客观存在的出行行为。2、客票数据为旅客出行时产生的客观数据,但无法应用于传统的出行行为分析中。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种更具客观性、实现速度更快的高速铁路成网条件下旅客出行行为分析方法。本专利技术的目的可以通过以下技术方案来实现:一种高速铁路成网条件下旅客出行行为分析方法,该方法为一种内嵌在计算机中的程序,包括以下步骤:步骤1:获取地区经济数据和该地区的客票数据;步骤2:剔除客票数据中的不合理数据;步骤3:将地区经济数据和客票数据融合为一个数据集,并对该数据集进行预处理;步骤4:对数据集进行多次聚类,获得备选聚类子集;步骤5:对备选聚类子集进行聚类集成,获得最终的聚类结果;步骤6:根据步骤5获得的聚类结果完成对旅客出行行为的分析。优选地,所述步骤2中的不合理数据包括退票数据和下单未购票数据。优选地,所述步骤3中数据集预处理方法具体为:首先采用最大-最小规范化方法对原始数据进行规范化处理,然后采用Z-score方法对数据集进行标准化处理。优选地,所述步骤4的具体步骤为:步骤4-1:确定k-means聚类方法所使用的最优k值;步骤4-2:使用步骤4-1所确定的k值和随机初始聚类中心对数据集进行多次聚类,获得聚类子集。更加优选地,其特征在于,所述步骤4-1中最优k值采用轮廓系数法获取,具体为:使用枚举法列举k值,并计算在该k值下每个样本点的轮廓系数值和所有样本点的平均轮廓系数值,最大的平均轮廓系数值对应的k值即为最优k值;所述的轮廓系数的计算方法为:其中,是个体节点Xj的轮廓系数,ak,i为样本j到簇Ck中节点的平均距离,bk,i为样本j到簇Ck以外的簇中心的平均距离;所述的平均轮廓系数的计算方法为:优选地,所述步骤5中具体为:首先使用投票法获得聚类集成结果,然后使用平均标准化互信息对聚类集成结果进行检验。更加优选地,所述的平均标准化互信息的计算方法为:令为在第Yi个备选聚类子集中,属于簇C的节点集,设备选聚类子集Yi和Yk之间的交互信息为:其中,N为样本总数,备选聚类子集Yi的信息熵为:平均标准化互信息ANMI的计算方法为:其中,为此次聚类中聚类结果的集合。更加优选地,所述的的取值为[0,1],的值越大,聚类集成效果越好。一种存储介质,该存储介质存储有所述的分析方法的计算机程序。与现有技术相比,本专利技术具有以下优点:一、实现速度快:本专利技术中的旅客出行行为分析方法通过计算机实现,相较于传统的人为的实现方式,本专利技术中的分析方法实现旅客行为分析速度更快。二、更具客观性:本专利技术中的旅客出行行为分析方法考虑了旅客的客票信息,并且将客票信息与地区经济信息相关联,相较于传统的问卷调查方式,本专利技术对旅客的出行行为分析更具客观性。三、行为分析更加细化:本专利技术中的旅客出行行为分析方法使用基于投票法的聚类集成的方式进行分析,最终将旅客出行行为总结为工作型、休闲型、商务型、高端型和经济型五类,对旅客出行行为的划分更加细化,为铁路部门的运营和决策提供了数据基础。附图说明图1为本专利技术的流程示意图;图2为本专利技术实施例中从出行时间因素和地域因素分析的聚类结果图;图3为本专利技术实施例从出行时间因素和个人消费因素分析的聚类结果图;图4为本专利技术实施例从个人消费因素和地域因素分析的聚类结果图;图5为本专利技术实施例中五个聚类结果的购票提前期分布图;图6为本专利技术实施例中五个聚类结果的出行日期的分布图;图7为本专利技术实施例中五个聚类结果的发车时间的分布图;图8为本专利技术实施例中五个聚类结果的抵达时间的分布图;图9为本专利技术实施例中五个聚类结果的单位运价的分布图;图10为本专利技术实施例中五个聚类结果的售票模式选择的分布图;图11为本专利技术实施例中五个聚类结果的起讫点所在城市人均GDP的分布图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。本专利技术涉及一种高速铁路成网条件下旅客出行行为分析方法,该方法为一种内嵌在计算机中的程序,具体流程如图1所示,包括以下步骤:步骤1:获取地区经济数据和该地区的客票数据;步骤2:剔除客票数据中的不合理数据,不合理数据包括退票数据和下单未购票数据;步骤3:将地区经济数据和客票数据融合为一个数据集,并对该数据集进行预处理;具体融合方法为:根据客票数据中每个订单的起点和终点,将起点终点与地区经济数据相关联;对数据进行预处理的方法为:首先采用最大-最小规范化方法对原始数据进行规范化处理,然后采用Z-score方法对数据集进行标准化处理;归一化:要把需要处理的数据经过处理后限制在一定范围内。首先归一化是为了后面数据处理的方便,其次是保证不同字段按照相同的标准被处理。一般指将数据限制在[0,1]之间。本实施例采用最大-最小规范化对原始数据进行线性变换:其中,Xi,j为数据表第i行的第j项指标。标准化:对原始数据进行缩放处理,将其限制在一定的范围内,一般指正态化处理。即使数据不符合正态分布,也可以采用这种方法对数据进行标准化处理,标准化后的数据有正有负。本实施例采用Z-score规范化方法对数据集进行处理,即将数据集变为均值为0,方差为1的正态分布:其中,μj为第j项指标的平均值,σj为第j项指标本文档来自技高网...
【技术保护点】
1.一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,该方法为一种内嵌在计算机中的程序,所述的分析方法包括以下步骤:/n步骤1:获取地区经济数据和该地区的客票数据;/n步骤2:剔除客票数据中的不合理数据;/n步骤3:将地区经济数据和客票数据融合为一个数据集,并对该数据集进行预处理;/n步骤4:对数据集进行多次聚类,获得备选聚类子集;/n步骤5:对备选聚类子集进行聚类集成,获得最终的聚类结果;/n步骤6:根据步骤5获得的聚类结果完成对旅客出行行为的分析。/n
【技术特征摘要】
1.一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,该方法为一种内嵌在计算机中的程序,所述的分析方法包括以下步骤:
步骤1:获取地区经济数据和该地区的客票数据;
步骤2:剔除客票数据中的不合理数据;
步骤3:将地区经济数据和客票数据融合为一个数据集,并对该数据集进行预处理;
步骤4:对数据集进行多次聚类,获得备选聚类子集;
步骤5:对备选聚类子集进行聚类集成,获得最终的聚类结果;
步骤6:根据步骤5获得的聚类结果完成对旅客出行行为的分析。
2.根据权利要求1所述的一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,所述步骤2中的不合理数据包括退票数据和下单未购票数据。
3.根据权利要求1所述的一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,所述步骤3中数据集预处理方法具体为:
首先采用最大-最小规范化方法对原始数据进行规范化处理,然后采用Z-score方法对数据集进行标准化处理。
4.根据权利要求1所述的一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,所述步骤4的具体步骤为:
步骤4-1:确定k-means聚类方法所使用的最优k值;
步骤4-2:使用步骤4-1所确定的k值和随机初始聚类中心对数据集进行多次聚类,获得聚类子集。
5.根据权利要求4所述的一种高速铁路成网条件下旅客出行行为分析方法,其特征在于,所述步骤4-1中最优k值采用轮廓系数法获...
【专利技术属性】
技术研发人员:徐瑞华,朱炜,翟学皓,
申请(专利权)人:同济大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。