一种基于概率统计的旅行时间筛选方法技术

技术编号:5193614 阅读:278 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种基于概率统计的旅行时间筛选方法,乘客旅行时间原数据的筛选方法主要包括以下两层筛选:(1)筛选极端异常数据。将不符合旅行时间分布的计算异常数据筛除,如由于系统错误,乘客的旅行时间小于列车的运行时间,这显然是极端异常数据;由于乘客的特殊旅行目的,如统计客流的工作人员等的旅行时间长达几个小时甚至十几个小时,这也是极端异常数据。应该将这些极端异常数据筛除。(2)筛选统计异常数据。为了工程、理论的需要,在对乘客旅行时间海量数据分析时需要使乘客旅行时间的分布呈现有数学规律的统计分布,需要筛选部分偏离正态分布的数据。

【技术实现步骤摘要】

本专利技术一种旅行时间筛选方法,特别是基于概率统计的旅行时间筛选方法。在轨道交通方面,统计轨道交通乘客在两站之间的旅行时间对解决乘客旅行时间 海量数据分析有重要的影响。因此,对已有的原数据的处理方法非常重要。虽然绝大多数 数据符合旅行时间分布,但是乘客的旅行时间范围分布很广(从几秒到几万秒都存在),有 一些由于乘客滞留地铁或系统错误等原因出现异常的数据。异常数据主要包括两种极端异常数据由于系统错误或乘客的特殊行为(如在地铁站统计客流、等待同 伴等情况)造成的极端异常旅行时间导致旅行时间过长或过短。统计异常数据由于少部分乘客在地铁站等人、观看壁画、寻路等情况使得他们的 旅行时间不符合乘客旅行时间的正常分布。这些数据对于分析乘客旅行时间频率分布有比较大的影响,使得数据在解决乘客 旅行时间海量数据分析时不具有较强的统计意义,因此有必要对原数据进行筛选以使数据 更加符合工程要求。本专利技术的目的是提供,以对已有的原数据 进行更准确地筛选,为乘客旅行时间海量数据分析的解决提供准确的旅客旅行时间。为实现上述目的,本专利技术提出了,其特征 在于,包括筛选极端异常数据和筛选统计异常数据,其中,(1)筛选极端异常数据是将实际旅行时间小于Tmin和大于Tmax的客流数据删除;(2)筛选统计异常数据是筛选偏离乘客旅行时间的正态分布的数据,其过滤规则为给定原始客流数据的旅行时间为^{^f),^),…,,—( ) 1( )ι)设迭代次数k = 0,计算初始样本均值Y ) =—Σι·-ιχ ,和样本标准差02)对Vjc,G x(k), i = 1,2,…,nk,如果~x(k) |<3.9 w ,则删除数据 xp);否则,将其保留;3)得到第k+i次过滤后的样本广+1)丨/二1,2,.·., +1},并重新计算样本均值=Iu^1Xp+1)和样本标准差nk+\
技术介绍

技术实现思路
34)令 表示在客流数据集x(k+1)中,旅行区间属于区间 C(k+l) ={-3.9sik+l) +x(k+l\3.9s(k+l) +3c(^+1)]范围内的个数,当满足本文档来自技高网
...

【技术保护点】

【技术特征摘要】
一种基于概率统计的旅行时间筛选方法,其特征在于,包括筛选极端异常数据和筛选统计异常数据,其中,(1)筛选极端异常数据是将实际旅行时间小于Tmin和大于Tmax的客流数据删除;(2)筛选统计异常数据是筛选偏离乘客旅行时间的正态分布的数据,其过滤规则为给定原始客流数据的旅行时间为1)设迭代次数k=0,计算初始样本均值和样本标准差2)对i=1,2,…,nk,如果则删除数据;否则,将其保留;其中,η是3)得到第k+1次过滤后的样本并重新计算样本均值和样本标准差4)令表示在客流数据集x(k+1)中,旅行区间属于区间范围内的个数,当满足停止迭代;否则,令k=k+1,并跳转到第2)步。FSA000...

【专利技术属性】
技术研发人员:冷彪张琪徐州川熊璋
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1