一种客流数据缺失填补的方法技术

技术编号:23766943 阅读:62 留言:0更新日期:2020-04-11 20:20
本发明专利技术提供的客流数据缺失填补的方法,包括以下步骤:S1:获取原始数据集,若无缺失,则退出;S2:遍历数据集,判断缺失值的位置,更新当前连续缺失索引列表;S3:判断当前位置缺失列表长度,若不满足阈值ΔL,则跳到S5;S4:构建加权移动平均模型,对小比例缺失值填补,进入S6;S5:构建随机森林回归模型,对大比例缺失值填补;S6:若遍历完成则输出数据;否则更新数据集,返回S2。本发明专利技术采用一种更加符合时序数据的方法,尤其考虑数据在时间上的连续关系,做出更合理的填补,能够降低相应的填补误差。

A method to fill the missing passenger flow data

【技术实现步骤摘要】
一种客流数据缺失填补的方法
本专利技术移动通信、数据处理领域,更具体地,涉及一种客流数据缺失填补的方法。
技术介绍
客流数据作为一种典型的时间序列数据,来源广泛,使用价值高。在当下的很多数据库应用中,由于在录入、存储、传输等环节中,经常会出现数据缺失的情况。数据质量的重要性是不言而喻的,而数据缺失问题会丢失大量信息,对后续挖掘分析造成很大的影响。现有的数据填补方法少有考虑时间上的连续变化性,因此会造成很大的误差。并且现有方法没有考虑缺失值比例的影响,基本都采用一种方法做填补。对小比例的缺失填补,影响工作效率,对大比例的缺失填补,会影响准确度。
技术实现思路
为了解决现有技术中数据填补方法并无同时考虑时间上连续变化性和考虑时间上的连续变化性的问题,本专利技术提供了一种客流数据缺失填补的方法。为解决上述技术问题,本专利技术的技术方案如下:一种客流数据缺失填补的方法,包括以下步骤:S1:获取原始数据集,判断数据集中是否存在数据缺失,若无缺失,则退出;S2:遍历数据集,判断缺失值的位置,更新当本文档来自技高网...

【技术保护点】
1.一种客流数据缺失填补的方法,其特征在于,包括以下步骤:/nS1:获取原始数据集,判断数据集中是否存在数据缺失,若无缺失,则退出;/nS2:遍历数据集,判断缺失值的位置,更新当前连续缺失索引列表;/nS3:判断当前位置缺失列表长度,若不满足阈值ΔL,则跳到S5;/nS4:构建加权移动平均模型,对小比例缺失值填补,进入S6;/nS5:构建随机森林回归模型,对大比例缺失值填补;/nS51:对数据集做预处理,构建相应的特征,组成训练样本;/nS52:构建缺失填补模型,并训练模型;/nS53:利用S52所得模型填补大比例缺失值;/nS6:若遍历完成则输出数据;否则更新数据集,返回S2。/n

【技术特征摘要】
1.一种客流数据缺失填补的方法,其特征在于,包括以下步骤:
S1:获取原始数据集,判断数据集中是否存在数据缺失,若无缺失,则退出;
S2:遍历数据集,判断缺失值的位置,更新当前连续缺失索引列表;
S3:判断当前位置缺失列表长度,若不满足阈值ΔL,则跳到S5;
S4:构建加权移动平均模型,对小比例缺失值填补,进入S6;
S5:构建随机森林回归模型,对大比例缺失值填补;
S51:对数据集做预处理,构建相应的特征,组成训练样本;
S52:构建缺失填补模型,并训练模型;
S53:利用S52所得模型填补大比例缺失值;
S6:若遍历完成则输出数据;否则更新数据集,返回S2。


2.根据权利要求1所述的客流数据缺失填补的方法,其特征在于,所述的原始数据集为某地的客流统计数据集。


3.根据权利要求1所述的客流数据缺失填补的方法,其特征在于,所述的S2的具体步骤如下:从头开始遍历数据,当遇到缺失值时,将此缺失的索引添加到缺失列表中;若为连续缺失,则把连续缺失值的索引都添加到列表中。


4.根据权利要求3所述的客流数据缺失填补的方法,其特征在于,所述的S3的具体步骤如下:
S31:计算当前位置缺失对应的缺失列表长度为L;
S32:判断长度L,与阈值ΔL的关系;
若L≤ΔL,则表示此段缺失较短,继续下一步操作,采用加权移动平均的方法填补;若L>ΔL,则表示此段缺失较长,跳过S4,进行S5。


5.根据权利要求1所述的一种客流数据缺失填补的方法,其特征在于,所述的S4的具体步骤如下:
S41:构建加权移动平均模型:
Ft=w1xt-1+w2xt-2+w3xt-3+…+wnxt-n
其中,Ft为第t时刻的客流修正值,xt-n为t时刻前n时刻的客流值,其中n为滑动窗口大小,wn为t时刻前n时刻的客流值的对应权重,w1+w2+…+wn=1;
S42:确定滑动窗口n的大小,滑动窗口n的大小,直接体现t时刻客流数据受到前n时刻数据的影响,n的选择依据客流数据的粒度大小;
S43:确定权重w的大小,权重w的长度与滑动窗口大小n是一致的;而权重w=(w1,w2,…,wn),则依据靠近目标时刻越近权重越大的原则,且w1+w2+…+wn=1;
S44:将加权移动平均模型预测的缺失区间的预测值,填补进缺失区间。


6.根据权利要求5所述的客流数据缺失填补的方法,其特征在于,所述的S51的具体步骤如下:
S511:数据预处理,构建相应的特征;其中客流数据的信息特征主要分为两部分,基于统计分布和基于时间关系的特征;其中基于统计分布的特征的处理方法为,将客流数据向前做平移变换;基于时间关系的特征包括每分钟客流均值、每小时客流均值、每天客流均值、每月客流均值、是否工作日,是否节假日;
S512:进行数据规范化处理;其中基于统计的平移变换特...

【专利技术属性】
技术研发人员:陈曦蓝志坚李海燕
申请(专利权)人:广州丰石科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1