面向人流密集型公共场所的公卫消耗品使用量预测方法技术

技术编号:32832542 阅读:20 留言:0更新日期:2022-03-26 20:47
一种面向人流密集型公共场所的公卫消耗品使用量预测方法,通过将公共卫生场所的相关历史数据制成训练样本后,输入到采用Bagging策略的随机森林方法中,通过对多个基学习器进行组合并调整随机森林参数使准确率达标后,输出模型;再将实时采集到的人流量、环境监测数据输入到上述模型内以得到未来一段时间的公卫设施消耗品使用量预测值。本发明专利技术通过机器学习得到公卫设施消耗品使用量与人流量、环境因子多变量之间的非线性关系,实现对公卫设施消耗品使用量的预测。耗品使用量的预测。耗品使用量的预测。

【技术实现步骤摘要】
面向人流密集型公共场所的公卫消耗品使用量预测方法


[0001]本专利技术涉及的是一种机器学习领域的技术,具体是一种基于随机森林的、面向人流密集型公共场所的公共卫生设施消耗品(如口罩、手消液)使用量预测方法。

技术介绍

[0002]在公共卫生问题比较突出时,人流密集型公共场所,包括:地铁、火车站、飞机场,常常会高密度地布设各类公共卫生设施,以便市民安全出行。这些公卫设施包括:口罩机、手消液机、急救包,均具有消耗品需要及时补充。随着设施点位的增加,公卫设施消耗品的运维工作变得繁杂且低效。部分消耗品的用量可以通过在现场传感器进行采集和远程传输,以便及时处理。但是,仍存在无法实时监测用量状态的公卫设施,而且对于未来一段时间内公共卫生设施消耗品使用量的预测当前还没有合适的方法,以致于运维人员不能前瞻性地备货和进行补给。
[0003]有关研究表明,病毒的传播与所处公共场所的环境因子、人流量因素存在强相关性,而人们对于公共卫生设施消耗品的使用频率及用量与病毒的传播强度也存在很大关联,因此本专利技术认为人流密集型公共场所的人流量、环境因子多变量与公卫消耗品使用量之间存在关联关系,且这种关联关系不是线性关系。

技术实现思路

[0004]本专利技术针对现有技术存在的上述不足,提出一种面向人流密集型公共场所的公卫消耗品使用量预测方法,采用随机森林模型,通过机器学习建立了上述关联关系的模型,用于对人流密集型公共场所的公卫消耗品使用量进行预测,通过机器学习得到公卫设施消耗品使用量与人流量、环境因子多变量之间的非线性关系,实现对公卫设施消耗品使用量的预测。在时间和空间维度上综合利用了人流量和环境监测相关数据,利用非线性的随机森林模型,通过采用多种数据聚合方法进行预处理,提高了预测的准确率。同时,通过滑动窗口实现了多步预测的能力,相比现有技术本模型预测效果更佳,对原始数据的冗余数据和噪音数据更具有容忍度。
[0005]本专利技术是通过以下技术方案实现的:
[0006]本专利技术涉及一种面向人流密集型公共场所的公卫消耗品使用量预测方法,通过将公共卫生场所的相关历史数据制成训练样本后,输入到采用Bagging策略的随机森林方法中,通过对多个基学习器进行组合并调整随机森林参数使准确率达标后,输出模型;再将实时采集到的人流量、环境监测数据输入到上述模型内以得到未来一段时间的公卫设施消耗品使用量预测值。
[0007]所述的人流量是指以单位时间经过目标场所的人员总量,可通过闸机、视频分析手段获得。
[0008]所述的环境因子包括:二氧化碳浓度、PM10、PM2.5、风速、温度和湿度。
[0009]所述的相关历史数据是指:目标场所内的过去一段时间的人流量、环境因子监测
数据和公卫设施消耗品实际使用量数据,以小时为基准进行数据整理。
[0010]所述的训练样本是指:是对相关历史数据处理后得到的数据集。具体的数据处理包括:时序化处理、异常数据剔除处理、数据聚合处理、数据增广处理和标准化处理。
[0011]所述的准确率是指:测试样本中的实际使用量和预测使用量之间的差距,用均方误差 RMSE指标来评估。一般认为均方误差值越小,准确率越高。
[0012]所述的实时采集是指:人流量按每小时为单位采集,环境类数据按60秒为单位采集,每小时计算一个算术平均值。
[0013]接下来详细阐述数据处理的五个阶段。
[0014]所述的时序化是指:将数据按照时间顺序进行排列。
[0015]所述的异常数据剔除是指:将无用的和存在缺失字段的数据删除,因为里面存在传感器采集损害或其他原因导致的数据异常,需要通过相应的规则将异常数据剔除。
[0016]所述的数据聚合是指:将时序化的数据每隔一段时间进行聚合,聚合的方法包括:最大值聚合、最小值聚合、平均值聚合、方差聚合、峰度聚合与偏度聚合。这样做的原始是因为传感器采集的数据频率过大,包含很多无用信息,该方法能够最大程度保留数据原始的特征,并且让该方法具有一定的抗噪能力。
[0017]所述的数据增广是指:使用滑动窗口的方法将原始的时序数据进行聚合。具体地,该方法包括:两个不同大小的滑动窗口,两个窗口相邻地从时序数据的首端,按照特定的步长滑动到末端。该方法会得到两个不同的数据集合,分别为训练集合和标签集合。
[0018]所述的标准化处理是指:将上述得到的训练集合按照时序排序分为训练集和测试集两部分,前70%作为训练集,后30%作为测试集,并对所有数据进行标准化,采用最大最小标准化进行处理:其中:x
max
和x
min
分别为同一水环境监测数据数据的最大值和最小值,x为原始数据,x

为标准化后的数据。
[0019]优选地,所述的训练采用均方误差RMSE指标来对训练好的模型性能进行评估,其含义是指模型在测试样本集上的预测值与测试样本集中的真实值的差平方的期望值的平方根,即:其中:n为数据的个数,xi为真实值,pi为预测值,RMSE值越小,为模型的预测值与真实值越接近,模型的精度就越高,性能就越好。
[0020]本专利技术涉及一种实现上述方法的系统,包括:数据预处理模块、样本生成模型、训练样本生成模块、网络训练模块以及识别预测模块,其中:数据预处理模块对各类公共场所内原始环境参数信息和公共卫生设施消耗品使用量数据进行处理,样本生成模型通过将时序数据进行聚合后再通过滑动窗口的方法生成训练集合和标签集合,训练样本生成模块与网络训练模块相连并传输网络模型的输入参数信息,识别预测模块与网络训练模块相连并传输最新的实时环境监测数据和公共卫生设施消耗品使用量以便判断模型的预测准确率。
附图说明
[0021]图1为本专利技术流程图;
[0022]图2为测试样本单次预测效果示意图。
具体实施方式
[0023]以上海地铁作为本次专利技术的实施地,如图1所示,为本实施例涉及一种基于随机森林的公共卫生设施消耗品使用量预测方法,包括:以下步骤:
[0024]步骤一:从上海轨道交通管理系统中获取2020年至2021年漕宝路站的相关环境监测数据;收集上海地铁人流量数据,该数据1小时采集一次;公共卫生设施消耗品使用量数据是从上海市轨道交通内专用设备的后台数据库中直接读取的。
[0025]步骤二:对获取的相关环境数据进行筛选,留下风速、温度、湿度、PM10指标和二氧化碳含量5个指标字段。
[0026]步骤三:由于原始数据的来源不同,并且存储的结构、格式和采集频率都是不同的。需要对相关环境监测数据进行预聚合,聚合粒度为1小时,并且计算平均值聚合,最大值聚合,最小值聚合,标准差聚合、偏度聚合和峰度聚合。
[0027]步骤四:将上述三种不同来源的数据按照时间进行拼接。拼接后处理后得到如下数据:
[0028]表1 Date温度风速湿度PM10CO2使用量人流量

2020

05

090926.00.254.20.本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向人流密集型公共场所的公卫消耗品使用量预测方法,其特征在于,通过将公共卫生场所的相关历史数据制成训练样本后,输入到采用Bagging策略的随机森林方法中,通过对多个基学习器进行组合并调整随机森林参数使准确率达标后,输出模型;再将实时采集到的人流量、环境监测数据输入到上述模型内以得到未来一段时间的公卫设施消耗品使用量预测值;所述的人流量是指以单位时间经过目标场所的人员总量;所述的环境因子包括:二氧化碳浓度、PM10、PM2.5、风速、温度和湿度;所述的相关历史数据是指:目标场所内的过去一段时间的人流量、环境因子监测数据和公卫设施消耗品实际使用量数据,以小时为基准进行数据整理;所述的训练样本是指:是对相关历史数据处理后得到的数据集,具体包括:时序化处理、异常数据剔除处理、数据聚合处理、数据增广处理和标准化处理;所述的准确率是指:测试样本中的实际使用量和预测使用量之间的差距,用均方误差RMSE指标来评估。2.根据权利要求1所述的面向人流密集型公共场所的公卫消耗品使用量预测方法,其特征是,所述的实时采集是指:人流量按每小时为单位采集,环境类数据按60秒为单位采集,每小时计算一个算术平均值。3.根据权利要求1所述的面向人流密集型公共场所的公卫消耗品使用量预测方法,其特征是,所述的时序化处理是指:将数据按照时间顺序进行排列;所述的异常数据剔除处理是指:将无用的和存在缺失字段的数据删除,因为里面存在传感器采集损害或其他原因导致的数据异常,需要通过相应的规则将异常数据剔除;所述的数据聚合处理是指:将时序化的数据每隔一段时间进行聚合,聚合的方法包括:最大值聚合、最小值聚合、平均值聚合、方差聚合、峰度聚合与偏度聚合,这样做的原始是因为传感器采集的数据频率过大,包含很多无用信息,该方法能够最大程度保留数据原始的特征,并且让该方...

【专利技术属性】
技术研发人员:郑婕吴刚
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1