一种基于模型集成的景区人群聚集预测方法技术

技术编号:27842801 阅读:24 留言:0更新日期:2021-03-30 12:36
本发明专利技术公开了一种基于模型集成的景区人群聚集预测方法,步骤如下:1)对原始数据进行数据观察和清洗;2)根据数据建模需要,对数据进行特征工程处理,生成训练数据集和测试数据集;3)选取算法模型,使用训练数据集对选定的算法模型进行优化,并对算法模型进行训练得到预测结果,对预测结果与测试数据集得到的真实值进行验证对比;4)根据验证对比结果,采用模型集成的方式进行人群聚集预测。本发明专利技术方法明确了利用训练集对算法模型进行优化的策略,解决算法模型预测值与实际结果偏差较大的问题。决算法模型预测值与实际结果偏差较大的问题。决算法模型预测值与实际结果偏差较大的问题。

【技术实现步骤摘要】
一种基于模型集成的景区人群聚集预测方法


[0001]本专利技术属于智慧城市建设
,具体指代一种基于模型集成的景区人群聚集预测方法。

技术介绍

[0002]景区人群聚集预测是其中一个很重要的技术难点,目前国内外普遍采用的是因果性计量分析和时间序列相结合的方法。因果性计量分析方法将主要是通过知识经验和数据挖掘找出致灾因子,致灾因子是自然或人为环境中,能够对人类生命、财产或各种活动产生不利影响,并达到造成灾害程序的罕见或极端的事件,比如在景区人群聚集预测中景区所在自然环境、气象条件、周边交通情况以及景区实时人群热力情况等都是很重要的致灾因子,这些致灾因子累计到一定程度就会形成灾害事件。时间序列是指连续时间内发生的事件之间存在着一定的因果关系,比如景区由于过度聚集而发生踩踏事件一定是多个连续时间序列人群不断聚集的结果。此方法在2010年左右,被广泛应用到了应急信息化系统中。
[0003]随着系统的不断使用,这种预测方法的弊端也逐渐显现,比如预测逻辑过于复杂,需要较多的业务领域知识;其是否能够完成极端依赖于对有效数据的获取和提炼;在运用到实践之前,无法验证和优化。随着人工智能逐渐兴起,也逐渐出现了采用算法模型替代单一应用系统来进行人群聚集预测的方法,但在实际运用中也往往存在着预测结果准确性不高的问题。

技术实现思路

[0004]针对于上述现有技术的不足,本专利技术的目的在于提供一种基于模型集成的景区人群聚集预测方法,以解决现有技术中原始数据质量不高,数据维度较窄;没有深度挖掘业务需求和数据结构特征的联系,没有建立有效的数据特征体系;机器学习算法模型选取单一,预测结果只在某些方面表现较好的问题。
[0005]为达到上述目的,本专利技术采用的技术方案如下:
[0006]本专利技术的一种基于模型集成的景区人群聚集预测方法,步骤如下:
[0007]1)对原始数据进行数据观察和清洗;
[0008]2)根据数据建模需要,对数据进行特征工程处理,生成训练数据集和测试数据集;
[0009]3)选取算法模型,使用训练数据集对选定的算法模型进行优化,并对算法模型进行训练得到预测结果,对预测结果与测试数据集得到的真实值进行验证对比;
[0010]4)根据验证对比结果,采用模型集成的方式进行人群聚集预测。
[0011]进一步地,所述步骤1)具体包括:
[0012]数据观察:对景区电信运营商基站数据、基站客流数据通过构造统计曲线的方式进行数据观察,得到数据存在的数据缺失、数据异常问题;
[0013]数据清洗:对于数据缺失采用均值法补全缺失值,即根据统计学均值原理,基于历史数据统计分布的均值来对缺失数据进行填充;对于数据异常采用滑动平均法对异常值进
行代替处理,即利用统计学平移原理,基于历史数据统计分布根据时间维度进行平移对数据异常值进行替换。
[0014]进一步地,所述步骤2)具体包括:
[0015]特征构建:景区人流量时间分布特征和时序相关性分析,在时间分布特征上,通过对人群聚集数据的时间探索分析,发现其存在周期性变化趋势;在时序相关性分析上,景区当前时间点的人流量与其前一个时刻的客流量相关程度高,与其滞后五个时间点的客流量存在负相关性;
[0016]特征提取:对于时间序列数据,提取每个时间戳的月份和日期;通过Lag特征将时间序列预测问题转化为有监督学习问题,即在每个观察的时间序列中滑动焦点,使用给定前一时间t

1的值预测下一次t+1的值,以扩展窗口宽度并包含更多Lag特征。
[0017]进一步地,所述步骤2)具体还包括:对提取的特征进行处理,采用的方法包含标准化、区间缩放法和归一化;
[0018]标准化:计算特征的均值和标准差,公式表达为:
[0019][0020][0021]式中,X'表示标准化处理后的值,X表示原始值,表示平均值,S是标准差,即离均差平方的算术平均数的算术平方根;
[0022]标准化的结果是特征值服从正态分布,标准化后,其转换成标准正态分布;
[0023]区间缩放法包括利用两个最值进行缩放及利用边界值信息将特征的取值区间缩放到某个特点的范围;
[0024]利用两个最值进行缩放的公式表达为:
[0025][0026]式中,Y'表示区间缩放处理后的值,Y表示原始值,Max表示最大值,Min表示最小值;
[0027]归一化是依据标准差的特征矩阵处理数据,公式表达为:
[0028][0029]式中,Z'表示归一化处理后的值,Z表示原始值,S是标准差,即离均差平方的算术平均数的算术平方根。
[0030]归一化后测试数据在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为单位向量。
[0031]进一步地,所述步骤2)具体还包括:
[0032]特征是否发散:如果一个特征不发散,即方差接近于0,则表示样本数据在这个特
征上没有差异,那么这个特征对于算法模型的训练和验证无用处。
[0033]特征与目标的相关性:与目标相关性高的特征,应优先选择。
[0034]当数据经过这些步骤处理后,使得数据具有了可被算法模型很好处理的特征。
[0035]进一步地,所述步骤2)具体还包括:
[0036]用数据库中已保存的历史数据构建训练数据集,用目标景区的实时客流量数据构建测试数据集;使用训练数据集的数据对算法模型进行训练,得到预测曲线,再使用测试数据集的数据得到的真实曲线对其进行对比验证。
[0037]进一步地,所述步骤3)中具体包括:
[0038]根据景区人群聚集预测业务需求,选择算法模型;
[0039]选择泊松回归模型,建立的泊松回归模型如下:
[0040]U
i,d,t
~P(λ
i,d,t
)
[0041][0042]式中,P(λ
i,d,t
)表示预测时间点的泊松回归模型的预测值,P(λ
i,d,t

j
)表示当前时间节点前j个时间点的泊松回归模型的预测值,P(γ
d∈H
)表示预测点所在日期是否为节假日的泊松回归模型预测值,β0为初始化值,β
j
为回归参数,β
H
为节假日参数;
[0043]选择梯度提升树模型,建立的梯度提升树模型如下:
[0044]U
i,d,t
~T(λ
i,d,t
)
[0045][0046]式中,T(λ
i,d,t
)表示预测时间点的梯度提升树模型的预测值,T(λ
i,d,t

j
)表示当前时间节点前j个时间点的梯度提升树模型的预测值,T(γ
d∈H
)表示预测时间点所在日期是否为节假日的梯度提升树模型的预测值,α
j
为残差,α
H
为节假日参数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模型集成的景区人群聚集预测方法,其特征在于,步骤如下:1)对原始数据进行数据观察和清洗;2)根据数据建模需要,对数据进行特征工程处理,生成训练数据集和测试数据集;3)选取算法模型,使用训练数据集对选定的算法模型进行优化,并对算法模型进行训练得到预测结果,对预测结果与测试数据集得到的真实值进行验证对比;4)根据验证对比结果,采用模型集成的方式进行人群聚集预测。2.根据权利要求1所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤1)具体包括:数据观察:对景区电信运营商基站数据、基站客流数据通过构造统计曲线的方式进行数据观察,得到数据存在的数据缺失、数据异常问题;数据清洗:对于数据缺失采用均值法补全缺失值,即根据统计学均值原理,基于历史数据统计分布的均值来对缺失数据进行填充;对于数据异常采用滑动平均法对异常值进行代替处理,即利用统计学平移原理,基于历史数据统计分布根据时间维度进行平移对数据异常值进行替换。3.根据权利要求1所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤2)具体包括:特征构建:景区人流量时间分布特征和时序相关性分析,在时间分布特征上,通过对人群聚集数据的时间探索分析,发现其存在周期性变化趋势;在时序相关性分析上,景区当前时间点的人流量与其前一个时刻的客流量相关程度高,与其滞后五个时间点的客流量存在负相关性;特征提取:对于时间序列数据,提取每个时间戳的月份和日期;通过Lag特征将时间序列预测问题转化为有监督学习问题,即在每个观察的时间序列中滑动焦点,使用给定前一时间t

1的值预测下一次t+1的值,以扩展窗口宽度并包含更多Lag特征。4.根据权利要求3所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤2)具体还包括:对提取的特征进行处理,采用的方法包含标准化、区间缩放法和归一化;标准化:计算特征的均值和标准差,公式表达为:标准化:计算特征的均值和标准差,公式表达为:式中,X'表示标准化处理后的值,X表示原始值,表示平均值,S是标准差,即离均差平方的算术平均数的算术平方根;标准化的结果是特征值服从正态分布,标准化后,其转换成标准正态分布;区间缩放法包括利用两个最值进行缩放及利用边界值信息将特征的取值区间缩放到某个特点的范围;利用两个最值进行缩放的公式表达为:
式中,Y'表示区间缩放处理后的值,Y表示原始值,Max表示最大值,Min表示最小值;归一化是依据标准差的特征矩阵处理数据,公式表达为:式中,Z'表示归一化处理后的值,Z表示原始值,S是标准差,即离均差平方的算术平均数的算术平方根。5.根据权利要求4所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤2)具体还包括:特征是否发散:如果一个特征不发散,即方差接近于0,则表示样本数据在这个特征上没有差异,那么这个特征对于算法模型的训练和验证无用处。特征与目标的相关性:与目标相关性高的特征,应优先选择。6.根据权利要求5所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤2)具体还包括:用数据库中已保存的历史数据构建训练数据集,用目标景区的实时客流量数据构建测试数据集;使用训练数据集的数据对算法模型进行训练,得到预测曲线,再使用测试数据集的数据得到的真实曲线对其进行对比验证。7.根据权利要求1所述的基于模型集成的景区人群聚集预测方法,其特征在于,所述步骤3)中具体包括:根据景区人群聚集预测业务需求,选择算法模型;选择泊松回归模型,建立的泊松回归模型如下:U
i,d,t
~P(λ
i,d,t
)式中,P(λ
i,d,t
)表示预测时间点的泊松回归模型的预测值,...

【专利技术属性】
技术研发人员:朱敏山君泉
申请(专利权)人:南京莱斯信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1