一种融合历史均值与提升树的商家客流量预测方法技术

技术编号:19143106 阅读:33 留言:0更新日期:2018-10-13 09:07
本发明专利技术涉及一种融合历史均值与提升树的商家客流量预测方法,其特征在于,包括以下步骤:对某一时间段的商家完整行为数据进行预处理;对经过预处理的数据构建特征;基于历史均值与提升树构建客流量预测模型;进行客流量预测。本发明专利技术提出了历史均值与提升树融合的互联网商家客流量预测模型。该模型的本质是提升树模型与历史均值模型,按照计算公式所求出的权重系数,按照一定比例而融合的加权和。本发明专利技术不仅考虑了如何提高模型的预测精度,而且还考虑了客流量的预测与时间的依赖关系,并且对不同模型的预测结果做出了对比分析。

A method of Forecasting Passenger Volume Based on historical mean and lifting tree

The present invention relates to a merchant passenger flow forecasting method which combines the historical mean and the lifting tree, and is characterized by the following steps: preprocessing the complete merchant behavior data of a certain period of time; constructing the characteristics of the preprocessed data; constructing the passenger flow forecasting model based on the historical mean and the lifting tree; and carrying out the passenger flow forecasting; Traffic prediction. The invention proposes a prediction model for Internet passenger traffic volume based on integration of historical mean and lifting tree. The essence of the model is that the weighting coefficients of the lifting tree model and the historical mean model are calculated according to the formula and fused according to a certain proportion. The invention not only considers how to improve the prediction accuracy of the model, but also considers the relationship between the prediction of passenger flow and time, and makes a comparative analysis of the prediction results of different models.

【技术实现步骤摘要】
一种融合历史均值与提升树的商家客流量预测方法
本专利技术涉及一种融合历史均值与提升树的客流量预测模型,属于智能信息处理和机器学习领域。
技术介绍
移动定位服务的发展使得互联网商家“线上线下”的交易数据急剧增长。对比传统的零售行业,互联网商家的营销对用户消费给予了更多的关注,在产品详情页的介绍、客服服务、便捷的移动支付等方面都致力于为用户带来更好的消费体验。比如,某些商业智能服务平台可以为每个商家提供销售预测。基于预测结果,商家可以与用户建立信任关系,吸引到更多忠实的用户并优化运营决策、降低成本、改善用户体验。现有的销售预测技术一般通过历史数据,简单地使用时间加权序列方法进行预测。但在实际生活中,用户的消费行为往往受到节假日、天气等因素的影响,此时,现有的技术无法及时预测出商家的客流量,可能导致预测精度并不理想,预测出的客流量在很大程度上偏离商家的实际客流量。
技术实现思路
本专利技术的目的是提供一种能够更为精度地预测出客流量的方法。为了达到上述目的,本专利技术的技术方案是提供了一种融合历史均值与提升树的商家客流量预测方法,其特征在于,包括以下步骤:步骤1、对某一时间段的商家完整行为数据进行预处理,商家完整行为数据包括商家特征数据、用户支付行为数据和用户浏览行为数据;步骤2、对经过预处理的数据构建特征,增加节假日数据及天气特征数据;步骤3、基于历史均值与提升树构建客流量预测模型,包括以下步骤:步骤301、分别对XGBoost与GBDT构建2个学习模型,对2个学习模型调整树的深度、学习率以及迭代次数的参数,确定XGBoost学习模型的学习率以及树的最大深度时,引入XGBoost学习模型中内置的cv函数;步骤302、利用步骤2得到的数据对XGBoost学习模型与GBDT学习模型进行训练,设定预测日,计算预测日之前到某一天的平均客流量、销量增量;。步骤4、把过去某一时间段的历史销量的相关度矩阵作为步骤3已训练的客流量预测模型的输入,将未来某一时间段的销量和XGBoost学习模型与GBDT学习模型的模型融合的权重系数Credit作为输出:式中,是过去某一时间段的平均销量;Fuslast是过去某一时间段的销量,由此,将XGBoost学习模型、GBDT学习模型和历史均值模型得到的过去某一时间段的平均销量和销量值,分别代入权重系数Credit公式当中,求出相应的权重系数,最终,将训练得到的2组XGBoost学习模型和2组GBDT学习模型的不同结果分别与历史均值模型分别按求出的相应的权重系数的比例融合,得到预测未来某一时间段的客流量。优选地,步骤1中所述预处理包括以下步骤:步骤101、剔除商家完整行为数据中商家开业前7天的数据以及销量中断前后3天的数据,将剩余数据分为训练集和测试集;步骤102、去除训练集和测试集中的重复数据,利用基于规则的方法对训练集和测试集中去重后的数据进行归一化处理,从而消除短时间内单个用户大量购买而造成的异常数据;对于由于特殊时间节点而造成的异常数据和难以预计的大幅波动而造成的异常数据,采用模型预训练方法剔除,即采用欠拟合算法对客流量预测模型进行预训练,清除数据中残差为10%和25%的数据。优选地,所述步骤2包括以下步骤:步骤201、采集全国各省市的天气数据;步骤202、将天气状况简单转换为降水指数和天晴指数两个指标,并生成人体舒适度指数作为客流量预测模型训练的一个重要特征;步骤203、采集当前时间段的节假日数据,将工作日标注为0,周末标注为1,假期标注为2。本专利技术提出了历史均值与提升树融合的互联网商家客流量预测模型。该模型的本质是提升树模型与历史均值模型,按照计算公式所求出的权重系数,按照一定比例而融合的加权和。本专利技术不仅考虑了如何提高模型的预测精度,而且还考虑了客流量的预测与时间的依赖关系,并且对不同模型的预测结果做出了对比分析。附图说明图1为历史均值与提升树融合模型预测图:图2为时间序列加权回归模型预测图。具体实施方式下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。本专利技术提供了一种融合历史均值与提升树的商家客流量预测方法,包括以下步骤:步骤一:对商家完整行为数据进行预处理本专利技术使用的数据来自天池大数据平台,共包含某年7月1日至次年10月31日的商家完整行为数据。其中包含“商家特征”数据、“用户支付行为”数据和“用户浏览行为”数据。由于直接使用原始数据训练模型不仅会产生误差,还会耗费大量的计算资源。因此,对原始数据集中存在的异常值进行剔除、去重、归一化等处理。一方面,由于商家从入驻平台到销售量增加存在一定的启动时间,并且可能出现某段时间销量中断的现象,因此,商家开业前7天的数据以及销量中断前后3天的数据不作为训练数据;另一方面,由于原始数据中存在短时间内单个用户大量购买的情况,为消除这种异常消费对预测的影响,采用了基于规则的方法对原始数据进行归一化。另外,原始数据中还存在一些特殊时间节点和难以预计的大幅波动:如大型的节假日(如中秋节、国庆节等)、停业、商家开展促销活动时单个用户大量购买的情况。对于这些基于规则的方法难以处理的异常值,本专利技术采用了模型预训练方法。即,首先采用欠拟合算法对客流量预测模型预训练,清除原始数据中残差为10%和25%的数据。由于预测目标是商家的日销量,因此预处理后用于训练的数据是按小时统计的商家的总销量。步骤二、对经过预处理的数据构建特征。为提高模型预测的准确性,本专利技术采集全国各省市的天气数据以及节假日天气数据作为原始数据的补充。在额外采集的气温、湿度、气压等数据中,根据经验,将天气状况简单转换为降水指数和天晴指数两个指标,由于人体对于气象参数的感受不成线性关系,故生成人体舒适度指数(ComfortIndexofHumanBody,SSD)作为模型训练的一个重要特征。最终,模型训练与预测使用的特征与标签如表1所示。表1模型训练与预测使用的特征步骤三、基于历史均值与提升树构建客流量预测模型。为获得精确度高的客流量预测模型,本专利技术采用了两个阶段的训练方法。第一次阶段的训练中,使用了XGBoost(eXtremeGradientBoost)与GBDT(GradientBoostingDecisionTree)模型。模型训练的参数如表2和表3所示。每一种模型分别使用了2组参数进行训练,总共获得4个模型。表2XGBoost算法的不同参数XGBoost1号2号目标函数线性回归模型线性回归模型树的最大深度35学习率0.10.03提升树个数5001600L1正则化项参数01L2正则化项参数10表3GBDT算法的不同参数GBDT树的最大深度学习率提升树个数训练采样比例1号30.15000.952号50.15000.95本专利技术调整XGBoost与GBDT算法中树的深度、学习率以及迭代次数的参数,在XGBoost算法的1号模型中,一般情况下,学习率的值默认为0.1,而树的最大深度默认为3。但是,对于不同的问题,理想的学习率有时候会在一些特定的区间范围之间波动。树的深度越大,则对数据的拟合程度越高。因此,本发本文档来自技高网...

【技术保护点】
1.一种融合历史均值与提升树的商家客流量预测方法,其特征在于,包括以下步骤:步骤1、对某一时间段的商家完整行为数据进行预处理,商家完整行为数据包括商家特征数据、用户支付行为数据和用户浏览行为数据;步骤2、对经过预处理的数据构建特征,增加节假日数据及天气特征数据;步骤3、基于历史均值与提升树构建客流量预测模型,包括以下步骤:步骤301、分别对XGBoost与GBDT构建2个学习模型,对2个学习模型调整树的深度、学习率以及迭代次数的参数,确定XGBoost学习模型的学习率以及树的最大深度时,引入XGBoost学习模型中内置的cv函数;步骤302、利用步骤2得到的数据对XGBoost学习模型与GBDT学习模型进行训练,设定预测日,计算预测日之前到某一天的平均客流量、销量增量;。步骤4、把过去某一时间段的历史销量的相关度矩阵作为步骤3已训练的客流量预测模型的输入,将未来某一时间段的销量和XGBoost学习模型与GBDT学习模型的模型融合的权重系数Credit作为输出:

【技术特征摘要】
1.一种融合历史均值与提升树的商家客流量预测方法,其特征在于,包括以下步骤:步骤1、对某一时间段的商家完整行为数据进行预处理,商家完整行为数据包括商家特征数据、用户支付行为数据和用户浏览行为数据;步骤2、对经过预处理的数据构建特征,增加节假日数据及天气特征数据;步骤3、基于历史均值与提升树构建客流量预测模型,包括以下步骤:步骤301、分别对XGBoost与GBDT构建2个学习模型,对2个学习模型调整树的深度、学习率以及迭代次数的参数,确定XGBoost学习模型的学习率以及树的最大深度时,引入XGBoost学习模型中内置的cv函数;步骤302、利用步骤2得到的数据对XGBoost学习模型与GBDT学习模型进行训练,设定预测日,计算预测日之前到某一天的平均客流量、销量增量;。步骤4、把过去某一时间段的历史销量的相关度矩阵作为步骤3已训练的客流量预测模型的输入,将未来某一时间段的销量和XGBoost学习模型与GBDT学习模型的模型融合的权重系数Credit作为输出:式中,是过去某一时间段的平均销量;Fuslast是过去某一时间段的销量,由此,将XGBoost学习模型、GBDT学习模型和历史均值模型得到的过去某一时间段的平均销量和销量值,分别代入权重系数Credit公式当中,求出相...

【专利技术属性】
技术研发人员:白智远吕品温从威杨锦浩陈智
申请(专利权)人:上海电机学院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1