System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及大数据分析,具体是指基于大数据的卷烟市场网格容量合理性预测方法及系统。
技术介绍
1、卷烟产品的精准投放对商业公司而言具有极其重要的意义,由产品投放带来的卷烟销售量直接影响着商业公司的经济效益,传统的预测方法没有考虑到市场动态和消费者行为的复杂性,且能够收集的数据有限从而导致卷烟投放不精准的问题;传统的机器学习方法对影响卷烟市场容量的因素考虑不全面,导致模型预测的准确性不足、稳定性差的问题。
技术实现思路
1、针对上述情况,为克服现有技术的缺陷,本专利技术提供了基于大数据的卷烟市场网格容量合理性预测方法及系统,针对传统的预测方法没有考虑到市场动态和消费者行为的复杂性,且能够收集的数据有限从而导致卷烟投放不精准的问题,本方案引入了烟草数据库之外的商圈数据,针对不同细分市场的数据驱动智能策略,生成定制化的营销策略,实现智能和准确的卷烟投放;针对传统的机器学习方法对影响卷烟市场容量的因素考虑不全面,导致模型预测的准确性不足、稳定性差的问题,本方案通过arima、holt-winters和rf结合的集成学习算法,结合各自的优点以提高模型的预测准确性、稳定性。
2、本专利技术采取的技术方案如下:本专利技术提供的基于大数据的卷烟市场网格容量合理性预测方法,该方法包括以下步骤:
3、步骤s1:定义商圈,根据区域互动理论定义商圈为零售商卷烟销售能力的空间范围和卷烟消费者分布的地理区域;
4、步骤s2:商圈的外扩方式,以零售商的初始位置为初始值扩展商
5、步骤s3:数据预处理,获取扩展后的商圈的数据,生成商圈数据集,并划分为训练集、测试集;
6、步骤s4:卷烟市场网格容量预测,利用训练集通过集成学习算法预测卷烟市场网格容量,得到集成模型a;
7、步骤s5:评估,利用测试集对集成模型a进行评估,得到集成模型b;
8、步骤s6:卷烟市场网格容量合理性预测,输入新的网格数据到集成模型b,进行卷烟市场网格容量预测,得到预测结果。
9、进一步地,在步骤s1中,所述定义商圈,具体为商圈是零售商卷烟销售能力的空间范围和卷烟消费者分布的地理区域,根据区域互动理论可知顾客在零售商购买卷烟的概率由零售商的面积和顾客与零售商之间的距离决定,所用公式如下:
10、;
11、式中,是位于的顾客前往地点购买卷烟的概率,是商圈内所有零售商的总和,是零售商的规模,是与之间的距离,表示顾客购买卷烟时对时间和距离的重视程度。
12、进一步地,在步骤s2中,商圈的外扩方式,具体包括以下步骤:
13、步骤s21:定义初始值,计算每个零售商及其周围顾客购买卷烟的概率,将零售商的位置定义为初始值;
14、步骤s22:计算商圈的地理范围,定义距离表示零售商的位置与商圈中心点之间的距离,初始n为网格中包含的零售商数量,将作为初始网格零售商的初始;
15、步骤s23:扩展商圈范围,以初始网格为中心,扩展商圈范围为正方形,根据初始网格的计算方法计算扩展后的购物区域面积,如果,则继续展开购物区域计算,直到,得到扩展后的商圈。
16、进一步地,在步骤s3中,数据预处理,具体包括以下步骤:
17、步骤s31:数据采集,获取扩展后的商圈的基本属性、人群特征、消费能力,整合为商圈数据1;获取扩展后的商圈的市场现状、消费指标、消费偏好,整合为商圈数据2,获取卷烟行业销售相关的poi数据,使用位置和属性特征作为约束,对poi数据进行解释,以提取企业数量、购物区、交通类型、步行距离、业务类型以及经纬度数据,得到poi数据集;
18、步骤s32:数据转化,商圈数据1和商圈数据2包括数值型数据和分类型数据,对数值型数据,使用log1p函数进行转化,得到具有高斯分布的数据,对分类型数据进行label-encoder编码,得到数值特征,得到商圈数据a和商圈数据b;
19、步骤s33:构建数据集,利用piflow融合商圈数据a、商圈数据b、poi数据集,构建卷烟市场数据集;
20、步骤s34:数据集划分,将卷烟市场数据集划分为训练集、测试集;
21、步骤s35:数据集存储,将商圈数据集分布式存储在hive数据库。
22、进一步地,在步骤s4中,卷烟市场网格容量预测方法,具体包括以下步骤:
23、步骤s41:arima模型训练,arima模型的参数包括,将拟合到训练集,其中是自回归项数,是差分阶数,是滑动平均项数,arima模型训练包括以下步骤:
24、步骤s411:确定自回归项数和滑动平均项数,通过观察自相关图acf和偏自相关图pacf,确定arima模型中的自回归项数和滑动平均项数;
25、步骤s412:确定差分阶数,计算的一阶差分,所用公式如下:
26、;
27、式中,表示时间序列在时刻的值,表示时间序列在时刻的值;
28、计算的二阶差分,所用公式如下:
29、;
30、式中,表示时间序列在时刻的值;
31、计算差分阶数,所用公式如下:
32、;
33、式中,是自回归部分的参数,是滑动平均值,是估计误差;
34、步骤s413:模型检验,选择合适的自回归项数、滑动平均项数、差分阶数组合后,对arima模型进行显著性检验;
35、步骤s414:使用aic来评估预测的准确度,所用公式如下:
36、;
37、式中,是估计误差方差;是样本量,是参数值;
38、根据aic,预测所研究卷烟市场容量的最佳arima模型,利用白噪声假设验证arima模型的拟合性;
39、步骤s42:holt-winters模型训练,计算模型方程,所用公式如下:
40、;
41、式中,表示时间序列在时间点的实际观测值,表示截距,表示斜率,表示时间序列在时间点的季节性分量,是不规则分量;
42、计算三个平滑方程,所用公式如下:
43、;
44、;
45、;
46、式中,是平滑常数,是时间序列在时间点的水平,是时间序列在时间点的趋势,是时间序列在时间点的季节分量,表示时间序列在时间点的实际观测值,将训练集输入holt-winters模型,利用最大似然估计法求三个平滑方程的参数,使用均方误差mse、平均绝对误差mae评估holt-winters模型的预测准确性;
47、步骤s43:rf模型训练,包括以下步骤:
48、步骤s431:生成rf,具体为首先从训练集中随机且有放回地抽取n个样本来训练一棵决策树,作为这棵树的根节点;其次,当每个样本有m个属性时,在决策树的每个节点需要分裂时,会随机从这m个属性中选取出m个属性,通常条件是m << m;从m个属性中利用本文档来自技高网...
【技术保护点】
1.基于大数据的卷烟市场网格容量合理性预测方法,其特征在于:该方法包括以下步骤:
2.根据权利要求1所述的基于大数据的卷烟市场网格容量合理性预测方法,其特征在于:在步骤S1中,所述定义商圈,具体为商圈是零售商卷烟销售能力的空间范围和卷烟消费者分布的地理区域,根据区域互动理论可知顾客在零售商购买卷烟的概率由零售商的面积和顾客与零售商之间的距离决定,所用公式如下:
3.根据权利要求2所述的基于大数据的卷烟市场网格容量合理性预测方法,其特征在于:在步骤S2中,所述商圈的外扩方式,包括以下步骤:
4.根据权利要求3所述的基于大数据的卷烟市场网格容量合理性预测方法,其特征在于:在步骤S4中,所述卷烟市场网格容量预测,包括以下步骤:
5.基于大数据的卷烟市场网格容量合理性预测系统,用于实现如权利要求1-4中任一项所述的基于大数据的卷烟市场网格容量合理性预测方法,其特征在于:包括定义商圈模块、商圈的外扩方式模块、数据预处理模块、卷烟市场网格容量预测方法模块、评估模块、卷烟市场网格容量合理性预测模块;
【技术特征摘要】
1.基于大数据的卷烟市场网格容量合理性预测方法,其特征在于:该方法包括以下步骤:
2.根据权利要求1所述的基于大数据的卷烟市场网格容量合理性预测方法,其特征在于:在步骤s1中,所述定义商圈,具体为商圈是零售商卷烟销售能力的空间范围和卷烟消费者分布的地理区域,根据区域互动理论可知顾客在零售商购买卷烟的概率由零售商的面积和顾客与零售商之间的距离决定,所用公式如下:
3.根据权利要求2所述的基于大数据的卷烟市场网格容量合理性预测方法,其特征在于:在步骤...
【专利技术属性】
技术研发人员:王再东,胡佑安,姜兵仁,涂鑫,
申请(专利权)人:湖南潇湘大数据研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。