一种基于数据湖的品牌门店的进店率预测方法与系统技术方案

技术编号:37079641 阅读:11 留言:0更新日期:2023-03-29 19:55
本发明专利技术公开了一种基于数据湖的品牌门店的进店率预测方法与系统,具体包括:采集模型训练所需的离线数据,集中存储在数据湖中,再对收集的数据进行数据预处理,设置预测目标维度,根据维度构造样本和特征,通过模型自动建模寻参找到最优模型和参数,再把所有样本输入最优模型得到最终待上线模型,用于在线预测待预测样本的进店率,估算拟开业位置品牌门店长期和短期的进店率,从而为进一步估算开店收益奠定基础。本发明专利技术采用二项分布对进店率建模来解决这个问题。本发明专利技术提出的系统的进店率模型由不同品牌的不同门店数据汇集到数据湖一起构建,各品牌通过在线API接口调用使用。各品牌通过在线API接口调用使用。各品牌通过在线API接口调用使用。

【技术实现步骤摘要】
一种基于数据湖的品牌门店的进店率预测方法与系统


[0001]本专利技术涉及人工智能
,具体涉及一种基于数据湖的品牌门店的进店率预测方法与系统。

技术介绍

[0002]随着社会发展,电商成为一种基础设施,线上开店门槛低且灵活,但随着线上流量红利的消失,线上增长出现瓶颈,且线上营销费用日趋增长,消费者也越来越注重线下体验消费,于是线下以灵活开店为特点的快闪店和慢闪店形式兴起,不同品牌越来越多回归线下开店,给用户带来体验式消费,通过灵活开店形式,品牌可以通过在不同地方开店,快速触达其目标消费群体。
[0003]不同品牌在开店过程中,通常会根据客流量*进店率*转化率*客单价的公式,事先预估在某个拟开业位置的门店销售额,然后结合成本计算ROI,以确定是否要在该位置开店。传统上,不同品牌是根据其现有门店的过店与进店客流数据历史平均值来估算拟开业门店的进店率,或者凭以往经验估计一个进店率。而实际上,不同品牌在不同位置的进店率是不同的,传统方法没有考虑这种差异性,对进店率的估算并不准确。
[0004]另外,现有的进店率预估模型通常把进店率直接作为预测目标去构建模型,并不考虑进店率处于【0,1】区间的性质,很可能导致模型预测结果违反这一性质。
[0005]因此,针对这种不同品牌在不同位置的进店率估计问题,本专利技术综合品牌和门店位置相关的多种影响因素,提出一种基于二项分布建模的进店率预测方法与系统,帮助不同品牌在不同位置拟开店时有效估计进店率,支持开店决策。

技术实现思路

[0006]针对现有技术中存在的没法准确预测进店率的问题,本专利技术提供了一种基于数据湖的品牌门店的进店率预测方法与系统。
[0007]本专利技术提供了一种基于数据湖的品牌门店的进店率预测方法:包括
[0008]步骤S1:采集历史数据:包括门店信息Store(poi)、位置信息Loc_info(place)、场地信息(place)、周边信息Sur_info(place)、商家品牌信息Brand_info(brand)、环境信息Context、客流数据Flow(poi)等建模必备数据;
[0009]步骤S2:数据处理:进行数据清洗、异常值检测并剔除、缺失值填补;步骤S3:样本构造与模型训练:对处理后的数据构造特征,对类别特征进行编码;通过基于二项分布对进店率建模,构造极大似然函数作为优化目标进行模型参数求解;对所有样本取出一定比例的样本进行机器学习或深度学习的模型训练和调参,得到最优模型,再用所有样本重新训练模型在线部署;
[0010]步骤S4:在线预测:在线推理根据收集到的拟开业门店的模型所需特征信息,调用训练好的模型得到在线预测结果。
[0011]优选地,步骤S1中:
[0012]采集门店信息Store(poi):从门店信息管理系统录入要采集客流的门店信息,包括品牌,门店具体定位,店铺类型,位置类型,场地(具体商场名称,id或大楼名称,id),所处楼层,门牌号,面积,开业时间,租金等具体信息;
[0013]采集位置信息Loc_info(place):包含省市区、经纬度、所处商圈,城市等级、城市类型等基础位置信息;
[0014]采集场地信息Place_info(place):包含场地地址、场地类型、场地id、场地面积、建筑时间、场地楼层、场地平均租金、场地品牌偏好、客流量水平、消费水平等场地标签画像、场地业态分布、场地客群人群画像、场地历史成交信息、场地各楼层业态分布等,其中场地类型涉及商场、写字楼、景区,街铺、小区等,场地指的是具体的购物中心、写字楼、小区、楼宇等名称和编号;采集周边信息Sur_info(place)包含场地周边的交通设施、公共设施(加油站、充电站,交通设施等);
[0015]采集环境信息Context包含天气状况、温度、季节、节假日、星期、促销活动等;
[0016]采集商家品牌信息Brand_info(brand)包含行业、企业、连锁门店数、品牌定位、目标客群、产品均价、竞品品牌等;
[0017]采集的客流数据Flow(poi)包含进店人数、过店人数,采集时间,客群属性(如性别比例,年龄段比例,客流流向比例);
[0018]优选地,步骤S1中的客流数据包括:
[0019]通过客流检测设备,包括固定摄像头和移动视频拍摄设备,运用人体识别和目标跟踪技术获取进店人数和过店人数及其对应的数据采集时间,发送数据到后端数据库;不同品牌不同门店客流数据汇集一起,构成门店客流数据湖。
[0020]优选地,步骤S2中:采用步骤S1中的促销环境信息处理历史数据,处理方式可以采用剔除掉促销日,或者计算促销日相对平日进店率的增长倍率,把促销日的进店率还原成平日。
[0021]优选地,步骤S3中:由于未来的环境信息未知,因此可根据业务目标分别设置指定维度的预测目标和样本,按照不同维度构建模型,维度按照月份、工作日周末等多个维度划分,构成诸如(月份、日期类型)维度的门店(store,poi)的平均进店率预测目标,实现长期和短期的预测任务。
[0022]优选地,对处理后的数据构造特征具体是指:数据经过指定维度聚合后,经特征转换、特征编码、特征组合生成模型所需特征。聚合后环境信息特征不保留。
[0023]优选地,基于二项分布的进店率建模,构造极大似然函数作为优化目标函数求解,如下:
[0024][0025]其中,T
i
表示品牌门店第i个时段的总过店人数,N
i
表示总进店人数,X
i
表示影响品
牌门店进店率的特征因素,进店率w是参数,需要通过样本估计出来。π(X
i
)也可以是其它形式,视具体问题而定。时段划分可以是天或者周或者月,假设总量为N段,即N个样本。参数w估计问题,就是寻找最优的w,让L(w)取得最大值。
[0026]优选地,步骤S3中:将所有样本划分为训练集、验证集、测试集,用于机器学习和深度学习各开源算法训练和调参,最后选择测试集表现最优的模型重新训练所有样本得到待上线模型。
[0027]一种基于数据湖的品牌门店的进店率预测系统,包括:
[0028]数据获取模块,用于获取模型训练所需的基础数据,包括门店信息Store(poi)、位置信息Loc_info(place)、场地信息(place)、周边信息Sur_info(place)、商家品牌信息Brand_info(brand)、环境信息Context、客流数据Flow(poi);
[0029]数据处理模块,用于处理和清洗收集的数据,异常值处理等,去除噪声;
[0030]样本构造模块,用于生成模型所需的样本和特征,此模块还包括预测目标维度确定单元,根据设置的维度构造目标和样本。
[0031]模型训练模块,用于将所述训练样本输入到模型中得到进店率预测模型,此模块还包含样本划分单元,用于划分训练集、验证集和测试集、模型训练寻参单元,用于各种算法得到最优模型、待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据湖的品牌门店的进店率预测方法,其特征在于,包括:步骤S1:采集历史数据:包括门店信息Store(poi)、位置信息Loc_info(place)、场地信息(place)、周边信息Sur_info(place)、商家品牌信息Brand_info(brand)、环境信息Context、客流数据Flow(poi)建模必备数据;步骤S2:数据处理:进行数据清洗、异常值检测并剔除、缺失值填补;步骤S3:样本构造与模型训练:对处理后的数据构造特征,对类别特征进行编码;通过基于二项分布对进店率建模,构造极大似然函数作为优化目标进行模型参数求解;对所有样本取出一定比例的样本进行机器学习或深度学习的模型训练和调参,得到最优模型,再用所有样本重新训练模型在线部署;步骤S4:在线预测:在线推理根据收集到的模型所需的拟开业门店位置的特征信息,踩点获得的过店客流信息,调用训练好的模型得到在线预测结果。2.如权利要求1所述的基于数据湖的品牌门店的进店率预测方法,其特征在于,步骤S1中:采集门店信息Store(poi):从门店信息管理系统录入要采集品牌门店信息,包括品牌,门店具体定位,店铺类型,位置类型,场地,所处楼层,门牌号,面积,开业时间,租金具体信息;采集位置信息Loc_info(place):包含省市区、经纬度、所处商圈,城市等级、城市类型基础位置信息;采集场地信息Place_info(place):包含场地地址、场地类型、场地id、场地面积、建筑时间、场地楼层、场地平均租金、场地品牌偏好、客流量水平、消费水平场地标签画像、场地业态分布、场地客群人群画像、场地历史成交信息、场地各楼层业态分布,其中场地类型涉及商场、写字楼、景区,街铺、小区,场地指的是具体的购物中心、写字楼、小区、楼宇名称和编号;采集周边信息Sur_info(place)包含场地周边的交通设施、公共设施;采集环境信息Context包含天气状况、温度、季节、节假日、星期、促销活动;采集商家品牌信息Brand_info(brand)包含行业、企业、连锁门店数、品牌定位、目标客群、产品均价、竞品品牌;采集的客流数据Flow(poi)包含进店人数、过店人数,采集时间,客群属性。3.如权利要求1所述的基于数据湖的品牌门店的进店率预测方法,其特征在于,步骤S1中的客流数据包括:通过客流检测设备,包括固定摄像头和移动视频拍摄设备,运用人体识别和目标跟踪技术获取进店人数和过店人数及其对应的数据采集时间,发送数据到后端数据库;不同品牌不同门店客流数据汇集一起,构成门店客流数据湖。4.如权利要求1所述的基于数据湖的品牌门店的进店率预测方法,其特征在于,步骤S2中:采用步骤S1中的促销环境信息处理...

【专利技术属性】
技术研发人员:王丽燕覃锦华李颖翀
申请(专利权)人:杭州邻汇网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1