一种基于机器学习的零售终端样本抽样方法技术

技术编号:26790840 阅读:36 留言:0更新日期:2020-12-22 17:05
本发明专利技术公开一种基于机器学习的零售终端样本抽样方法,涉及数据处理技术领域,其包括:采集某区域零售终端的零售户基本信息及销售数据;基于零售户的基本信息及销售数据,设定阈值,清洗去除异常零售户;根据所采集的零售户基本信息及销售数据,选取既有特征或自定义特征;基于机器学习算法,根据零售户的既有特征或自定义特征,确定样本分层数;基于零售户的销售数据,获取购进量,确定每层样本量并随机抽样得出样本列表;将清洗后的零售户划分为样本零售户组和非样本零售户组,以每一样本零售户为质心,计算同层其余零售户与该样本零售户的距离,选定多个替换样本并存储于替换样本库。本发明专利技术可以提高分层的准确性和分析的鲁棒性。

【技术实现步骤摘要】
一种基于机器学习的零售终端样本抽样方法
本专利技术涉及数据处理
,具体的说是一种基于机器学习的零售终端样本抽样方法。
技术介绍
随着现代零售终端的不断发展,客户数和客户质量越来越高,利用好这些数据的价值就能得到对市场环境的清醒洞察,从而便于企业进一步有效制定营销手段、进行货品精准投放、指导现代终端客户合理布局等策略。但是零售客户众多,信息量庞大且信息内容参差不齐,分析起来较为困难,而对部分优质客户的分析便能还原出整体的市场状态,所以,如何从庞大的零售客户中选出优质样本显得尤为重要。目前对于零售终端样本选取的方法中,大多还是使用简单随机抽样方法或分层抽样方法。使用简单随机抽样方法将会忽略样本的特殊性,存在数据代表性不足的缺点,分层抽样方法虽然弥补了简单随机抽样方法的缺点,但分层的合理性严重影响着分析结果的正确性,依然存在较大的改进空间。故需要结合样本较为全面的特征,开发一整套样本抽样与维护的方法,从而能在一个较为准确的起点开展对市场状况的分析。
技术实现思路
本专利技术为了克服现有零售终端样本抽样方法存在的数据代表性不足、分层可靠性较低等不足,提供一种基于机器学习的零售终端样本抽样方法。本专利技术的一种基于机器学习的零售终端样本抽样方法,解决上述技术问题采用的技术方案如下:一种基于机器学习的零售终端样本抽样方法,该方法包括如下内容:S1、数据采集阶段:采集某区域零售终端的零售户基本信息及销售数据;S2、数据清洗阶段:基于零售户的基本信息及销售数据,设定阈值,对零售户进行清洗,去除异常零售户;S3、特征选取阶段:根据所采集的零售户基本信息及销售数据,选取既有特征或自定义特征;S4、数据分层阶段:基于机器学习算法,根据零售户的既有特征或自定义特征,确定样本分层数;S5、样本选取阶段:基于零售户的销售数据,获取该零售户的购进量,进而确定每层样本量并随机抽样得出样本列表;S6、替换样本预备阶段:将经过数据清洗阶段的零售户划分为样本零售户组和非样本零售户组,以每一样本零售户为质心,计算与该样本零售户同一分层下所有零售户与该样本零售户的距离,选定多个替换样本并存储于替换样本库。可选的,在步骤S1的数据采集阶段,某区域的零售终端选取可支持线上销售的设备,包括但不限于电脑和手机;零售户的基本信息及销售数据包括且不限于零售户的档位、类型、区域、销售笔数、销量、销额、期末库存、购进量各信息。可选的,在步骤S2的数据清洗阶段,根据步骤S1采集的零售户基本信息及销售数据,对对各项销售指标设定阈值,根据设定的阈值,过滤去掉销售数据异常的零售户。可选的,在步骤S3的特征选取阶段,所述既有特征是基于所采集零售户基本信息及销售数据直接得到的特征数据,包括且不限于包括销量、结余库存、销售笔数、销售金额、在线时长;所述自定义特征是基于所采集零售户基本信息及销售数据人工计算或总结得到的特征数据,包括且不限于包括存销比、扫码集中度、时间拟合度。可选的,在步骤S4的数据分层阶段,基于K-Means算法或神经网络算法,对既有特征或自定义特征进行归一化操作,去除奇异值,加速收敛过程,确定样本分层数。可选的,在步骤S5的样本选取阶段,将经过数据清洗阶段的零售户作为总体样本量按比例分配至各层,对各层零售户分别确定样本量,然后基于规则在每层中进行样本选取,其中,样本选取规则可采用等距随机抽样或简单随机抽样。可选的,每个样本的替换样本须与该样本属于同一层,各样本的替换样本可以重复,但是进行替换后该替换样本不可再次替换,保证样本库的互异性。可选的,当增加样本或进行样本替换后应与原样本列表进行对比,偏离度需满足一定误差范围。本专利技术的一种基于机器学习的零售终端样本抽样方法,与现有技术相比具有的有益效果是:本专利技术在考虑了异常零售户的基础上,对零售户既有维度和自定义维度选定的特征基于机器学习算法进行分层,达到科学均衡的分层分组,并且提高了分层的准确性,对每层进行样本选定,并对选定的样本预备替换样本库,提高分析的鲁棒性。具体实施方式为使本专利技术的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本专利技术的技术方案进行清楚、完整的描述。实施例一:本实施例提出一种基于机器学习的零售终端样本抽样方法,其包括数据采集、数据清洗、特征选取、数据分层、样本选取、替换样本预备六个阶段。S1、数据采集阶段:采集某区域零售终端的零售户基本信息及销售数据。在步骤S1的数据采集阶段,所采集的区域可以自行选定,如华东、华中、华北等地区,也可选定山东、江苏、广西等省市;零售终端选取可支持线上销售的设备,包括但不限于电脑和手机;零售户的基本信息及销售数据包括且不限于零售户的档位、类型、区域、销售笔数、销量、销额、期末库存、购进量各信息。S2、数据清洗阶段:基于零售户的基本信息及销售数据,设定阈值,对零售户进行清洗,去除异常零售户。在步骤S2的数据清洗阶段,根据步骤S1采集的零售户基本信息及销售数据,对对各项销售指标设定阈值,根据设定的阈值,过滤去掉销售数据异常的零售户。S3、特征选取阶段:根据所采集的零售户基本信息及销售数据,选取既有特征或自定义特征。既有特征是基于所采集零售户基本信息及销售数据直接得到的特征数据,包括且不限于包括销量、结余库存、销售笔数、销售金额、在线时长;自定义特征是基于所采集零售户基本信息及销售数据人工计算或总结得到的特征数据,包括且不限于包括存销比、扫码集中度、时间拟合度。S4、数据分层阶段:基于机器学习算法,根据零售户的既有特征或自定义特征,确定样本分层数。在步骤S4的数据分层阶段,采用的机器学习算法为K-Means算法或神经网络算法,K-Means算法或神经网络算法对零售户的既有特征或自定义特征进行归一化操作,去除奇异值,并加速收敛过程,确定样本分层数。S5、样本选取阶段:基于零售户的销售数据,获取该零售户的购进量,进而确定每层样本量并随机抽样得出样本列表。在步骤S5的样本选取阶段,将经过数据清洗阶段的零售户作为总体样本量按比例分配至各层,对各层零售户分别确定样本量,然后基于规则在每层中进行样本选取,其中,样本选取规则可采用等距随机抽样或简单随机抽样。S6、替换样本预备阶段:将经过数据清洗阶段的零售户划分为样本零售户组和非样本零售户组,以每一样本零售户为质心,计算与该样本零售户同一分层下所有零售户与该样本零售户的距离,选定多个替换样本并存储于替换样本库。在步骤S6的替换样本预备阶段,在进行样本替换时,每个样本的替换样本须与该样本属于同一层,各样本的替换样本可以重复,但是进行替换后该替换样本不可再次替换,从而保证样本库的互异性。另外,需要注意的时,当增加样本或进行样本替换后应与原样本列表进行对比,偏离度需满足一定误差范围。基于本文档来自技高网...

【技术保护点】
1.一种基于机器学习的零售终端样本抽样方法,其特征在于,该方法包括如下内容:/nS1、数据采集阶段:采集某区域零售终端的零售户基本信息及销售数据;/nS2、数据清洗阶段:基于零售户的基本信息及销售数据,设定阈值,对零售户进行清洗,去除异常零售户;/nS3、特征选取阶段:根据所采集的零售户基本信息及销售数据,选取既有特征或自定义特征;/nS4、数据分层阶段:基于机器学习算法,根据零售户的既有特征或自定义特征,确定样本分层数;/nS5、样本选取阶段:基于零售户的销售数据,获取该零售户的购进量,进而确定每层样本量并随机抽样得出样本列表;/nS6、替换样本预备阶段:将经过数据清洗阶段的零售户划分为样本零售户组和非样本零售户组,以每一样本零售户为质心,计算与该样本零售户同一分层下所有零售户与该样本零售户的距离,选定多个替换样本并存储于替换样本库。/n

【技术特征摘要】
1.一种基于机器学习的零售终端样本抽样方法,其特征在于,该方法包括如下内容:
S1、数据采集阶段:采集某区域零售终端的零售户基本信息及销售数据;
S2、数据清洗阶段:基于零售户的基本信息及销售数据,设定阈值,对零售户进行清洗,去除异常零售户;
S3、特征选取阶段:根据所采集的零售户基本信息及销售数据,选取既有特征或自定义特征;
S4、数据分层阶段:基于机器学习算法,根据零售户的既有特征或自定义特征,确定样本分层数;
S5、样本选取阶段:基于零售户的销售数据,获取该零售户的购进量,进而确定每层样本量并随机抽样得出样本列表;
S6、替换样本预备阶段:将经过数据清洗阶段的零售户划分为样本零售户组和非样本零售户组,以每一样本零售户为质心,计算与该样本零售户同一分层下所有零售户与该样本零售户的距离,选定多个替换样本并存储于替换样本库。


2.根据权利要求1所述的一种基于机器学习的零售终端样本抽样方法,其特征在于,在步骤S1的数据采集阶段,
某区域的零售终端选取可支持线上销售的设备,包括但不限于电脑和手机;
零售户的基本信息及销售数据包括且不限于零售户的档位、类型、区域、销售笔数、销量、销额、期末库存、购进量各信息。


3.根据权利要求2所述的一种基于机器学习的零售终端样本抽样方法,其特征在于,在步骤S2的数据清洗阶段,根据步骤S1采集的零售户基本信息及销售数据,对对各项销售指标设定阈值,根据设定的阈值,过滤去掉销售数据异常的零售户。

【专利技术属性】
技术研发人员:周凯
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1