针对用户重复购买预测的模型参数优化方法及设备技术

技术编号:34448758 阅读:39 留言:0更新日期:2022-08-06 16:47
本发明专利技术提供了一种针对用户重复购买预测的模型参数优化方法及设备。所述方法包括:步骤1至步骤9。本发明专利技术采用Spark分布式计算框架基于内存计算的特性,使秃鹰种群被划分为多个秃鹰子种群,然后使用mapPartitionWithIndex算子使每个分区的的子种群实现分布式计算,可以快速有效的搜索出最优的参数组合以提高LightGBM模型的预测精度,且在大数据分布式系统下具有计算速度快和可扩展性的特点。统下具有计算速度快和可扩展性的特点。统下具有计算速度快和可扩展性的特点。

【技术实现步骤摘要】
针对用户重复购买预测的模型参数优化方法及设备


[0001]本专利技术实施例涉及大规模分布式机器学习
,尤其涉及一种针对用户重复购买预测的模型参数优化方法及设备。

技术介绍

[0002]当前,人们之所以愿意在每年的购物节疯狂消费,原因就是商家会在那一天进行大规模的促销活动。然而,被低价、折扣等形式吸引来的新用户往往在促销结束后就再也不会购买,他们就成为了一次性用户,这些用户不会增加店铺未来的销量。因此,店铺急需了解哪些用户可能会成为重复购买其店铺商品的忠诚用户,以便能够对这些用户进行精准营销,这样能够使促销成本大大减小,从而使店铺的投资回报率得到提升。LightGBM作为一种以决策树算法为基础的新型集成预测模型,由于其具有快速和高性能的优点,如今被广泛应用于解决回归、预测和其他的数据挖掘任务。但是目前如何提高预测精度和效率,可以实现在LightGBM预测运行效率可接受范围内的更高预测精度,仍然是本领域的技术空白。因此LightGBM模型的参数优化称为提高预测精度的一个可行途径。因此,开发一种针对用户重复购买预测的模型参数优化方法及设备,可以本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种针对用户重复购买预测的模型参数优化方法,其特征在于,包括:步骤1:从用户、店铺、用户和店铺三个维度构造特征,经过特征优化,选择对模型具有影响力的多个特征作为模型训练的特征,形成最终的训练集,然后将训练集数据存储在分布式文件系统中;步骤2:在主节点Spark Driver上设置分区个数,初始化种群各参数;步骤3:将秃鹰种群的初始位置转化为弹性分布式数据集RDD,读取分布式文件系统中的数据集路径获得分布式训练数据集RDD;步骤4:将秃鹰个体的维度表示为LightGBM模型中需要寻优参数的个数,秃鹰个体的每个维度则表示求解的参数,读取弹性分布式数据集RDD并按比例划分为训练集和验证集;步骤5:将同一分区中的秃鹰子种群和数据集合并生成新的弹性分布式数据集RDD,以AUC值作为适应度函数,计算每个分区子种群中每个秃鹰个体的适应度值;步骤6:获取全局最优适应度值所对应的最优秃鹰个体,并广播最优秃鹰个体;步骤7:对秃鹰种群中的弹性分布式数据集RDD使用mapPartitionWithIndex算子按照秃鹰搜索算法分布式更新秃鹰位置;步骤8:使用步骤5中的方法计算适应度值,然后使用步骤6中的方法得到全局适应度值以及对应的最优秃鹰个体,并使用broadcast广播该个体;步骤9:判断当前的迭代次数是否达到最大迭代次数,若达到则输出全局最优秃鹰个体作为LightGBM的最优参数组合。2.根据权利要求1所述的针对用户重复购买预测的模型参数优化方法,其特征在于,所述初始化种群各参数,包括:初始化秃鹰种群数量以及最大迭代次数。3.根据权利要求2所述的针对用户重复购买预测的模型参数优化方法,其特征在于,所述将秃鹰种群的初始位置转化为弹性分布式数据集RDD,包括:计算秃鹰种群的初始位置并使用parallelize算子将其转化为弹性分布式数据集RDD。4.根据权利要求3所述的针对用户重复购买预测的模型参数优化方法,其特征在于,所述读取分布式文件系统中的数据集路径获得分布式训练数据集RDD,包括:使用Spark中的textFile函数读取分布式文件系统中的数据集路径获得分布式训练数据集RDD并持久化到内存和磁盘中。5.根据权利要求4所述的针对用户重复购买预测的模型参数优化方法,其特征在于,所述计算每个分区子种群中每个秃鹰个体的适应度值,包括:使用mapPartitionWithIndex算子分布式计算每个分区子种群中每个秃鹰个体的适应度值,保留每个分区的最优适应度值。6.根据权利要求5所述的针对用户重复购买预测的模型参数优化方法,其特征在于,所述获取全局最优适应度...

【专利技术属性】
技术研发人员:陈宏伟黄嵩
申请(专利权)人:湖北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1