当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于XGBoost推荐算法的车辆销量预测方法技术

技术编号:24856657 阅读:39 留言:0更新日期:2020-07-10 19:09
本发明专利技术公开了一种基于XGBoost推荐算法的车辆销量预测方法,首先,利用“0”值填充、均值填充、众数填充和XGBoost填充等实现对数据的精准填充;然后,基于填充好的数据,利用车辆产量和销量的滑窗技术,结合one_hot编码技术来进行车辆信息的特征值提取;最后,将提取的车辆信息特征输入到一种基于XGBoost算法的高精度车辆预测模型XFVS中,实现对车辆销量的精确预测。该方法依据车辆的历史销量数据,通过对缺失数据的填充和重要特征的提取,达到提高预测精度的目的。

【技术实现步骤摘要】
一种基于XGBoost推荐算法的车辆销量预测方法
本专利技术属于销量预测
,涉及一种车辆销量预测方法,具体涉及一种基于XGBoost推荐算法的车辆销量预测方法。
技术介绍
精准的乘用车销量预测对乘用车企业和政府至关重要。对于乘用车企业,乘用车的研发和生产过程需要比较大的研发费用、时间成本和库存成本,乘用车企业如何利用消费者购买乘用车时,选购车辆所依据的车辆属性、销售价格、销售日期等销售数据进行精准的车辆销量预测,从而进行合理的生产计划制定,调整生产,控制成本,减少损失非常关键。对于政府部门,可以利用乘用车销量预测来把握乘用车市场的发展,监测产能,调整乘用车行业发展政策。鉴于精确的车辆销量预测广泛的应用前景和巨大的经济价值,近年来车辆销量预测已成为汽车生产企业、政府部门和学术研究者备受关注的前沿方向。现有的车辆销量预测方法都是从国内生产总值、收入水平、可支配收入等经济指标来分析对车辆销量影响的因素,然后进行销量预测,但是没有从消费者的需求出发考虑品牌、车型、车型类别、排量、成交价格段、功率、燃料种类、车辆大小等车辆本身指标,造成车辆预测对经济单一指标依赖性太强,预测值波动过大和预测精度较低等,无法提高精确的车辆销量预测。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种基于XGBoost推荐算法的车辆销量预测方法。本专利技术所采用的技术方案是:一种基于XGBoost推荐算法的车辆销量预测方法,其特征在于,包括以下步骤:步骤1:获取原始数据集;步骤2:对原始数据集进行处理,包括均值填充、XGBoost填充和”0”值填充操作,最后输出完整的数据集;步骤3:针对输出完整的数据集进行特征提取;采用one_hot编码获取车辆的类别特征,采用生成唯一配置获取车辆基础特征,采用基于时序差分滑动窗口方法获取车辆的时序特征,形成特征集供模型训练和预测使用;步骤4:根据具体需求提取出对应数据特征,将数据特征输入到线性回归模型、GBDT、XGBoost和LSTM神经网络模型中;并从这四个预测模型中,根据预测精度和性能选出最好的模型XGBoost预测算法作为高精度车辆销量预测模型;步骤5:将提取到的特征数据Xt={Xt1,Xt2,Xt3,...,XtT}输入到基于XGBoost模型中,实现对车辆销量的预测;所述XGBoost模型为:其中,是基于时间序列t的预测值,Xt={Xt1,Xt2,Xt3,...,XtT}是提取到的基于时间序列的特征集合,ρ是模型的参数集合,Remp(f)是经验风险;对于线性回归预测和非线性回归的预测函数f分别为:F(x,ρ)=ax+b(1)F(x,ρ)=(a.ψ(x))+b(2)对于数据在输入空间中是线性的数据,使用公式1进行线性回归预测;对于数据在输入空间中不是线性数据,通过核函数将数据映射到高维的特征空间去执行高维特征空间中的线性回归,从而将经验风险最小化,提高车辆销量的预测精度。本专利技术利用车辆销量数据集,通过对数据集进行均值填充、“0”值填充和XGBoost填充等数据填充获取完整的数据,采用基于销量的时序差分滑动窗口方法,结合one_hot编码技术来进行车辆信息的特征值提取,将提取的特征输入到基于XGBoost模型的预测算法中实现高精度的车辆销量预测。该方法能够提高车辆的销量预测精度,降低企业的生产成本,为政府部门把握乘用车市场的发展,监测产能,调整乘用车行业发展政策提供理论支持。附图说明图1是本专利技术实施的基于时序差分滑动窗口方法的流程图。图2是本专利技术实施例的车辆销量预测模型流程图。图3是本专利技术实施例的模型参数调整过程流程图。具体实现方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。请见图1,本专利技术提供的一种基于XGBoost推荐算法的车辆销量预测方法,包括以下步骤:步骤1:从阿里云的天池大赛平台上获取原始数据集;步骤2:对原始数据集进行处理,包括均值填充、XGBoost填充和”0”值填充操作,最后输出完整的数据集;本实施例中均值填充,首先定义R={Pj,Cj,Bj,CLj}表示一个组,j属于N表示组的序号,Pj表示销售省份ID,Cj表示销售城市ID,Bj表示销售车辆品牌ID,CLj表示销量车辆车型ID,R内字段都相同的数据表示为同一个组;在进行均值填充时,同一组内的数据按照获取需要填充数据的均值,其中Avgi表示组内均值,Sumi表示组内需要填充数据的的各个条目相加的总值,numi为组内条目数目。本实施例中XGBoost填充,对于同一组内的相同省份、相同汽车品牌和相同车型的数据,利用已知的基础数据输入到XGBoost算法中进行预测,然后将预测出的值,填入到缺失数据中,进行XGBoost填充。本实施例中”0”值填充,主要针对一些无法填充,但是如果删除该字段,影响模型提取特征和对预测结果产生影响的字段,采取“0”值填充的方式,将该字段填充为“0”。步骤3:针对输出完整的数据集进行特征提取;采用one_hot编码获取车辆的类别特征,采用生成唯一配置获取车辆基础特征,采用基于时序差分滑动窗口方法获取车辆的时序特征,形成特征集供模型训练和预测使用;本实施例中采用one_hot编码获取车辆的类别特征,通过将原始的一维特征转化为多维特征,维度的大小取决于原始特征不同特征值的个数,从而将原始类别变量变为二进制向量的表示,在二进制向量中只有一位索引值是1,其他位置的值都是0,来提取车辆的类别特征。本实施例中在数据集中存在部分数据的配置属性不唯一,对特征提取造成较大的影响。例如车型、品牌等相同的数据,但是存在多种不同的功率,由于该预测系统是针对单个品牌和车型的销量进行预测,不对功率进行预测,需要对车辆功率进行属性唯一化操作。按照公式3,将单条记录的销量除去组内总销量获取权重,然后利用公式4将组内各条属性与权重相乘,相加到一起合并到一条记录。完成唯一化配置之后进行对应的置换填充,将相同车型、品牌等数据相同的条目的功率进行唯一化,消除配置属性不唯一对车辆销量预测精度造成的影响,从而为提高车辆销量预测精度打下基础。式中Sale表示乘用车销量,w表示该条销量在组内所占的权重。pitem=Sum(item*w)(4)式中item表示组内的一个条目,w表示该条数据在组内所占的权重,Pitem表示属性唯一化之后获得的数值。通过one_hot编码、生成唯一配置、基于时序差分滑动窗口方法等特征提取方法,获取车辆的类别特征、车辆基础特征、时序特征为下一阶段模型训练提供数据基础。请见图2,本实施例中采用基于时序差分滑动窗口方法获取车辆的时序特征,由于乘用车产量和销量数据具有时序性和周期性特征,当前月份的产量和销量与前几个月的销量存在一定的联系,比本文档来自技高网...

【技术保护点】
1.一种基于XGBoost推荐算法的车辆销量预测方法,其特征在于,包括以下步骤:/n步骤1:获取原始数据集;/n步骤2:对原始数据集进行处理,包括均值填充、XGBoost填充和”0”值填充操作,最后输出完整的数据集;/n步骤3:针对输出完整的数据集进行特征提取;/n采用one_hot编码获取车辆的类别特征,采用生成唯一配置获取车辆基础特征,采用基于时序差分滑动窗口方法获取车辆的时序特征,形成特征集供模型训练和预测使用;/n步骤4:根据具体需求提取出对应数据特征,将数据特征输入到线性回归模型、GBDT、XGBoost和LSTM神经网络模型中;并从这四个预测模型中,根据预测精度和性能选出最好的模型XGBoost预测算法作为高精度车辆销量预测模型;/n步骤5:将提取到的特征数据X

【技术特征摘要】
1.一种基于XGBoost推荐算法的车辆销量预测方法,其特征在于,包括以下步骤:
步骤1:获取原始数据集;
步骤2:对原始数据集进行处理,包括均值填充、XGBoost填充和”0”值填充操作,最后输出完整的数据集;
步骤3:针对输出完整的数据集进行特征提取;
采用one_hot编码获取车辆的类别特征,采用生成唯一配置获取车辆基础特征,采用基于时序差分滑动窗口方法获取车辆的时序特征,形成特征集供模型训练和预测使用;
步骤4:根据具体需求提取出对应数据特征,将数据特征输入到线性回归模型、GBDT、XGBoost和LSTM神经网络模型中;并从这四个预测模型中,根据预测精度和性能选出最好的模型XGBoost预测算法作为高精度车辆销量预测模型;
步骤5:将提取到的特征数据Xt={Xt1,Xt2,Xt3,...,XtT}输入到基于XGBoost模型中,实现对车辆销量的预测;
所述XGBoost模型为:



其中,是基于时间序列t的预测值,Xt={Xt1,Xt2,Xt3,...,XtT}是提取到的基于时间序列的特征集合,ρ是模型的参数集合,Remp(f)是经验风险;
对于线性回归预测和非线性回归的预测函数f分别为:
F(x,ρ)=ax+b(1)
F(x,ρ)=(a.ψ(x))+b(2)
对于数据在输入空间中是线性的数据,使用公式1进行线性回归预测;对于数据在输入空间中不是线性数据,通过核函数将数据映射到高维的特征空间去执行高维特征空间中的线性回归,从而将经验风险最小化,提高车辆销量的预测精度。


2.根据权利要求1所述的基于XGBoost推荐算法的车辆销量预测方法,其特征在于:步骤2中所述均值填充,首先定义R={Pj,Cj,Bj,CLj}表示一个组,j属于N表示组的序号,Pj表示销售省份ID,Cj表示销售城市ID,Bj表示销售车辆品牌ID,CLj表示销量车辆车型ID,R内字段都相同的数据表示为同一个组;在进行均值填充时,同一组内的数据按照获取需要填充数据的均值,其中Avgi表示组内均值,Sumi表示组内需要填充数据的的各个条目相加的总值,numi为组内条目数目。


3.根据权利要求1所述的基于XGBoost推荐算法的车辆销量预测方法,其特征在于:步骤2中所述XGBoost填充,对于同一组内的相同省份、相同汽车品牌和相同车型的数据,利用已知的基础数据输入到XGBoost算法中进行预测,然后将预测出的值,填入到缺失数据中,进行XGBoost填充。


4.根据权利要求1所述的基于XGBoost推荐算法的车辆销量预测方法,其特征在于:步骤2中所述”0”值填充,主要针对一些无法填充,但是如果删除该字段...

【专利技术属性】
技术研发人员:吴黎兵夏振厂樊浩南吴煜陈俊杰
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1