一种基于集成学习的网络货运平台运单投诉预测方法技术

技术编号:39314431 阅读:12 留言:0更新日期:2023-11-12 15:58
本发明专利技术公开了一种基于集成学习的网络货运平台运单投诉预测方法,涉及数据挖掘技术领域;所述预测方法包括以下步骤:确定建模时间窗口,从数据库中提取与承运人运单投诉相关的指标和所述指标对应的指标数据;将提取到的指标数据进行数据清洗和数据预处理得到样本指标;对样本指标进行筛选得到承运人运单投诉预测指标体系;采用随机划分的方式,将预测指标体系中的数据集划分为训练集和测试集;通过过采样技术将新产生的数据添加到训练集中的正类样本中;使用stacking集成学习的方式构建并训练集成预测模型,对样本数据进行预测;基于集成预测模型,预测网络货运平台新产生的运单中是否存在潜在投诉行为。中是否存在潜在投诉行为。中是否存在潜在投诉行为。

【技术实现步骤摘要】
一种基于集成学习的网络货运平台运单投诉预测方法


[0001]本专利技术涉及数据挖掘
,具体为一种基于集成学习的网络货运平台运单投诉预测方法。

技术介绍

[0002]网络货运平台作为一种“互联网+货运”的新兴产业,通过在线平台实现货物运输需求的匹配和协调,极大地提升了货运效率。承运人作为平台货物运输服务的主要承担者,他们的运输质量直接影响了平台的承运能力,所以提高承运人的满意度对平台至关重要。为此,需要特别重视承运人运单投诉的情况。
[0003]目前平台对于承运人投诉运单的处理往往存在滞后性,需要一种方式对潜在问题运单进行投诉预测,从而让平台工作人员在承运人投诉行为产生前进行介入,提高承运人满意度。此外,由于投诉行为的特性,直接用传统机器学习方式进行预测时往往会产生样本极不均衡的问题,极大影响了预测准确率。并且,由于运单投诉预测问题的复杂性,单一的机器学习模型常常难以保证预测准确率。

技术实现思路

[0004]本专利技术的目的在于提供一种基于集成学习的网络货运平台运单投诉预测方法,以解决上述
技术介绍
中提出的问题。
[0005]为了解决上述技术问题,本专利技术提供如下技术方案:一种基于集成学习的网络货运平台运单投诉预测方法,所述预测方法包括以下步骤:
[0006]步骤S100:确定建模时间窗口,从数据库中提取与承运人运单投诉相关的指标和所述指标对应的指标数据;将被承运人投诉的运单标记为正类样本,将未被承运人投诉的运单标记为负类样本;
[0007]步骤S200:将提取到的指标数据进行数据清洗和数据预处理得到样本指标;
[0008]步骤S300:对样本指标进行筛选得到承运人运单投诉预测指标体系;
[0009]步骤S400:采用随机划分的方式,将预测指标体系中的数据集划分为训练集和测试集;
[0010]步骤S500:通过过采样技术将新产生的数据添加到训练集中的正类样本中;
[0011]步骤S600:使用stacking集成学习的方式构建并训练集成预测模型,对样本数据进行预测;基于集成预测模型,预测网络货运平台新产生的运单中是否存在潜在投诉行为。
[0012]进一步的,步骤S100中与承运人运单投诉相关的指标包括了货主历史行为维度、承运人历史行为维度和订单信息维度;
[0013]进一步的,货主历史行为维度包括建模时间窗口内货主违约次数、建模时间窗口内货主回单议价单数、建模时间窗口内货主余额不足单数、司机评分、建模时间窗口内风险卸货单数和建模时间窗口内超载单数等;
[0014]承运人历史行为维度包括承运人类型、年龄、注册天数、建模时间窗口内运单投诉
次数和实名认证状态等;
[0015]订单信息维度包括创建时间、揽收时间、订单类型、启运地、目的地、货物类型和发货金额等。
[0016]进一步的,步骤S200包括以下步骤:
[0017]步骤S201:设定一列连续型指标的指标数据的上四分位点为Q3,下四分位点位Q1,对于所述指标数据中任一个值Q,根据公式:
[0018][0019]其中,Max为最大期望值,Min为最小期望值;当Q>Max或者Q<Min时,则判断所述值Q为异常值;
[0020]步骤S202:当离散型指标的指标数据出现缺失时,则直接删除所述指标数据,将缺失做为一个单独的指标数据;当连续型指标的指标数据出现缺失或异常时,则使用所述指标数据的平均值进行替换;
[0021]步骤S203:对离散型指标的指标数据进行数值化处理,当所述指标数据为顺序时,则直接按照数字进行数值化,当所述指标数据为无序时,采用one

hot编码进行数值化;
[0022]步骤S204:对连续型指标的指标数据进行标准化处理,根据公式:
[0023][0024]其中,x

为标准化后的指标数据,X为原指标数据,μ为连续型指标的指标数据的平均值,σ为连续型指标的指标数据的标准差。
[0025]进一步的,步骤S300包括以下步骤:
[0026]将经过数据清洗和数据预处理的样本指标划分为i组,设定第i组样本指标的证据权重值为WOE
i
,根据公式:
[0027][0028]其中,py1为第i组负类样本占整体负类样本比例,py0为第i组正类样本占整体正类样本比例;B
i
为第i组数据中负类样本数量,B
T
为整体数据中负类样本数量;G
i
为第i组中正类样本数量,G
T
为整体数据中正类样本数量;
[0029]计算得到第i组样本指标的证据权重值WOE
i

[0030]进一步的,步骤S300中对样本指标进行筛选,包括以下步骤:
[0031]步骤S301:设定第i组样本指标的信息价值为IV
i
;根据公式:
[0032]IV
i
=(py1‑
py0)
×
WOE
i
[0033]根据计算得到的证据权重值WOE
i
计算出第i组样本指标的信息价值IV
i

[0034]步骤S302:将得到的i组样本指标的信息价值IV
i
进行合并,根据公式:
[0035][0036]其中,n为样本指标分箱的数量;设置阈值α,当IV<α时,删除所述样本指标得到承运人运单投诉预测指标体系。
[0037]进一步的,步骤S400包括以下步骤:
[0038]将预测指标体系中的数据集划分为训练集和测试集,设定划分后训练集的占比为α,则划分后的测试集的占比为1

α,其中,α>1

α。
[0039]进一步的,步骤S500中过采样方法采用的是SMOTE方法。
[0040]进一步的,步骤S600包括以下步骤:
[0041]步骤S601:将stacking集成学习方法分为两层,第一层采用xgboost、LightGBM、随机森林三个基预测模型,第二层采用逻辑回归模型作为次级预测模型;
[0042]步骤S602:将三个基预测模型的预测结果作为次级预测模型的训练数据,将原数据标签作为次级预测模型的标签,能够有效提高模型预测准确率和泛化能力;
[0043]所述三个基预测模型通常采用分类能力强、训练复杂的机器学习模型,为了防止过拟合,次级预测模型通常采用可解释性强,训练过程简单明了的模型。
[0044]与现有技术相比,本专利技术所达到的有益效果是:本专利技术通过在货主历史行为维度、承运人历史行为维度、运单信息维度的大量指标中筛选出对运单投诉预测贡献度较高的部分指标作为承运人投诉预测指标体系;对于正负类样本量极度不均衡的问题,用过采样的方式均衡样本;针对单一机器学习模型预测准确率低、泛化能力弱的问题,采用stacking方式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集成学习的网络货运平台运单投诉预测方法,其特征在于:所述预测方法包括以下步骤:步骤S100:确定建模时间窗口,从数据库中提取与承运人运单投诉相关的指标和所述指标对应的指标数据;将被承运人投诉的运单标记为正类样本,将未被承运人投诉的运单标记为负类样本;步骤S200:将提取到的指标数据进行数据清洗和数据预处理得到样本指标;步骤S300:对样本指标进行筛选得到承运人运单投诉预测指标体系;步骤S400:采用随机划分的方式,将预测指标体系中的数据集划分为训练集和测试集;步骤S500:通过过采样技术将新产生的数据添加到训练集中的正类样本中;步骤S600:使用stacking集成学习的方式构建并训练集成预测模型,对样本数据进行预测;基于集成预测模型,预测网络货运平台新产生的运单中是否存在潜在投诉行为。2.根据权利要求1所述的一种基于集成学习的网络货运平台运单投诉预测方法,其特征在于:所述步骤S100中与承运人运单投诉相关的指标包括了货主历史行为维度、承运人历史行为维度和订单信息维度。3.根据权利要求1所述的一种基于集成学习的网络货运平台运单投诉预测方法,其特征在于:所述步骤S200包括以下步骤:步骤S201:设定一列连续型指标的指标数据的上四分位点为Q3,下四分位点位Q1,对于所述指标数据中任一个值Q,根据公式:其中,Max为最大期望值,Min为最小期望值;当Q>Max或者Q<Min时,则判断所述值Q为异常值;步骤S202:当离散型指标的指标数据出现缺失时,则直接删除所述指标数据,将缺失做为一个单独的指标数据;当连续型指标的指标数据出现缺失或异常时,则使用所述指标数据的平均值进行替换;步骤S203:对离散型指标的指标数据进行数值化处理,当所述指标数据为顺序时,则直接按照数字进行数值化,当所述指标数据为无序时,采用one

hot编码进行数值化;步骤S204:对连续型指标的指标数据进行标准化处理,根据公式:其中,x

为标准化后的指标数据,X为原指标数据,μ为连续型指标的指标数据的平均值,σ为连续型指标的指标数据的标准差。4.根据权利要求1所述的一种基于集成学习的网络货运平台运单投诉预测方法,其特征在于:所述步骤S300包括以下步骤:将经过数据清洗和数据预处理的样本指标划分为组,设定第组样本指标的证...

【专利技术属性】
技术研发人员:李敬泉王子晨杨晨曦葛欣妍马驰原王文旭刘云飞
申请(专利权)人:中储南京智慧物流科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1