基于非平衡集成学习的报关单预判模型训练方法及装置制造方法及图纸

技术编号:37056184 阅读:18 留言:0更新日期:2023-03-29 19:33
本发明专利技术公开了一种基于非平衡集成学习的报关单预判模型训练方法及装置,通过收集历史报关单数据,得到样本数据,对样本数据采用分层随机抽样方式进行分割,得到训练集和测试集;构建报关单预判模型,报关单预判模型为采用加权交叉熵损失函数的Xgboost模型,加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种;根据训练集训练报关单预判模型,在训练过程中调整报关单预判模型中的样本权重,样本权重为初始权重和时间价值权重的乘积,根据测试集测试经过训练的报关单预判模型,确定调整的网络模型参数和加权交叉熵损失函数。该方法明显加强模型对于报关单风险的学习能力,有效提高查验有效率。有效提高查验有效率。有效提高查验有效率。

【技术实现步骤摘要】
基于非平衡集成学习的报关单预判模型训练方法及装置


[0001]本专利技术涉及报关单预判领域,具体涉及一种基于非平衡集成学习的报关单预判模型训练方法及装置。

技术介绍

[0002]报关单风险预判是海关非贸业务对于进口部分风险控制的重要部分,现有的布控方式主要由专家规则布控和人工布控两部分组成。其中,专家规则布控主要由业务专家根据历史报关单数据梳理规则条件,对于符合规则的新申报报关单进行布控。人工布控主要有风控人员结合实事热点,对新申报报关单按照一定数量比例进行布控。目前,旅客行李物品现有布控方式的查验有效率1%

3%之间,因此:查验有效率低,查验有效率的定义为查获风险数/查验数量。
[0003]报关单风险主要区分为涉税风险和安全准入风险,对于每种风险,采用二分类方式,判断报关单是否有涉税风险、安全准入风险。对于二分类问题,常用算法的损失函数为交叉熵损失函数,交叉熵损失函数的合理使用前提是对于二分类的两种分类类别标签在训练集中有平均的分布,而对于海关非贸历史报关单数据来说,这个分布是极度不平衡的,现有关区历史报关单的类别共分为三种,黑名单(查验后发现风险)、白名单(查验后未发现风险)、灰名单(未进行查验)。为了保证旅客入境通畅,整体查验率较低,在现有旅客行李物品的安全准入风险数据中,灰名单:白名单:黑名单=800:70:1,在涉税风险数据中,灰名单:白名单:黑名单=220:50:1,正常黑白名单比值超过4:1都会影响模型最终的分类效果。在旅客行李物品风险检测中,灰名单因为查验结果未知,但是根据查验有效率以及黑名单总数据占比,可以确定灰名单中实际白名单的占比也非常大,因此在数据引用中,往往将灰名单也当作白名单进行使用,这样一来,黑白名单比例变得更加极端。常见的处理非平衡二分类问题的方法包括负/过采样、扩大数据集、修改评价方式、调整阈值,这类方法在现有情况下,难以适应极度不平衡的数据情况。由于类别数据极度不平衡加大模型训练难度,导致模型效果也受到影响。

技术实现思路

[0004]针对上述提到的类别数据极度不平衡导致模型训练难度大、训练效果差、报关单查验有效率低等问题。本申请的实施例的目的在于提出了一种基于非平衡集成学习的报关单预判模型训练方法及装置,来解决以上
技术介绍
部分提到的技术问题。
[0005]第一方面,本申请的实施例提供了一种基于非平衡集成学习的报关单预判模型训练方法,包括以下步骤:
[0006]S1,收集历史报关单数据,并标注样本类别作为标签,将历史报关单数据进行特征工程处理,得到特征数据,将特征数据进行特征编码,得到样本数据,对样本数据采用分层随机抽样方式进行分割,得到训练集和测试集;
[0007]S2,构建报关单预判模型,报关单预判模型为采用加权交叉熵损失函数的Xgboost
模型,加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种;
[0008]S3,根据训练集训练报关单预判模型,在训练过程中调整报关单预判模型中的样本权重,样本权重为初始权重和时间价值权重的乘积,初始权重根据样本类别设置,时间价值权重根据历史报关单数据发生时间与训练时间的距离长短设置;
[0009]S4,根据测试集测试经过训练的报关单预判模型,基于经过训练的报关单预判模型符合预设要求,确定调整后的网络模型参数和加权交叉熵损失函数。
[0010]在一些实施例中,步骤S1中将历史报关单数据进行特征工程处理,得到特征数据,具体包括:
[0011]根据历史报关单数据的数据类型进行特征处理,得到每个数据类型下的特征;
[0012]根据每个特征的信息增益进行特征筛选,得到特征数据。
[0013]在一些实施例中,步骤S1中特征编码的方式包括类别编码和分箱。
[0014]在一些实施例中,步骤S1中对样本数据采用分层随机抽样方式进行分割,具体包括:将样本数据采用分层采样按比例分割成训练集和测试集,并且训练集采用k折交叉验证的方式对报关单预判模型进行训练。
[0015]在一些实施例中,步骤S2中乘数加权交叉熵损失函数表示为:
[0016][0017]其中,y
i
表示样本数据i的类别,y
i
=1表示样本为黑名单,y
i
=0表示样本为白名单,m为样本数据的总数,表示样本数据i为黑名单的预测概率值,α表示乘数系数;
[0018]聚焦损失交叉熵损失函数表示为:
[0019][0020]其中,γ表示指数系数;
[0021]梯度均衡交叉熵损失函数表示为:
[0022][0023][0024]其中,p
i
表示样本数据i为黑名单的预测概率值,β通过每个样本数据i的梯度密度求得,β的计算公式如下:
[0025][0026]其中,GD(gi)为梯度密度,梯度密度通过预测概率值p
i
与实际值p
i*
差值的绝对值|p
i

p
i*
|计算得到。
[0027]在一些实施例中,在报关单预判模型训练前进行参数调优,参数包括学习率、最大步长、最小叶子节点数、训练轮数、L1正则项系数、随机特征选取比例、加权交叉熵损失函数的乘数系数α、指数系数γ,并采用网格搜索的方式确定在测试集中表现最佳的参数组合。
[0028]第二方面,本申请的实施例提供了一种基于非平衡集成学习的报关单预判方法,包括以下步骤:
[0029]T1,获取报关单数据,并对报关单数据进行特征工程处理和特征编码,得到编码后
的报关单数据;
[0030]T2,采用上述的基于非平衡集成学习的报关单预判模型训练方法训练的报关单预判模型对编码后的报关单数据进行预测,预测得到报关单数据的样本类别和预测概率。
[0031]第三方面,本申请的实施例提供了一种基于非平衡集成学习的报关单预判模型训练装置,包括:
[0032]数据获取模块,被配置为收集历史报关单数据,并标注样本类别作为标签,将历史报关单数据进行特征工程处理,得到特征数据,将特征数据进行特征编码,得到样本数据,对样本数据采用分层随机抽样方式进行分割,得到训练集和测试集;
[0033]模型构建模块,被配置为构建报关单预判模型,报关单预判模型为采用加权交叉熵损失函数的Xgboost模型,加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种;
[0034]模型训练模块,被配置为根据训练集训练报关单预判模型,在训练过程中调整报关单预判模型中的样本权重,样本权重为初始权重和时间价值权重的乘积,初始权重根据样本类别设置,时间价值权重根据历史报关单数据发生时间与训练时间的距离长短设置;
[0035]模型测试模块,被配置为根据测试集测试经过训练的报关单预判模型,基于经过训练的报关单预判模型符合预设要求,确定调整后的网络模型参数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于非平衡集成学习的报关单预判模型训练方法,其特征在于,包括以下步骤:S1,收集历史报关单数据,并标注样本类别作为标签,将所述历史报关单数据进行特征工程处理,得到特征数据,将所述特征数据进行特征编码,得到样本数据,对所述样本数据采用分层随机抽样方式进行分割,得到训练集和测试集;S2,构建报关单预判模型,所述报关单预判模型为采用加权交叉熵损失函数的Xgboost模型,所述加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种;S3,根据所述训练集训练所述报关单预判模型,在训练过程中调整所述报关单预判模型中的样本权重,所述样本权重为初始权重和时间价值权重的乘积,所述初始权重根据样本类别设置,所述时间价值权重根据所述历史报关单数据发生时间与训练时间的距离长短设置;S4,根据所述测试集测试经过训练的所述报关单预判模型,基于经过训练的所述报关单预判模型符合预设要求,确定调整后的网络模型参数和加权交叉熵损失函数。2.根据权利要求1所述的基于非平衡集成学习的报关单预判模型训练方法,其特征在于,所述步骤S1中将所述历史报关单数据进行特征工程处理,得到特征数据,具体包括:根据所述历史报关单数据的数据类型进行特征处理,得到每个数据类型下的特征;根据每个特征的信息增益进行特征筛选,得到所述特征数据。3.根据权利要求1所述的基于非平衡集成学习的报关单预判模型训练方法,其特征在于,所述步骤S1中特征编码的方式包括类别编码和分箱。4.根据权利要求1所述的基于非平衡集成学习的报关单预判模型训练方法,其特征在于,所述步骤S1中对所述样本数据采用分层随机抽样方式进行分割,具体包括:将所述样本数据采用分层采样按比例分割成训练集和测试集,并且所述训练集采用k折交叉验证的方式对所述报关单预判模型进行训练。5.根据权利要求1所述的基于非平衡集成学习的报关单预判模型训练方法,其特征在于,所述步骤S2中乘数加权交叉熵损失函数表示为:其中,y
i
表示样本数据i的类别,y
i
=1表示样本为黑名单,y
i
=0表示样本为白名单,m为样本数据的总数,表示样本数据i为黑名单的预测概率值,α表示乘数系数;聚焦损失交叉熵损失函数表示为:其中,γ表示指数系数;梯度均衡交叉熵损失函数表示为:梯度均衡交叉熵损失函数表示为:其中,p
i
表示样本数据i为黑名单的预测概率值,β通过每个样本数据i的梯度密度求得,β的计算公式如下:
其中,GD(g
i
)为梯度密度,梯度密度通过预测概率值p
i
与实际值p
i*
差值的绝对值|p
i

p

【专利技术属性】
技术研发人员:林铠欣王良张荣杰刘键涛魏秋新
申请(专利权)人:福建电子口岸股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1