基于非平衡集成学习的报关单预判模型训练方法及装置制造方法及图纸

技术编号：37056184 阅读：18 留言：0更新日期：2023-03-29 19:33

本发明专利技术公开了一种基于非平衡集成学习的报关单预判模型训练方法及装置，通过收集历史报关单数据，得到样本数据，对样本数据采用分层随机抽样方式进行分割，得到训练集和测试集；构建报关单预判模型，报关单预判模型为采用加权交叉熵损失函数的Xgboost模型，加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种；根据训练集训练报关单预判模型，在训练过程中调整报关单预判模型中的样本权重，样本权重为初始权重和时间价值权重的乘积，根据测试集测试经过训练的报关单预判模型，确定调整的网络模型参数和加权交叉熵损失函数。该方法明显加强模型对于报关单风险的学习能力，有效提高查验有效率。有效提高查验有效率。有效提高查验有效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于非平衡集成学习的报关单预判模型训练方法及装置

[0001]本专利技术涉及报关单预判领域，具体涉及一种基于非平衡集成学习的报关单预判模型训练方法及装置。

技术介绍

[0002]报关单风险预判是海关非贸业务对于进口部分风险控制的重要部分，现有的布控方式主要由专家规则布控和人工布控两部分组成。其中，专家规则布控主要由业务专家根据历史报关单数据梳理规则条件，对于符合规则的新申报报关单进行布控。人工布控主要有风控人员结合实事热点，对新申报报关单按照一定数量比例进行布控。目前，旅客行李物品现有布控方式的查验有效率1％
‑
3％之间，因此：查验有效率低，查验有效率的定义为查获风险数/查验数量。
[0003]报关单风险主要区分为涉税风险和安全准入风险，对于每种风险，采用二分类方式，判断报关单是否有涉税风险、安全准入风险。对于二分类问题，常用算法的损失函数为交叉熵损失函数，交叉熵损失函数的合理使用前提是对于二分类的两种分类类别标签在训练集中有平均的分布，而对于海关非贸历史报关单数据来说，这个分布是极度不平衡的，现有关区历史报关单的类别共分为三种，黑名单(查验后发现风险)、白名单(查验后未发现风险)、灰名单(未进行查验)。为了保证旅客入境通畅，整体查验率较低，在现有旅客行李物品的安全准入风险数据中，灰名单：白名单：黑名单＝800:70:1，在涉税风险数据中，灰名单：白名单：黑名单＝220:50:1，正常黑白名单比值超过4:1都会影响模型最终的分类效果。在旅客行李物品风险检测中，灰名单因为查验结果未知，但是根据...

【技术保护点】

【技术特征摘要】
1.一种基于非平衡集成学习的报关单预判模型训练方法，其特征在于，包括以下步骤：S1，收集历史报关单数据，并标注样本类别作为标签，将所述历史报关单数据进行特征工程处理，得到特征数据，将所述特征数据进行特征编码，得到样本数据，对所述样本数据采用分层随机抽样方式进行分割，得到训练集和测试集；S2，构建报关单预判模型，所述报关单预判模型为采用加权交叉熵损失函数的Xgboost模型，所述加权交叉熵损失函数包括乘数加权交叉熵损失函数、聚焦损失交叉熵损失函数和梯度均衡交叉熵损失函数中的其中一种；S3，根据所述训练集训练所述报关单预判模型，在训练过程中调整所述报关单预判模型中的样本权重，所述样本权重为初始权重和时间价值权重的乘积，所述初始权重根据样本类别设置，所述时间价值权重根据所述历史报关单数据发生时间与训练时间的距离长短设置；S4，根据所述测试集测试经过训练的所述报关单预判模型，基于经过训练的所述报关单预判模型符合预设要求，确定调整后的网络模型参数和加权交叉熵损失函数。2.根据权利要求1所述的基于非平衡集成学习的报关单预判模型训练方法，其特征在于，所述步骤S1中将所述历史报关单数据进行特征工程处理，得到特征数据，具体包括：根据所述历史报关单数据的数据类型进行特征处理，得到每个数据类型下的特征；根据每个特征的信息增益进行特征筛选，得到所述特征数据。3.根据权利要求1所述的基于非平衡集成学习的报关单预判模型训练方法，其特征在于，所述步骤S1中特征编码的方式包括类别编码和分箱。4.根据权利要求1所述的基于非平衡集成学习的报关单预判模型训练方法，其特征在于，所述步骤S1中对所述样本数据采用分层随机抽样方式进行分割，具体包括：将所述样本数据采用分层采样按比例分割成训练集和测试集，并且所述训练集采用k折交叉验证的方式对所述报关单预判模型进行训练。5.根据权利要求1所述的基于非平衡集成学习的报关单预判模型训练方法，其特征在于，所述步骤S2中乘数加权交叉熵损失函数表示为：其中，y
i
表示样本数据i的类别，y
i
＝1表示样本为黑名单，y
i
＝0表示样本为白名单，m为样本数据的总数，表示样本数据i为黑名单的预测概率值，α表示乘数系数；聚焦损失交叉熵损失函数表示为：其中，γ表示指数系数；梯度均衡交叉熵损失函数表示为：梯度均衡交叉熵损失函数表示为：其中，p
i
表示样本数据i为黑名单的预测概率值，β通过每个样本数据i的梯度密度求得，β的计算公式如下：
其中，GD(g
i
)为梯度密度，梯度密度通过预测概率值p
i
与实际值p
i*
差值的绝对值|p
i
‑
p

【专利技术属性】
技术研发人员：林铠欣，王良，张荣杰，刘键涛，魏秋新，
申请(专利权)人：福建电子口岸股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人