当前位置: 首页 > 专利查询>上海大学专利>正文

一种多模型融合的烟草市场监管异常数据挖掘方法技术

技术编号:24290201 阅读:48 留言:0更新日期:2020-05-26 20:18
本发明专利技术涉及一种多模型融合的烟草市场监管异常数据挖掘方法。该方法主要有以下几个步骤:(1)对烟草市场监管数据集进行数据预处理,将数据处理成静态特征指标与动态特征指标;(2)分别训练基于深度学习的xDeepFM模型,以及XGBoost、LightGBM等机器学习模型,使得各个单一模型达到最优的训练效果;(3)通过集成学习的Stacking方式,将不同的算法模型集成融合,形成一个在整体性能上优于单个基学习器的集成模型,进而提升模型的预测性能;(4)最后使用LightGBM算法完成零售户异常经营行为的概率预测。该模型不仅有效解决了数据在高纬度的稀疏性问题,还让模型自动的去学习特征之间的交叉特性。充分证明了机器学习算法和深度学习网络结合后,能够表现出更加优越的性能。

An abnormal data mining method of tobacco market supervision based on multi model fusion

【技术实现步骤摘要】
一种多模型融合的烟草市场监管异常数据挖掘方法
本专利技术涉及一种多模型融合的烟草市场监管异常数据挖掘方法,属于计算机数据挖掘

技术介绍
随着数字化信息时代的到来,烟草行业数据量正在以惊人的速度快速增长,这种数字化趋势为机器学习与数据挖掘技术在其生产、物流、监管等各方面的应用创造了新机遇。面向烟草行业的异常数据挖掘也有望从海量的、不完全的、模糊的烟草行业数据中,提取挖掘出零售户在卷烟经营中是否存在涉烟违法的行为信息。异常数据挖掘技术的应用将有效推进整个烟草行业向信息化、智能化方向发展。异常是一个相对复杂的概念,在不同的领域对其有着不同的定义。一种被广泛接受的定义由Hawkins提出:异常是在数据集中与众不同的数据,使人们怀疑这些数据并非随机产生的,而是产生于完全不同的机制。随着异常数据挖掘方法的增多以及研究的深入,对异常数据的定义也随之增多,在烟草专卖市场监管中,针对烟草行业异常数据的定义主要分为以下几个方面:(1)烟草专卖市场监管中异常数据通常是聚类过程中的噪声数据,这些数据不属于任何聚类簇或者是聚类之中的小模式;(2)烟草专本文档来自技高网...

【技术保护点】
1.一种多模型融合的烟草市场监管异常数据挖掘方法,其特征在于,具体操作步骤如下:/n(1)烟草市场监管数据集预处理:将数据处理成静态特征指标与动态特征指标,同时对类别特征使用one-hot编码,统一成数值型数据;/n(2)模型训练:分别采用机器学习算法XGBoost、LightGBM和深度神经网络xDeepFM对数据集进行有监督的学习训练;/n(3)多模型融合训练:使用Stacking集成学习的方式将多个模型进行融合训练,同时加入AdaBoost算法、RF算法、ETR算法和LR算法,加强各模型间算法的差异性,同时弱学习器LR算法起到防止过拟合的作用,让Stacking模型具有更强的鲁棒性;/n...

【技术特征摘要】
1.一种多模型融合的烟草市场监管异常数据挖掘方法,其特征在于,具体操作步骤如下:
(1)烟草市场监管数据集预处理:将数据处理成静态特征指标与动态特征指标,同时对类别特征使用one-hot编码,统一成数值型数据;
(2)模型训练:分别采用机器学习算法XGBoost、LightGBM和深度神经网络xDeepFM对数据集进行有监督的学习训练;
(3)多模型融合训练:使用Stacking集成学习的方式将多个模型进行融合训练,同时加入AdaBoost算法、RF算法、ETR算法和LR算法,加强各模型间算法的差异性,同时弱学习器LR算法起到防止过拟合的作用,让Stacking模型具有更强的鲁棒性;
(4)烟草零售户异常经营行为的预测:通过Stacking第二层中使用的LightGBM算法完成零售户是否存在异常经营行为的概率预测。


2.根据权利要求1所述的多模型融合的烟草市场监管异常数据挖掘方法,其特征在于,所述步骤(1)使用烟草专卖相关数据,基础数据主要包括:经营户静态数据、客户历史数据、订货数据、卷烟主数据、市场检查数据、投诉举报数据、案件数据;针对烟草行业中的海量、多维、动态数据,分析烟草结构化数据的特点,从营销、物流、市场监管、案件多个维度进行分析,通过数据清洗与数据增强手段,从烟草海量数据中检测和消除错误数据、不完整数据和重复数据,从而提高数据的质量,将数据梳理形成静态特征指标与动态特征指标;在数据预处理阶段,还需要对静态指标中的类别数据进行编码,通过观察数据样本发现大多数类别数据在5个类别以下,所以选择使用one-hot编码对类别数据进行编码,一方面防止标签编码带来的赋值顺序问题,另一方面又同时适用于机器学习算法和深度神经网络算法。


3.根据权利要求1所述的多模型融合的烟草市场监管异常数据挖掘方法,其特征在于,所述步骤(2)中的模型训练首先使用5折交叉验证将原数据集划分成5个子数据集送入模型进行训练,然后使用网格搜索的方式确定模型的最佳参数,最后得到每个模型的预测输出,具体步骤如下:
1)XGBoost模型训练:XGBoost极端梯度提升算法,是根据CART树的一种boosting算法,高效地实现了GBDT算法,并进行了算法和工程上的许多改进;
XGBoost模型的目标函数主要包含两个部分:



式中,第一部分是模型的训练误差,即模型的预测结果与样本真实yi的差值;第二部分Ω(fk)是正则项,用于控制模型的复杂度,其中γ和λ是惩罚系数,T和w分别代表叶子节点的个数和分数;
XGBoost模型每次训练一棵新的树都要拟合上一次结果的残差,每次增加的函数的增量要使新一轮的残差尽可能的减小,在进行到第t次时,模型的目标函数写为:



式中:是模型每个样本第t-1次的预测结果;ft(xi)是第t次迭代的函数增量;Ω(ft)是正则项;
模型训练的最终目标是要找到一个能够最小化目标函数的ft(xi),对式(2)采用其在x=0处的泰勒二阶展开式来近似,近似的目标函数为:



其中:是ft(xi)在x=0处的一阶导函数;是ft(xi)在x=0处的二阶导函数;
去掉不影响目标函数最终优化的项,简化为:



2)LightGBM模型训练:该算法主要使用了基于梯度的单边采样和互斥特征捆绑这两种方法来弥补传统Boosting在处理大数据样本时的计算损耗问题;
模型在训练时首先采用基于梯度的单边采样,根据样本的训练梯度进行降序排序,把前a*100%的样本作为大梯度样本数据集,对余下的样本随机选b*(1-a)*100%作为小梯度样本数据集,并对其赋予权重系数(1-a)/b,合并两个样本进行模型的迭代学习;
同时通过互斥特征捆绑的方式将高维空间下相互独立的稀疏特征进行...

【专利技术属性】
技术研发人员:李天举谢志峰丁友东
申请(专利权)人:上海大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1