一种基于数据流处理的非线性系统特征变量显著性挖掘法技术方案

技术编号:20363113 阅读:98 留言:0更新日期:2019-02-16 16:38
本发明专利技术公开了一种基于数据流处理的非线性系统特征变量显著性挖掘法,其中所述方法包括:收集该历史数据,并对其进行预处理;通过闭环结构优化DBSCAN参数,使用DBSCAN聚类划分数据集合;对每一类数据建立基于LGBMRegressor的非线性模型,记录模型的迭代训练过程每一特征变量被使用的次数,用以表征其显著性,并建立显著性特征变量序列;确定各变量数值主要的分布区间,形成单个类的特征值分布区间模型,整合所有类的特征值分布区间模型建立网格模型,最后将显著性特征变量序列映射到网格模型中对应的类,形成复合网格模型;搭建基于Storm的实时计算框架,设计基于流处理的Topology(拓扑结构),同时加载复合网格模型。

【技术实现步骤摘要】
一种基于数据流处理的非线性系统特征变量显著性挖掘法
本专利技术涉及数据流处理和数据挖掘领域,尤其是一种基于数据流处理的非线性系统特征变量显著性挖掘法。
技术介绍
“大数据”在2011年一路走红,在2012年更加闪耀,成为业界当之无愧的焦点。伴随Internet和Web技术的飞速发展,网络日志、互联网搜索索引、电子商务、社交网站等技术的广泛使用带来了数据量的急剧增长。计算机技术在各行各业的普遍使用也促使大量数据的产生,数据以惊人的速度增长,预示着我们己经进入大数据时代。根据国际数据资讯(IDC)公司监测,全球数据量大约每两年翻一番,预计到2020年,全球将拥有35ZB的数据量,这些数据的规模、形式超出了传统数据处理方法所能捕获、管理和处理的能力。大数据时代不仅给我们带来了爆炸式增长的数据量、复杂多样的数据结构,而且也使处理这些数据信息的手段更加复杂。海量数据的存储以及分布式计算成为大数据分析与处理的首要问题。然而,在人们利用分布式计算的手段处理大批量静态数据的同时,大流量数据的实时处理与应用同样也成为了大数据企业与科研人员的关注热点。分布式的大批量数据处理与各种机器学习算法的结合,可以帮助人们从海量的历史数据中获取更加准确、充分的数据模式与价值信息,然后庞大的数据量也会增加计算成本。数据流处理与大批量数据处理最大的区别在于数据流处理的实时性,人们需要在数据流到达后尽快获取知识,并实现实时响应,尤其在气象、金融、网络安全、电子商务、生产制造、欺诈识别等领域,需要实时观测各种实例化系统的状态变化并对数据快速处理以挖掘引起异常变化的显著特征因素。同时,上述领域中的各种实例化系统多为高维特征构成的非线性系统,因此,这也为非线性系统中的特征变量显著性挖掘带来了挑战:(1)无法通过简单的相关性分析挖掘直接影响系统输出的特征变量;(2)无法利用PCA等手段实现降维以简化所研究的非线性系统;(3)现行的显著性检验的应用场景并非上述的非线性系统中的特征变量显著性挖掘;(4)虽然现行的各种针对非线性问题的机器学习算法能够以高精度拟合任意复杂的非线性模型,但其描述非线性系统输入变量权值的数据结构过于繁琐,如神经网络;(5)多数非线性系统的结构并非人为设计,而是由其业务目的与已有的数据结构决定的,如分类、聚类问题,甚至自然语言处理、机器视觉等领域的问题都是非线性问题,其具体问题所对应的原始数据模型是复杂、未知的,因此通过拟合非线性关系挖掘特征变量对于系统输出的影响程度是不现实的。为兼顾数据流处理实时性的要求,以及实现非线性系统中特征变量显著性的简洁描述,故提出一种基于数据流处理的非线性系统特征变量显著性挖掘法。
技术实现思路
本专利技术所要解决的技术问题是:明确结构化数据类型的非线性系统中的特征变量集以及响应变量集,收集该系统的历史数据,并对其进行异常值处理、缺失值处理以及数据标准化;通过闭环结构优化DBSCAN聚类算法的Eps、MinPts两参数,通过DBSCAN聚类划分数据集合,并初步区分各种数据分布特征;对每一类数据建立基于LGBMRegressor的非线性模型,在模型的迭代训练过程中,记录每一特征变量被使用的次数,以该次数表征其对应特征变量的显著性,将特征变量按照显著性大小降序排序形成显著性特征变量序列,以表征该类数据集的特征变量的显著性;针对每一类数据集的各变量值做直方图分析,过滤分布稀疏的数值,并将数据转换为原始数值,确定各变量数值主要的分布区间,形成单个类的特征值分布区间模型,整合所有类的特征值分布区间模型建立网格模型,行网格为各类中不同特征数值的分布区间模型,列网格对应不同类在同一特征上的特征数值的分布区间模型,最后将显著性特征变量序列映射到网格模型中对应的类,形成复合网格模型;搭建基于Storm的实时计算框架,并设计基于流处理的Topology(拓扑结构),该Topology主要由Spout组件与Bolt组件、Spout组件指向Bolt组件的单向流通道以及Bolt组件指向Bolt组件的单向流通道构成,同时设置多个Spout组件接收并发送数据流,设置部分冗余Spout组件以缓解数据流量增大时的系统负载,设置多个已加载复合网格模型的流数据挖掘Bolt组件以接收并处理来自Spout发送的数据,实时挖掘非线性系统中的显著特征变量,并将结果发送至数据可视化Bolt组件,以实时监测系统的运行状态。为此,提出一种基于数据流处理的非线性系统特征变量显著性挖掘法,包括如下步骤:步骤S1:明确非线性系统中的特征变量集以及响应变量集,收集该系统各变量的海量历史数据,并在完成数据预处理后,通过数据持久化技术将其存入数据库;步骤S2:初始化Eps、MinPts两参数,随后对所述步骤S1中经数据预处理后存入数据库中的数据进行DBSCAN聚类分析,将数据集合分类;步骤S3:对所述步骤S2中经过聚类划分后的数据集合,分别基于每一类数据集合建立LGBMRegressor的非线性模型,同时根据模型的响应变量预测值与原始响应变量值计算模型的误差率(为第个聚类对应的非线性模型的误差率),若,(为误差阈值)则返回步骤S2并重新初始化Eps、MinPts两参数,若,则进入步骤S4;步骤S4:重复步骤S3中的非线性建模过程,在模型训练的迭代过程中计算各特征变量的重要性指标以实现非线性系统特征的显著性挖掘,即某个特征变量的重要性值越高,则该特征变量在其对应的非线性系统的显著性越强,将特征变量按照显著性强弱的顺序排序,并记录该排序序列;步骤S5:针对每一类数据集的各变量值做直方图分析,过滤分布稀疏的数值,并借助步骤S1记录的数据标准化算子将数据转换为原始数值,确定各变量数值主要的分布区间,形成单个类的特征值分布区间模型,最后整合所有类的特征值分布区间模型建立网格模型,行网格为各类中不同特征数值的分布区间模型,列网格对应不同类在同一特征上的特征数值的分布区间模型,同时将步骤S4中以显著性强弱排序的特征变量序列映射到网格模型中对应的类,形成复合网格模型,并将该网格该模型持久化到本地内存;步骤S6:搭建基于Storm的实时计算框架,并设计基于数据流处理的Topology(拓扑结构),实现基于数据流处理的非线性系统特征变量的显著性挖掘。本专利技术与现有技术对比的有益效果是:提出一种基于数据流处理的非线性系统特征变量显著性挖掘法,充分发挥非线性系统中静态历史数据的价值属性与数据流处理的实时性,着眼于非线性系统的特诊变量在系统各状态下对输出响应的影响,深度挖掘引起非线性系统变化的因素,为系统实现实时地优化、控制、调节提供一种新的方法。首先挖掘非线性系统的历史数据,在完成数据预处理后不断优化Eps、MinPts两参数以进行DBSCAN聚类,既能够避免后续挖掘过程中出现模型过拟合的现象又能够将数据集合以不同的数据分布进行划分,对各个聚类数据集合进行基于LGBMRegressor模型的非线性拟合,旨在通过数据充分还原系统原始的运行状态,以挖掘各状态下影响系统相应输出的显著特征变量,建立基于显著性特征变量挖掘的复合网格模型并将其加载到流数据处理的框架中,同时结合数据可视化技术,可实现非线性系统的实时监测,及时对系统中的关键环节进行优化、调整等活动。附图说明附图用来提供对本专利技术技术本文档来自技高网
...

【技术保护点】
1.一种基于数据流处理的非线性系统特征变量显著性挖掘法,其特征是包括如下步骤:步骤S1:明确非线性系统中的特征变量集以及响应变量集,收集该系统各变量的海量历史数据,并在完成数据预处理后,通过数据持久化技术将其存入数据库;步骤S2:初始化Eps、MinPts两参数,随后对所述步骤S1中经数据预处理后存入数据库中的数据进行DBSCAN聚类分析,将数据集合分类;步骤S3:对所述步骤S2中经过聚类划分后的数据集合,分别基于每一类数据集合建立LGBMRegressor的非线性模型,同时根据模型的响应变量预测值与原始响应变量值计算模型的误差率

【技术特征摘要】
1.一种基于数据流处理的非线性系统特征变量显著性挖掘法,其特征是包括如下步骤:步骤S1:明确非线性系统中的特征变量集以及响应变量集,收集该系统各变量的海量历史数据,并在完成数据预处理后,通过数据持久化技术将其存入数据库;步骤S2:初始化Eps、MinPts两参数,随后对所述步骤S1中经数据预处理后存入数据库中的数据进行DBSCAN聚类分析,将数据集合分类;步骤S3:对所述步骤S2中经过聚类划分后的数据集合,分别基于每一类数据集合建立LGBMRegressor的非线性模型,同时根据模型的响应变量预测值与原始响应变量值计算模型的误差率(为第个聚类对应的非线性模型的误差率),若,(为误差阈值)则返回步骤S2并重新初始化Eps、MinPts两参数,若,则进入步骤S4;步骤S4:重复步骤S3中的非线性建模过程,在模型训练的迭代过程中计算各特征变量的重要性指标以实现非线性系统特征的显著性挖掘,即某个特征变量的重要性值越高,则该特征变量在其对应的非线性系统的显著性越强,将特征变量按照显著性强弱的顺序排序,并记录该排序序列;步骤S5:针对每一类数据集的各变量值做直方图分析,过滤分布稀疏的数值,并借助步骤S1记录的数据标准化算子将数据转换为原始数值,确定各变量数值主要的分布区间,形成单个类的特征值分布区间模型,最后整合所有类的特征值分布区间模型建立网格模型,行网格为各类中不同特征数值的分布区间模型,列网格对应不同类在同一特征上的特征数值的分布区间模型,同时将步骤S4中以显著性强弱排序的特征变量序列映射到网格模型中对应的类,形成复合网格模型,并将该网格该模型持久化到本地内存;步骤S6:搭建基于Storm的实时计算框架,并设计基于数据流处理的Topology(拓扑结构),实现基于数据流处理的非线性系统特征变量的显著性挖掘。2.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法,其特征是,所述步骤S1中,数据预处理过程为:首先通过TukeyMethod方法检测各变量数据中是否存在异常值,并删除含异常值的记录,随后针对存在数据缺失的变量做分布分析,根据已有数据的分布特征填充缺失数据,最后对所有数据进行z-score标准化,并记录各变量数据的标准化算子。3.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法,其特征是,所述步骤S2中,DBSCAN聚类根据数据点密度实现聚类,可识别各种形状的数据分布特征,因此具备区别各变量数据分布特征的能力,即通过聚类可挖掘非线性系统的不同状态,而且不需要在实施聚类前制定目标聚类数目,同时将数据分类处理,利于缓解数据非线性回归模型的过拟合现象。4.如...

【专利技术属性】
技术研发人员:徐新胜王庆林
申请(专利权)人:中国计量大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1