一种基于数据流处理的非线性系统特征变量显著性挖掘法技术方案

技术编号：20363113 阅读：98 留言：0更新日期：2019-02-16 16:38

本发明专利技术公开了一种基于数据流处理的非线性系统特征变量显著性挖掘法，其中所述方法包括：收集该历史数据，并对其进行预处理；通过闭环结构优化DBSCAN参数，使用DBSCAN聚类划分数据集合；对每一类数据建立基于LGBMRegressor的非线性模型，记录模型的迭代训练过程每一特征变量被使用的次数，用以表征其显著性，并建立显著性特征变量序列；确定各变量数值主要的分布区间，形成单个类的特征值分布区间模型，整合所有类的特征值分布区间模型建立网格模型，最后将显著性特征变量序列映射到网格模型中对应的类，形成复合网格模型；搭建基于Storm的实时计算框架，设计基于流处理的Topology（拓扑结构），同时加载复合网格模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据流处理的非线性系统特征变量显著性挖掘法
本专利技术涉及数据流处理和数据挖掘领域，尤其是一种基于数据流处理的非线性系统特征变量显著性挖掘法。
技术介绍
“大数据”在2011年一路走红，在2012年更加闪耀，成为业界当之无愧的焦点。伴随Internet和Web技术的飞速发展，网络日志、互联网搜索索引、电子商务、社交网站等技术的广泛使用带来了数据量的急剧增长。计算机技术在各行各业的普遍使用也促使大量数据的产生，数据以惊人的速度增长，预示着我们己经进入大数据时代。根据国际数据资讯(IDC)公司监测，全球数据量大约每两年翻一番，预计到2020年，全球将拥有35ZB的数据量，这些数据的规模、形式超出了传统数据处理方法所能捕获、管理和处理的能力。大数据时代不仅给我们带来了爆炸式增长的数据量、复杂多样的数据结构，而且也使处理这些数据信息的手段更加复杂。海量数据的存储以及分布式计算成为大数据分析与处理的首要问题。然而，在人们利用分布式计算的手段处理大批量静态数据的同时，大流量数据的实时处理与应用同样也成为了大数据企业与科研人员的关注热点。分布式的大批量数据处理与各种机器学习算法的结合，可以帮助人们从海量的历史数据中获取更加准确、充分的数据模式与价值信息，然后庞大的数据量也会增加计算成本。数据流处理与大批量数据处理最大的区别在于数据流处理的实时性，人们需要在数据流到达后尽快获取知识，并实现实时响应，尤其在气象、金融、网络安全、电子商务、生产制造、欺诈识别等领域，需要实时观测各种实例化系统的状态变化并对数据快速处理以挖掘引起异常变化的显著特征因素。同时，上述领域中的...

【技术保护点】
1.一种基于数据流处理的非线性系统特征变量显著性挖掘法，其特征是包括如下步骤：步骤S1：明确非线性系统中的特征变量集以及响应变量集，收集该系统各变量的海量历史数据，并在完成数据预处理后，通过数据持久化技术将其存入数据库；步骤S2：初始化Eps、MinPts两参数，随后对所述步骤S1中经数据预处理后存入数据库中的数据进行DBSCAN聚类分析，将数据集合分类；步骤S3：对所述步骤S2中经过聚类划分后的数据集合，分别基于每一类数据集合建立LGBMRegressor的非线性模型，同时根据模型的响应变量预测值与原始响应变量值计算模型的误差率

【技术特征摘要】
1.一种基于数据流处理的非线性系统特征变量显著性挖掘法，其特征是包括如下步骤：步骤S1：明确非线性系统中的特征变量集以及响应变量集，收集该系统各变量的海量历史数据，并在完成数据预处理后，通过数据持久化技术将其存入数据库；步骤S2：初始化Eps、MinPts两参数，随后对所述步骤S1中经数据预处理后存入数据库中的数据进行DBSCAN聚类分析，将数据集合分类；步骤S3：对所述步骤S2中经过聚类划分后的数据集合，分别基于每一类数据集合建立LGBMRegressor的非线性模型，同时根据模型的响应变量预测值与原始响应变量值计算模型的误差率（为第个聚类对应的非线性模型的误差率），若，（为误差阈值）则返回步骤S2并重新初始化Eps、MinPts两参数，若,则进入步骤S4；步骤S4：重复步骤S3中的非线性建模过程，在模型训练的迭代过程中计算各特征变量的重要性指标以实现非线性系统特征的显著性挖掘，即某个特征变量的重要性值越高，则该特征变量在其对应的非线性系统的显著性越强，将特征变量按照显著性强弱的顺序排序，并记录该排序序列；步骤S5：针对每一类数据集的各变量值做直方图分析，过滤分布稀疏的数值，并借助步骤S1记录的数据标准化算子将数据转换为原始数值，确定各变量数值主要的分布区间，形成单个类的特征值分布区间模型，最后整合所有类的特征值分布区间模型建立网格模型，行网格为各类中不同特征数值的分布区间模型，列网格对应不同类在同一特征上的特征数值的分布区间模型，同时将步骤S4中以显著性强弱排序的特征变量序列映射到网格模型中对应的类，形成复合网格模型，并将该网格该模型持久化到本地内存；步骤S6：搭建基于Storm的实时计算框架，并设计基于数据流处理的Topology（拓扑结构），实现基于数据流处理的非线性系统特征变量的显著性挖掘。2.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法，其特征是，所述步骤S1中，数据预处理过程为：首先通过TukeyMethod方法检测各变量数据中是否存在异常值，并删除含异常值的记录，随后针对存在数据缺失的变量做分布分析，根据已有数据的分布特征填充缺失数据，最后对所有数据进行z-score标准化，并记录各变量数据的标准化算子。3.如权利要求1所述的基于数据流处理的非线性系统特征变量显著性挖掘法，其特征是，所述步骤S2中，DBSCAN聚类根据数据点密度实现聚类，可识别各种形状的数据分布特征，因此具备区别各变量数据分布特征的能力，即通过聚类可挖掘非线性系统的不同状态，而且不需要在实施聚类前制定目标聚类数目，同时将数据分类处理，利于缓解数据非线性回归模型的过拟合现象。4.如...

【专利技术属性】
技术研发人员：徐新胜，王庆林，
申请(专利权)人：中国计量大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人