一种基于工业大数据模型的可视化分析方法及系统技术方案

技术编号:33451370 阅读:32 留言:0更新日期:2022-05-19 00:35
本发明专利技术公开了一种基于工业大数据模型的可视化分析方法及系统,所述方法包括数据获取、数据预处理、创建特征工程、划分数据集、模型选择、模型训练、模型评估、模型发布、模型维护和数据展示;所述系统包括数据管理模块、模型管理模块、模型计算模块和数据可视化模块。本发明专利技术通过工业大数据分析与机器学习相结合,实现了工业数据模型可视化分析,极大地提高了用于模型训练的数据的准确性,并且能够在数据较少的情况下有效地提高模型训练的效率,提升模型训练的准确性,节约模型训练成本。节约模型训练成本。节约模型训练成本。

【技术实现步骤摘要】
一种基于工业大数据模型的可视化分析方法及系统


[0001]本专利技术涉及工业大数据
,具体来说,涉及一种基于工业大数据模型的可视化分析方法及系统。

技术介绍

[0002][0003]工业大数据是指在工业领域中产生的大数据。随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,工业产品的全生命周期从市场规划、设计、制造、销售到维护的过程中也会产生大量的结构化和非结构化数据,从而形成了工业大数据,而目前的工业大数据仍需不断升级才能助力智能制造。
[0004]目前大多数的工业大数据具备多源异构、多尺度、不确定、高噪声等特征,且存在工业模型准确率低等问题。而针对这些问题,目前还没有有效的解决办法。

技术实现思路

[0005]针对相关技术中的上述技术问题,本专利技术提出一种基于工业大数据模型的可视化分析方法及系统,能够克服现有技术的上述不足。
[0006]为实现上述技术目的,本专利技术的技术方案是这样实现的:一种基于工业大数据模型的可视化分析方法,包括如下步骤:S1 数据获取,根据工业模型训练需求采集数据样本;S2 数据预处理,在数据存储和使用前对数据进行数据探索和基础数据预处理,根据业务逻辑选择数据组织和数据格式;S3 创建特征工程,对预处理后的数据进行特征选择、特征提取、特征转化和特征构建;S4 划分数据集,在使用机器学习算法训练之前,按比例将数据集划分为训练集和测试集,进行交叉检验;S5 模型选择,在算法库中选择合适的算法模型或使用自定义的算法模型进行训练;S6 模型训练,平台通过Airflow进行任务调度和资源分配来实现分布式高并发的多线程机器学习,并根据算法模型的特点进行硬件和软件的性能优化;S7 模型评估,通过模型评估指标对模型进行评估;S8 模型发布,模型评估完成后,模型以离线的形式生成模型文件;S9 模型维护,模型发布后,持续进行数据反馈收集和模型迭代;S10 数据展示,通过数据可视化组件Superset的创建和Dashboard的分享,为数据分析提供可视化方案,通过预定义的可视化图表或自定义开发图表类型实现数据的展示。
[0007]进一步地,S2中所述数据探索通过计算基础统计量和图表分析,初步探索特征的自身属性以及特征之间的交互关系。
[0008]进一步地,所述基础统计量包括均值、标准差、中位数、分位数、最大值、最小值、偏度、峰度和相关系数;所述图表包括统计表和统计图,所述统计表包括频数交叉表、透视表、列联表和woe

iv分析,所述统计图包括散点图、直方图、箱线图、条状图、饼图和热力图。
[0009]进一步地,S2中所述基础数据预处理包括数据完整性、数据合并、数据去重、数据采样、数据合法性、数据增减和数据格式调整的处理。
[0010]进一步地,S7中所述模型评估指标包括回归模型、分类模型、聚类分析和评估方法。
[0011]进一步地,S8中所述模型文件为支持PMML格式的模型文件。
[0012]进一步地,,S9中算法工程师对模型的更新方式为手工更新或通过Airflow自动更新。
[0013]一种基于工业大数据模型的可视化分析系统,包括数据管理模块、模型管理模块、模型计算模块和数据可视化模块;所述数据管理模块,用于建立数据源与模型之间的连接,对采集数据进行预处理,对预处理后的数据进行特征提取和特征构造,划分数据集;所述模型管理模块,用于将所述模型的算法数据存储到模型算法数据库中,针对所述模型进行模型评估、模型发布、模型维护的操作;所述模型计算模块,用于将数据加载到模型训练系统中,选择所述算法数据库中的模型算法对数据进行模型训练,得到模型训练的结果,将所述模型训练的结果确定为目标模型;所述数据可视化模块,用于将目标模型通过数据可视化组件将数据模型转为可视化图表。
[0014]本专利技术的有益效果:本专利技术通过工业大数据分析与机器学习相结合,实现了工业数据模型可视化分析,极大地提高了用于模型训练的数据的准确性,并且能够在数据较少的情况下有效地提高模型训练的效率,提升模型训练的准确性,节约模型训练成本。
附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是根据本专利技术实施例所述的基于工业大数据模型的可视化分析方法的流程图;图2是根据本专利技术实施例所述的基于工业大数据模型的可视化分析系统的结构框图。
具体实施方式
[0017]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的
范围。
[0018]如图1所示,根据本专利技术实施例所述的一种基于工业大数据模型的可视化分析方法,包括如下步骤;S1 数据获取,根据工业模型训练需求采集数据样本。
[0019]S2数据预处理,在主要数据存储和使用之前对数据进行处理,减少杂数据带来的噪声,根据业务逻辑选择数据组织和数据格式。
[0020]1)数据探索,通过计算基础统计量和图表分析,初步探索特征的自身属性以及特征之间的交互关系,为后续建模提供参考和验证依据。
[0021]统计量:均值、标准差、中位数、分位数、最大值、最小值、偏度、峰度、相关系数。
[0022]统计表:频数交叉表、透视表、列联表、woe

iv分析。
[0023]统计图:散点图、直方图、箱线图、条状图、饼图、热力图。
[0024]2)基础数据预处理:数据完整性:缺失数据的填充与过滤等;数据合并:union、join和merge合并数据等;数据去重:去除重复数据;数据采样:随机采样、加权采样、上下采样、分层采样、SMOTE、ADASYN;数据合法性:离群值与异常值清洗;数据增减:去除无意义特征和样本等;数据格式调整:one

hot编码、数据拉伸、字符索引变换、LIBSVM格式转换。
[0025]S3创建特征工程,对预处理后的数据进行特征提取和特征构造,以便于表示预测模型处理的处理问题,提升对于未知数据的准确性。用目标问题所在的特定领域知识或者自动化的方法来生成、提取、删减或者组合变化得到特征。数据特征会直接影响使用的预测模型和实现的预测结果。
[0026]特征转化:离散化分箱、WOE变换、非线性变换、多维尺度变换、局部线性潜入等。
[0027]特征提取:主成分分析、线性判别分析、奇异值分析等。
[0028]特征选择:卡方检验、皮尔逊相关、互信息、方差分析、lasso、woe

iv。
[0029]特征构建:趋势指标、强度指标、波动指标、比率指标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于工业大数据模型的可视化分析方法,其特征在于,包括如下步骤:S1 数据获取,根据工业模型训练需求采集数据样本;S2 数据预处理,在数据存储和使用前对数据进行数据探索和基础数据预处理,根据业务逻辑选择数据组织和数据格式;S3 创建特征工程,对预处理后的数据进行特征选择、特征提取、特征转化和特征构建;S4 划分数据集,在使用机器学习算法训练之前,按比例将数据集划分为训练集和测试集,进行交叉检验;S5 模型选择,在算法库中选择合适的算法模型或使用自定义的算法模型进行训练;S6 模型训练,平台通过Airflow进行任务调度和资源分配来实现分布式高并发的多线程机器学习,并根据算法模型的特点进行硬件和软件的性能优化;S7 模型评估,通过模型评估指标对模型进行评估;S8 模型发布,模型评估完成后,模型以离线的形式生成模型文件;S9 模型维护,模型发布后,持续进行数据反馈收集和模型迭代;S10 数据展示,通过数据可视化组件Superset的创建和Dashboard的分享,为数据分析提供可视化方案,通过预定义的可视化图表或自定义开发图表类型实现数据的展示。2.根据权利要求1所述的基于工业大数据模型的可视化分析方法,其特征在于,S2中所述数据探索通过计算基础统计量和图表分析,初步探索特征的自身属性以及特征之间的交互关系。3.根据权利要求2所述的基于工业大数据模型的可视化分析方法,其特征在于,所述基础统计量包括均值、标准差、中位数、分位数、最大值、最小值、偏度、峰度和相关系数;所述图表包括统计表和统计图,所述统计表包括频数交...

【专利技术属性】
技术研发人员:梁宏宇刘金易王建广刘璐
申请(专利权)人:北京航天云路有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1