一种基于集成学习的产品质量控制方法技术

技术编号:19344321 阅读:31 留言:0更新日期:2018-11-07 14:42
本发明专利技术公开了一种基于集成学习的产品质量控制方法,对于预测生产流程中不同进度下产品关键质量指标(良品率),包括以下步骤:(1)基于注塑工艺数据的数据分析;(2)特征工程分析与构建;(3)基于集成学习的模型设计;(4)数据不平衡处理;(5)多模型融合处理方案。对于对生产过程中工艺参数进行最优预设值推荐,包含如下步骤:(6)整体的工艺可调整参数推荐;(7)针对特定的工艺不可调整参数,对工艺可调参数进行推荐。本发明专利技术适用于处理工业数据中数据不平衡的特点,突破传统产品质量控制单一的参数分析方式,通过使用机器学习的特征工程构建,挖掘出参数之间内在的特征联系,来发现生产过程的异常,提高产品的质量控制。

A product quality control method based on Ensemble Learning

The invention discloses a product quality control method based on ensemble learning, which includes the following steps for predicting key product quality indicators (good product rate) under different production processes: (1) data analysis based on injection process data; (2) feature engineering analysis and construction; (3) model design based on ensemble learning; (4) data analysis. Unbalanced processing; (5) multi model fusion processing scheme. To recommend the optimal preset value of the process parameters in the production process, the following steps are included: (6) recommending the adjustable parameters of the whole process; (7) recommending the adjustable parameters of the process for specific process parameters. The invention is suitable for processing the characteristics of unbalanced data in industrial data, breaking through the traditional single parameter analysis method of product quality control, using the feature engineering construction of machine learning to excavate the intrinsic characteristic relations among parameters, to discover the abnormalities in production process, and to improve the quality control of products.

【技术实现步骤摘要】
一种基于集成学习的产品质量控制方法
本专利技术涉及数据挖掘
,具体涉及一种基于集成学习的产品质量控制方法。
技术介绍
机器学习目前是人工智能应用一个重要的研究领域,发展十分活跃,而集成学习是机器学习一个热门的研究方向。《中国制造2025》提出了用信息化和工业化两化深度融合来引领和带动整个制造业的发展,让制造业向工业4.0转变。但是,由于注塑机械的网络化与智能化才刚起步,行业的信息化服务水平较低,行业资源缺乏统一规划,导致塑料相关产业的整体人力成本较高、信息化水平较低下、产品附加值较低等问题,严重制约了中国制造2025的整体发展。云计算和大数据是实现工业4.0的关键技术,大数据平台的不断更新与完善,带动了机器学习与数据挖掘相关方向的不断进步。而针对注塑行业海量数据的基础上,利用大数据技术机器学习方法去解决工业实际问题,对于优化生产,提高产能有着及其重要的意义。工业数据由数据不平衡的特点,这在利用机器学习算法进行处理时有很大影响,而机器学习算法中火热的集成学习算法,却可以利用自身算法的特性一定程度上解决数据不平衡带来的影响,很好地应用在工业大数据上。所谓质量控制,是指为达到质量要求所采取的作业技术和活动。这就是说,质量控制是为了通过监视质量形成过程,消除质量环上所有阶段引起不合格或不满意效果的因素。传统的产品质量控制分析更多的是通过逐个分析参数本身对质量指标的影响,然而这样的分析很难发现参数之间内在的联系,而且不具有通用性。综上所述,将注塑产品质量控制问题转变为典型的机器学习问题,基于集成学习的方法对数据进行挖掘,提取数据内在的特征,来发现生产过程的异常,提高产品的质量控制,对于优化生产,提高产能有着极其重要的意义。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于集成学习的产品质量控制方法。本专利技术的目的可以通过采取如下技术方案达到:一种基于集成学习的产品质量控制方法,所述的产品质量控制方法包括下列步骤:S1、基于注塑工艺数据的数据分析,根据注塑工艺参数,分析混合型变量、特征判别性、数据分布;S2、特征工程分析与构建,过程如下:S21、明确特征使用方案,即预测不同生成进度下产品关键质量指标;S22、特征清洗,剔除部分异样样本;S23、特征处理,包括类别变量处理、数值型变量处理、时序状态监控指标数据处理,其中,类别变量处理是对类别型变量在输入模型前进行编码处理;数值型变量处理是对取值只含有有限几种的数值型变量当成类别型变量进行编码处理,但保留原始数值,对于其他数值变量保持原值,对于缺失值,用中值填充处理;时序状态监控指标数据处理是对时序指标数据通过分时间阶段提取各个参数的统计值,包括均值、中值、众数、最大和小值、方差;S24、特征选择,从时序状态指标数据中提取特征,进行嵌入式的特征选择方法,选择树模型XGBoost和随机森林的模型设计方法,通过利用树模型XGBoost得到特征重要性,并对特征进行排序,剔除重要性低的特征,降低特征维数;S3、基于集成学习的模型设计,将评测指标通过预测值和实际值的RMSE值的算术均值作为评估标准,在模型训练过程中,关于分类模型,通过K交叉验证作为评估方法,选择AUC作为性能度量方法;关于回归模型,选择K交叉验证作为评估方法,选择RMSE作为性能度量方法;S4、数据不平衡处理,具体为:S41、数据与算法层面:S411、通过对不平衡的时间序列模型做组合抽样,对多的样本集进行抽样,与少的样本集组合成新的样本,针对新的样本集合进行模型训练,最后进行Bagging;S412、选择XGBoost算法和DART算法;S413、通过采用代价敏感学习方法对样本集进行模型训练,在XGBoost算法中,对不同类别的数据采取不同的惩罚系数;S414、采用引入深度学习的树模型Dart,并引入深度学习的Dropout方法进行处理防止模型过拟合;S42、模型融合层面,分类模型和回归模型相融合:对于关键质量指标预测,通过回归模型预测出每一批次的产品关键质量指标,由于数据不平衡特点,对未处理的少样本数据当做小类别,采用分类模型进行模型预测,最终采用分类和回归方法共用的方式进行数据处理;S5、多模型融合处理,具体为:S51、回归模型融合采用加权平均的方法;S52、分类模型融合采用两个二分类模型,模型训练完成后,对测试集进行预测,得到每个样本key_index低于0.92或者高于0.98的概率,将置信度高的样本的预测值,限定为0.92或者0.98。进一步地,所述的产品质量控制方法还包括下列步骤:R2、明确特征使用方案,即对生产过程中工艺参数进行最优预设值推荐,以取得较好的关键质量指标,具体如下:R21、整体的工艺可调整参数推荐,具体为:挖掘出使得良品率最大的最佳参数组合,对参数组合进行分组,得到训练数据中所有出现的参数组合,并计算每种组合的良品率的均值、中值、最大值、最小值以及每种组合出现的次数,得到统计表,按照良品率均值从大到小排序,对Top20/30/40参数组合中的每个可调参数进行累加,找出每个可调参数的众数值作为推荐;R22、针对特定的工艺不可调整参数,对工艺可调参数进行推荐,具体为:首先从训练数据里筛选出良品率大于一定阈值(阈值可根据需求调节)的产品批次,以这些产品批次的参数作为候选值;然后对于新的产品批次,以工艺不可调参数表作为特征,从候选样本里找出与之最相似或Topk个最相似的样本,取其可调参数作为推荐。进一步地,所述的步骤R21、整体的工艺可调整参数推荐中,对于double型的可调参数,取中值或者均值作为推荐。进一步地,所述的步骤R22、针对特定的工艺不可调整参数,对工艺可调参数进行推荐中将问题转化为一个相似性度量的问题,根据数值的类型采用不同距离度量方法,得到工艺不可调参数中的数值型参数的重要性,进行权重赋值,即完成加权欧氏距离。进一步地,所述的注塑工艺参数包括注塑压力、注塑时间、注塑温度、保压压力和时间、背压、转速。进一步地,所述的步骤S22中,对于不平衡数据特点,数据层面,采取上下采样相结合的方式;算法层面,选取Boosting集成学习算法作为基础算法模型,AUC作为分类结果的评判指标。进一步地,所述的步骤S23中类别变量处理和数值型变量处理采用one-hotencode对变量进行编码处理。进一步地,所述的回归模型选择XGBoost、DART、RandomForest三种模型,关于模型调参选择共同参数:min_child_weight,对于回归问题,该参数对应的是每个叶子结点上最小的样本个数;所述的分类模型选择两个二分类模型,其中一个预测样本的key_index是否低于0.92,另一个预测样本的key_index是否高于0.98,两个模型均以“binary:logistic”作为目标函数,以AUC作为评估指标。进一步地,所述的步骤S411中利用RandomForest模型实现。本专利技术相对于现有技术具有如下的优点及效果:(1)本专利技术创造性地提出了一种基于集成学习的产品质量控制方法,打破传统逐个参数分析的产品质量控制分析方法,通过利用机器学习数据挖掘的方法,对数据进行分析,构建特征工程,提取其所隐含的特征,通过模型训练的方式来分析这些参数之间的内在关联,以及对质量本文档来自技高网
...

【技术保护点】
1.一种基于集成学习的产品质量控制方法,其特征在于,所述的产品质量控制方法包括下列步骤:S1、基于注塑工艺数据的数据分析,根据注塑工艺参数,分析混合型变量、特征判别性、数据分布;S2、特征工程分析与构建,过程如下:S21、明确特征使用方案,即预测不同生产进度下产品关键质量指标;S22、特征清洗,剔除部分异样样本;S23、特征处理,包括类别变量处理、数值型变量处理、时序状态监控指标数据处理,其中,类别变量处理是对类别型变量在输入模型前进行编码处理;数值型变量处理是对取值只含有有限几种的数值型变量当成类别型变量进行编码处理,但保留原始数值,对于其他数值变量保持原值,对于缺失值,用中值填充处理;时序状态监控指标数据处理是对时序指标数据通过分时间阶段提取各个参数的统计值,包括均值、中值、众数、最大和小值、方差;S24、特征选择,从时序状态指标数据中提取特征,进行嵌入式的特征选择方法,选择树模型XGBoost和随机森林的模型设计方法,通过利用树模型XGBoost得到特征重要性,并对特征进行排序,剔除重要性低的特征,降低特征维数;S3、基于集成学习的模型设计,将评测指标通过预测值和实际值的RMSE值的算术均值作为评估标准,在模型训练过程中,关于分类模型,通过K交叉验证作为评估方法,选择AUC作为性能度量方法;关于回归模型,选择K交叉验证作为评估方法,选择RMSE作为性能度量方法;S4、数据不平衡处理,具体为:S41、数据与算法层面:S411、通过对不平衡的时间序列模型做组合抽样,对多的样本集进行抽样,与少的样本集组合成新的样本,针对新的样本集合进行模型训练,最后进行Bagging;S412、选择XGBoost算法和DART算法;S413、通过采用代价敏感学习方法对样本集进行模型训练,在XGBoost算法中,对不同类别的数据采取不同的惩罚系数;S414、采用引入深度学习的树模型Dart,并引入深度学习的Dropout方法进行处理防止模型过拟合;S42、模型融合层面,分类模型和回归模型相融合:对于关键质量指标预测,通过回归模型预测出每一批次的产品关键质量指标,由于数据不平衡特点,对未处理的少样本数据当做小类别,采用分类模型进行模型预测,最终采用分类和回归方法共用的方式进行数据处理;S5、多模型融合处理,具体为:S51、回归模型融合采用加权平均的方法;S52、分类模型融合采用两个二分类模型,模型训练完成后,对测试集进行预测,得到每个样本key_index低于0.92或者高于0.98的概率,将置信度高的样本的预测值,限定为0.92或者0.98。...

【技术特征摘要】
1.一种基于集成学习的产品质量控制方法,其特征在于,所述的产品质量控制方法包括下列步骤:S1、基于注塑工艺数据的数据分析,根据注塑工艺参数,分析混合型变量、特征判别性、数据分布;S2、特征工程分析与构建,过程如下:S21、明确特征使用方案,即预测不同生产进度下产品关键质量指标;S22、特征清洗,剔除部分异样样本;S23、特征处理,包括类别变量处理、数值型变量处理、时序状态监控指标数据处理,其中,类别变量处理是对类别型变量在输入模型前进行编码处理;数值型变量处理是对取值只含有有限几种的数值型变量当成类别型变量进行编码处理,但保留原始数值,对于其他数值变量保持原值,对于缺失值,用中值填充处理;时序状态监控指标数据处理是对时序指标数据通过分时间阶段提取各个参数的统计值,包括均值、中值、众数、最大和小值、方差;S24、特征选择,从时序状态指标数据中提取特征,进行嵌入式的特征选择方法,选择树模型XGBoost和随机森林的模型设计方法,通过利用树模型XGBoost得到特征重要性,并对特征进行排序,剔除重要性低的特征,降低特征维数;S3、基于集成学习的模型设计,将评测指标通过预测值和实际值的RMSE值的算术均值作为评估标准,在模型训练过程中,关于分类模型,通过K交叉验证作为评估方法,选择AUC作为性能度量方法;关于回归模型,选择K交叉验证作为评估方法,选择RMSE作为性能度量方法;S4、数据不平衡处理,具体为:S41、数据与算法层面:S411、通过对不平衡的时间序列模型做组合抽样,对多的样本集进行抽样,与少的样本集组合成新的样本,针对新的样本集合进行模型训练,最后进行Bagging;S412、选择XGBoost算法和DART算法;S413、通过采用代价敏感学习方法对样本集进行模型训练,在XGBoost算法中,对不同类别的数据采取不同的惩罚系数;S414、采用引入深度学习的树模型Dart,并引入深度学习的Dropout方法进行处理防止模型过拟合;S42、模型融合层面,分类模型和回归模型相融合:对于关键质量指标预测,通过回归模型预测出每一批次的产品关键质量指标,由于数据不平衡特点,对未处理的少样本数据当做小类别,采用分类模型进行模型预测,最终采用分类和回归方法共用的方式进行数据处理;S5、多模型融合处理,具体为:S51、回归模型融合采用加权平均的方法;S52、分类模型融合采用两个二分类模型,模型训练完成后,对测试集进行预测,得到每个样本key_index低于0.92或者高于0.98的概率,将置信度高的样本的预测值,限定为0.92或者0.98。2.根据权利要求1所述的一种基于集成学习的产品质量控制方法,其特征在于,所述的产品质量控制方法还包括下列步骤:R2、明确特征使用方案,即对生产过程中工...

【专利技术属性】
技术研发人员:傅予力李凯鑫张勰吴宗泽张莉婷
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1