The invention discloses a product quality control method based on ensemble learning, which includes the following steps for predicting key product quality indicators (good product rate) under different production processes: (1) data analysis based on injection process data; (2) feature engineering analysis and construction; (3) model design based on ensemble learning; (4) data analysis. Unbalanced processing; (5) multi model fusion processing scheme. To recommend the optimal preset value of the process parameters in the production process, the following steps are included: (6) recommending the adjustable parameters of the whole process; (7) recommending the adjustable parameters of the process for specific process parameters. The invention is suitable for processing the characteristics of unbalanced data in industrial data, breaking through the traditional single parameter analysis method of product quality control, using the feature engineering construction of machine learning to excavate the intrinsic characteristic relations among parameters, to discover the abnormalities in production process, and to improve the quality control of products.
【技术实现步骤摘要】
一种基于集成学习的产品质量控制方法
本专利技术涉及数据挖掘
,具体涉及一种基于集成学习的产品质量控制方法。
技术介绍
机器学习目前是人工智能应用一个重要的研究领域,发展十分活跃,而集成学习是机器学习一个热门的研究方向。《中国制造2025》提出了用信息化和工业化两化深度融合来引领和带动整个制造业的发展,让制造业向工业4.0转变。但是,由于注塑机械的网络化与智能化才刚起步,行业的信息化服务水平较低,行业资源缺乏统一规划,导致塑料相关产业的整体人力成本较高、信息化水平较低下、产品附加值较低等问题,严重制约了中国制造2025的整体发展。云计算和大数据是实现工业4.0的关键技术,大数据平台的不断更新与完善,带动了机器学习与数据挖掘相关方向的不断进步。而针对注塑行业海量数据的基础上,利用大数据技术机器学习方法去解决工业实际问题,对于优化生产,提高产能有着及其重要的意义。工业数据由数据不平衡的特点,这在利用机器学习算法进行处理时有很大影响,而机器学习算法中火热的集成学习算法,却可以利用自身算法的特性一定程度上解决数据不平衡带来的影响,很好地应用在工业大数据上。所谓质量控制,是指为达到质量要求所采取的作业技术和活动。这就是说,质量控制是为了通过监视质量形成过程,消除质量环上所有阶段引起不合格或不满意效果的因素。传统的产品质量控制分析更多的是通过逐个分析参数本身对质量指标的影响,然而这样的分析很难发现参数之间内在的联系,而且不具有通用性。综上所述,将注塑产品质量控制问题转变为典型的机器学习问题,基于集成学习的方法对数据进行挖掘,提取数据内在的特征,来发现生产过程的异常 ...
【技术保护点】
1.一种基于集成学习的产品质量控制方法,其特征在于,所述的产品质量控制方法包括下列步骤:S1、基于注塑工艺数据的数据分析,根据注塑工艺参数,分析混合型变量、特征判别性、数据分布;S2、特征工程分析与构建,过程如下:S21、明确特征使用方案,即预测不同生产进度下产品关键质量指标;S22、特征清洗,剔除部分异样样本;S23、特征处理,包括类别变量处理、数值型变量处理、时序状态监控指标数据处理,其中,类别变量处理是对类别型变量在输入模型前进行编码处理;数值型变量处理是对取值只含有有限几种的数值型变量当成类别型变量进行编码处理,但保留原始数值,对于其他数值变量保持原值,对于缺失值,用中值填充处理;时序状态监控指标数据处理是对时序指标数据通过分时间阶段提取各个参数的统计值,包括均值、中值、众数、最大和小值、方差;S24、特征选择,从时序状态指标数据中提取特征,进行嵌入式的特征选择方法,选择树模型XGBoost和随机森林的模型设计方法,通过利用树模型XGBoost得到特征重要性,并对特征进行排序,剔除重要性低的特征,降低特征维数;S3、基于集成学习的模型设计,将评测指标通过预测值和实际值的RMSE ...
【技术特征摘要】
1.一种基于集成学习的产品质量控制方法,其特征在于,所述的产品质量控制方法包括下列步骤:S1、基于注塑工艺数据的数据分析,根据注塑工艺参数,分析混合型变量、特征判别性、数据分布;S2、特征工程分析与构建,过程如下:S21、明确特征使用方案,即预测不同生产进度下产品关键质量指标;S22、特征清洗,剔除部分异样样本;S23、特征处理,包括类别变量处理、数值型变量处理、时序状态监控指标数据处理,其中,类别变量处理是对类别型变量在输入模型前进行编码处理;数值型变量处理是对取值只含有有限几种的数值型变量当成类别型变量进行编码处理,但保留原始数值,对于其他数值变量保持原值,对于缺失值,用中值填充处理;时序状态监控指标数据处理是对时序指标数据通过分时间阶段提取各个参数的统计值,包括均值、中值、众数、最大和小值、方差;S24、特征选择,从时序状态指标数据中提取特征,进行嵌入式的特征选择方法,选择树模型XGBoost和随机森林的模型设计方法,通过利用树模型XGBoost得到特征重要性,并对特征进行排序,剔除重要性低的特征,降低特征维数;S3、基于集成学习的模型设计,将评测指标通过预测值和实际值的RMSE值的算术均值作为评估标准,在模型训练过程中,关于分类模型,通过K交叉验证作为评估方法,选择AUC作为性能度量方法;关于回归模型,选择K交叉验证作为评估方法,选择RMSE作为性能度量方法;S4、数据不平衡处理,具体为:S41、数据与算法层面:S411、通过对不平衡的时间序列模型做组合抽样,对多的样本集进行抽样,与少的样本集组合成新的样本,针对新的样本集合进行模型训练,最后进行Bagging;S412、选择XGBoost算法和DART算法;S413、通过采用代价敏感学习方法对样本集进行模型训练,在XGBoost算法中,对不同类别的数据采取不同的惩罚系数;S414、采用引入深度学习的树模型Dart,并引入深度学习的Dropout方法进行处理防止模型过拟合;S42、模型融合层面,分类模型和回归模型相融合:对于关键质量指标预测,通过回归模型预测出每一批次的产品关键质量指标,由于数据不平衡特点,对未处理的少样本数据当做小类别,采用分类模型进行模型预测,最终采用分类和回归方法共用的方式进行数据处理;S5、多模型融合处理,具体为:S51、回归模型融合采用加权平均的方法;S52、分类模型融合采用两个二分类模型,模型训练完成后,对测试集进行预测,得到每个样本key_index低于0.92或者高于0.98的概率,将置信度高的样本的预测值,限定为0.92或者0.98。2.根据权利要求1所述的一种基于集成学习的产品质量控制方法,其特征在于,所述的产品质量控制方法还包括下列步骤:R2、明确特征使用方案,即对生产过程中工...
【专利技术属性】
技术研发人员:傅予力,李凯鑫,张勰,吴宗泽,张莉婷,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。