当前位置: 首页 > 专利查询>济南大学专利>正文

一种基于大数据分层聚类的棉花生产工艺优化方法技术

技术编号:19824458 阅读:22 留言:0更新日期:2018-12-19 15:40
本发明专利技术提供一种基于大数据分层聚类的棉花生产工艺优化方法,包括如下步骤:对获取的生产监测原始数据进行数据预处理;对经过预处理后的原始数据确定描述参数属性的关键参数;对确定的关键参数进行数值统计得到分布统计属性数值分布分组;根据分布统计中得到的数值分布分组,使样本中各项属性数据分别映射到各属性分组区间中,形成新的数据集;确定优化目标,进行生产工艺参数的优化。结合棉花加工流程工艺分析。可以用于企业对工艺参数的分析调整。从而优化棉花生产、提高棉花质量、维护企业生产安全。

【技术实现步骤摘要】
一种基于大数据分层聚类的棉花生产工艺优化方法
本专利技术涉及工艺优化算法
,具体涉及一种基于大数据分层聚类的棉花生产工艺优化方法。
技术介绍
在农作物中,棉花是一种关系到国计民生的重要战略资源,在工业,医疗及人们日常生活等方面得到了极为广泛的应用。棉花主要涉及农业和纺织业两大产业,它是产棉区农业经济发展的主要支柱,是纺织企业的关键原料,是出口创汇的重要来源,受到世界各大产棉国的重视。从成熟的棉稞上摘下的棉花叫做籽棉,籽棉经过加工后的纤维成为皮棉,棉花经过生长发育,收货,加工,运输等环节,或多或少都含有一定量的杂质,其产生的原因主要是包括自然生长,人工采摘,加工等方面。棉花的加工不同于其他,较为复杂,影响因素很多。而棉花加工技术的落后,也致使不同品级的籽棉混级,混轧现象严重,降低了皮棉品级。棉花能制成各种规格的织物。棉织物坚牢耐磨,能洗涤并在高温下熨烫。棉布吸湿和脱湿快速而使穿着舒适,应用人们日常生活的方方面面。可见棉花在生产生活的重要地位与作用,棉花是处于自然生长的状态,棉花与棉花间的各项数据没有完全相同的,所以采集到的棉花样本是难以复制的,无法找到完全相同棉花样本进行不同频率的除杂对比;只有更好的调节棉花的加工工序,优化棉花的加工生产,才能最大化提高棉花的质量品质,保证棉花产业经济快速发展。
技术实现思路
本专利技术的目的是针对棉花的除杂加工是采用的单一的轧花模式,或者由操作人员仅凭经验现场手动调整,致使不同品级的籽棉混级,混轧现象严重,降低了皮棉品级,提供一种基于大数据分层聚类的棉花生产工艺优化方法,以解决上述技术问题。本专利技术的技术方案是:一种基于大数据分层聚类的棉花生产工艺优化方法,对原始数据进行数据分布统计,关联映射的方法来划分种类,得到各个关键生产参数的变化规律,获得数据中隐含的规律性知识,通过对参数的调整和预测优化工艺流程,包括如下步骤:对获取的生产监测原始数据进行数据预处理;对经过预处理后的原始数据确定描述参数属性的关键参数;对确定的关键参数进行数值统计得到分布统计属性数值分布分组;根据分布统计中得到的数值分布分组,使样本中各项属性数据分别映射到各属性分组区间中,形成新的数据集;确定优化目标,进行生产工艺参数的优化。进一步的,步骤对获取的生产监测原始数据进行数据预处理,包括:S11:进行数据清洗,消除重复冗余、冲突数据;S12:消减数据规模,同时对错漏数据进行修补;其中,对于棉花包号出现错误、重复的进行修复,对于棉花数据中出现空白的属性数据进行填充;通过对空白数据进行填充,可以保证数据的稳定性。S13:找到棉花加工环节中相同包号的棉花数据,形成新的数据集。对数据进行数据预处理可以更好的进行数据挖掘,发现数据间的关系。进一步的,步骤S12中,对于棉花数据中出现空白的属性数据进行填充,包括:如果数据中出现大量属性都出现空白缺失,直接将整条数据都删除掉;如果只有单个或少量的数据缺失,采用均值填充,如公式(1)所示;其中,Xi(tj)为Xi(tm)之前的n-m个数据,Xi(tk)为Xi(tn)之后的n-m个数据;若空缺值在数据的前面或后面,则直接将最前面和最后面的数据删除;若Xi(tm)前面或Xi(tn)后面数据不足n-m个,则从Xi(tn)后面或Xi(tm)前面顺延选取总量为2(n-m)个数据,使得到的均值含有足量的信息,而选择数据量过多,会增大计算复杂度;数据量过少,又不足以包含数据的信息。进一步的,步骤对经过预处理后的原始数据确定描述参数属性的关键参数,包括:S21:利用基于Apriori的维间关联规则算法对棉花往年的历史数据进行挖掘,得到任意两个属性的关联规则;其中,所述规则,用于表示不同属性的两个满足最小支持度和最小置信度的聚类之间的关系;S22:结合棉花的加工过程以及评价棉花的质量与等级,确定关键参数。进一步的,步骤S22中,所述关键参数包括马克隆值、反射率、黄度、含杂率;其中,马克隆值是反映棉花纤维细度与成熟度的综合反映,直接影响棉纤维的色泽、强力、细度、天然性、弹性等,可作为评价棉纤维内在品质的一个综合指标;反射率与黄度,评估色泽,表明棉纤维的外观形态,棉纤维色泽、含杂数量种类、皮棉表面粗糙度或平滑度,是用来划分棉花颜色级类型和级别的重要依据;含杂率,棉花中含有一定量的杂质颗粒,主要是由于棉花的自然生长的过程,和棉花的加工生产的过程混入一些杂质。含杂率就决定着棉花的品质质量,也是棉花检验的重要指标。进一步的,步骤S21的实现过程包括:设任意两个属性xi和xj共产生ωij条规则,其中任意一条规则为ia→jb,计算前项为xi和后项为xj的聚类之间的关联度cij(β),则cij(β)=Sβ(ia→jb)×I'β(ia→jb),β≤ωij(2)且I'β(ia→jb)=Iβ(ia→jb)-1(3)其中,I(ia→jb)为兴趣度,β表示所有规则中的第β条规则。进一步的,步骤对确定的关键参数进行数值统计得到分布统计属性数值分布分组,过程如下:S31:根据工艺过程的加工数据与属性数据,将确定的关键参数进行数值统计;S32:计算得到每项属性的数据分布情况;S33:根据各项属性的数据分布统计情况,通过数值分割,将每项属性的数据分别均匀分成若干份,得到数据的数值分布分组。进一步的,步骤对确定的关键参数进行数值统计得到分布统计属性数值分布分组,具体步骤如下:S301:对n个棉花样本Xn=(x1,x2,……,xm)中的马克隆值x1,反射率x2,黄度x3属性值分别进行数值排序,得到各项属性值的范围,确定每项属性数值的上下界x1∈(a0,an),x2∈(b0,bn),x3∈(c0,cn);S302:对已排序各属性序列,进行截断取值Cutoffvalue,如公式(4)所示,截断大小设为序列大小1/5或1/10,在各个属性上都得到5个截断值,根据得到的属性数值的上下界和截断值,每项属性都得到5个属性区间分组Intervali,如公式(5)所示,Cutoffvalue=ai*n/5,i∈(1,5)(4)S303:对马克隆值Ma-In、反射率Re-In、黄度Ye-In各属性的区间分组,进行分组组合组成一种三属性组合co(m),如公式(6)所示,co(m)=(Ma-Ini,Re-Inj,Ye-Ink),i,j,k∈(1,5)(6)列出所有属性分组组合情况,将其组成一张分组组合总表。进一步的,步骤根据分布统计中得到的数值分布分组,使样本中各项属性数据,分别映射到各属性分组区间中,形成新的数据集,即每一项的数据属性不再是具体的数值,而是相应的数值区间,具体步骤如下:S41:根据棉花样本的各属性的初始数据,对照在分布统计中得到的各属性的数值区间分组,得出马克隆值、反射率、黄度分别属于各自属性的具体分组;S42:生成一个新的数据集X'n,如公式(7)所示,其中各项的参数的数据不再是具体的数值,而是数值所对应的属性数值区间;X'n=(Ma-In,Re-In,Ye-In,x4,……xm)(7)S43:根据新数据中的各项棉花的属性数值区间,组成自身的分组组合,并将全部的棉花数据全部映射到分组组合表中,如公式(8)所示;其中Ma-In为马克隆值所对应马克隆分组,Re-In为反射率值所对应反射率分组,Ye-In为黄度值所对应黄度本文档来自技高网...

【技术保护点】
1.一种基于大数据分层聚类的棉花生产工艺优化方法,其特征在于,对原始数据进行数据分布统计,关联映射的方法来划分种类,得到各个关键生产参数的变化规律,获得数据中隐含的规律性知识,通过对参数的调整和预测优化工艺流程,包括如下步骤:对获取的生产监测原始数据进行数据预处理;对经过预处理后的原始数据确定描述参数属性的关键参数;对确定的关键参数进行数值统计得到分布统计属性数值分布分组;根据分布统计中得到的数值分布分组,使样本中各项属性数据分别映射到各属性分组区间中,形成新的数据集;确定优化目标,进行生产工艺参数的优化。

【技术特征摘要】
1.一种基于大数据分层聚类的棉花生产工艺优化方法,其特征在于,对原始数据进行数据分布统计,关联映射的方法来划分种类,得到各个关键生产参数的变化规律,获得数据中隐含的规律性知识,通过对参数的调整和预测优化工艺流程,包括如下步骤:对获取的生产监测原始数据进行数据预处理;对经过预处理后的原始数据确定描述参数属性的关键参数;对确定的关键参数进行数值统计得到分布统计属性数值分布分组;根据分布统计中得到的数值分布分组,使样本中各项属性数据分别映射到各属性分组区间中,形成新的数据集;确定优化目标,进行生产工艺参数的优化。2.根据权利要求1所述的一种基于大数据分层聚类的棉花生产工艺优化方法,其特征在于,步骤对获取的生产监测原始数据进行数据预处理,包括:S11:进行数据清洗,消除重复冗余、冲突数据;S12:消减数据规模,同时对错漏数据进行修补;其中,对于棉花包号出现错误、重复的进行修复,对于棉花数据中出现空白的属性数据进行填充;S13:找到棉花加工环节中相同包号的棉花数据,形成新的数据集。3.根据权利要求2所述的一种基于大数据分层聚类的棉花生产工艺优化方法,其特征在于,步骤S12中,对于棉花数据中出现空白的属性数据进行填充,包括:如果数据中出现大量属性都出现空白缺失,直接将整条数据都删除掉;如果只有单个或少量的数据缺失,采用均值填充,如公式(1)所示;其中,Xi(tj)为Xi(tm)之前的n-m个数据,Xi(tk)为Xi(tn)之后的n-m个数据;若空缺值在数据的前面或后面,则直接将最前面和最后面的数据删除;若Xi(tm)前面或Xi(tn)后面数据不足n-m个,则从Xi(tn)后面或Xi(tm)前面顺延选取总量为2(n-m)个数据。4.根据权利要求1所述的一种基于大数据分层聚类的棉花生产工艺优化方法,其特征在于,步骤对经过预处理后的原始数据确定描述参数属性的关键参数,包括:S21:利用基于Apriori的维间关联规则算法对棉花往年的历史数据进行挖掘,得到任意两个属性的关联规则;其中,所述规则,用于表示不同属性的两个满足最小支持度和最小置信度的聚类之间的关系;S22:结合棉花的加工过程以及评价棉花的质量与等级,确定关键参数。5.根据权利要求4所述的一种基于大数据分层聚类的棉花生产工艺优化方法,其特征在于,步骤S22中,所述关键参数包括马克隆值、反射率、黄度、含杂率;其中,马克隆值用于反映棉花纤维细度与成熟度的综合指标;反射率与黄度是用来划分棉花颜色级类型和级别的重要依据;含杂率决定着棉花的品质,也是棉花检验的重要指标。6.根据权利要求5所述的一种基于大数据分层聚类的棉花生产工艺优化方法,其特征在于,步骤S21的实现过程包括:设任意两个属性xi和xj共产生ωij条规则,其中任意一条规则为ia→jb,计算前项为xi和后项为xj的聚类之间的关联度cij(β),则cij(β)=Sβ(ia→jb)×I'β(ia→jb),β≤ωij(2)且I'β(ia→jb)=Iβ(ia→jb)-1(3)其中,I(ia→jb)为兴趣度,β表示所有规则中的第β条规则。7.根据权利要求1所述的一种基于大数据...

【专利技术属性】
技术研发人员:李国昌杜韬曲守宁张宝国李卫涛张瑞牟国栋
申请(专利权)人:济南大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1