一种带钢表面质量缺陷多分类的多目标优化特征选择方法技术

技术编号:25639268 阅读:39 留言:0更新日期:2020-09-15 21:31
本发明专利技术提出了一种带钢表面质量缺陷多分类的多目标优化特征选择方法。本发明专利技术构建带钢表面质量缺陷数据集,将样本特征值向量进行归一化;将归一化之后的数据集中与类别对应的样本子集先互斥拆分,再按自助采样法采样生成多个亚子集;计算均衡分布的样本子集中的各特征权重均值,得到筛选之后的特征子集;构建带钢表面质量缺陷多分类问题的特征选择多目标优化模型;应用NSGA‑III算法求解,通过特征权重降序基因填充构造法生成初始种群;经过多轮的迭代优化,最后得到优化结果作为带钢表面质量缺陷多分类的最优特征选择子集。本发明专利技术实现在高维特征空间中快速提取有效的特征子集,消除大量低关联度和冗余特征,同时使分类器达到最佳分类性能。

【技术实现步骤摘要】
一种带钢表面质量缺陷多分类的多目标优化特征选择方法
本专利技术属于带钢表面质量缺陷检测和分类
,特别涉及到一种带钢表面质量缺陷多分类的多目标优化特征选择方法。
技术介绍
质量是现代企业的灵魂,是企业赖以生存和发展的基石。在钢铁、造纸、纺织、印染和玻璃等多个国民经济的主流工业门类中,产品表面质量的优劣将直接影响产品最终的质量、性能和价值,同时,由于下游客户对产品表面质量的要求越来越严苛,良好的表面质量成为企业在激烈的市场竞争中胜出的重要法宝,因而,在这些行业中存在着广泛的产品表面质量检测需求。本专利技术涉及的是钢铁工业的主要产品之一——带钢的表面质量缺陷检测分类问题。为了准确地识别出带钢表面质量缺陷,传统上一般采用人工目测或离线抽检,或者二者相结合的方式。但是,随着钢铁工业生产水平的发展,传统的检测方式显然已不能满足现代工业生产中高速、高产和高品质的要求,无法得到连续、稳定、多样的表面质量检测结果。机器视觉技术的广泛应用和人工智能理论的蓬勃发展为各行业中表面质量检测问题提供了崭新的思路和解决途径。也正是基于此,应用机器视觉和人工智能方法研究该问题已逐渐成为国内外学者、学术机构和企业研究的热点。带钢表面质量缺陷分类是一个复杂生产条件下的多特征、多类别的模式识别问题。由于带钢表面缺陷的复杂性,现有的缺陷检测方法通过提取空域和频域等特征,进一步细分,得到了缺陷图像的尺寸和形状特征、质心特征、灰度特征、纹理特征、投影特征和频谱特征等几类,每一类中均包含数十种特征描述,然后将所有上述特征的并集作为训练分类器的输入,部分文献中记载的特征描述多达260多种。这样带来了以下两个问题:其一是过高的特征维度易导致维数灾难,增加了分类器的时间复杂度,难以满足算法实时性的要求;其二是特征并集中往往含有冗余特征和无关性特征,这会影响分类器的学习效果和分类准确率。因而,提取和选择有效的特征子集是提高缺陷检测精度和实时性的重要手段,也是该领域的一个难点所在。
技术实现思路
针对带钢表面质量缺陷多分类课题研究中,由于欠缺有效的特征选择方法导致维数灾难和过拟合,进而严重影响分类器的实时性和准确率的问题,本专利技术提出了一种带钢表面质量缺陷多分类的多目标优化特征选择方法,解决上述存在的问题,实现在高维特征空间中快速提取有效的特征子集,消除大量低关联度和冗余特征,同时使分类器达到最佳分类性能。本专利技术采用的技术方案包含以下
技术实现思路
:步骤1:构建带钢表面质量缺陷数据集、带钢表面质量缺陷特征集,进一步构建样本特征值向量,将样本特征值向量进行归一化得到归一化之后的样本特征值向量,结合归一化之后的样本特征值向量得到归一化之后的数据集;步骤2:对归一化之后的数据集中的带钢表面质量缺陷类别分别搜索出样本数量最少的类别、样本数量最多的类别;步骤3:将归一化之后的数据集与样本数量最多的类别对应的样本子集划分为多个包含相同样本数量的互斥亚子集,将归一化之后的数据集中与样本数量最少的类别对应的样本子集按自助采样法采样生成多个包含相同样本数量的亚子集,将中间类别对应的样本子集先按样本数量划分成多个包含相同样本数量的互斥亚子集,再按自助采样法采样生成多个包含相同样本数量的亚子集;步骤4:根据样本最多的类别、样本最少的类别、中间类别生成多个均衡分布的样本子集;步骤5:应用ReliefF方法计算多个均衡分布的样本子集中的各特征权重;步骤6:计算均衡分布的样本子集中的各特征权重均值,构建所有特征权重均值向量,进一步将特征权重均值按照权重大小降序方式排列,设置特征权重阈值并将权重大于特征权重阈值的特征筛选出来,得到筛选之后的特征子集;步骤7:构建带钢表面质量缺陷多分类问题的特征选择多目标优化模型;步骤8:应用NSGA-III算法求解带钢表面质量缺陷多分类问题的特征选择多目标优化模型,通过特征权重降序基因填充构造法生成初始种群,同一代中的染色体利用非支配排序方法按非支配关系进行分层,同一支配层中的染色体应用多维的基于参考点的选择方法进行选择;经过多轮的迭代优化,最后得到优化结果作为带钢表面质量缺陷多分类的最优特征选择子集。作为优选,步骤1所述带钢表面质量缺陷数据集为:D={(x1,y1),(x2,y2),…,(xi,yi),…,(xm,ym)}其中,(xi,yi)是数据集中的第i个样本,xi是样本i的特征/属性值向量,yi是样本i所属的带钢表面质量缺陷类别,i∈[1,m],m为数据集D中的样本数量;步骤1所述带钢表面质量缺陷特征集为:A={a1,a2,…,ar,…,aN}其中,ar是特征集中的第r个特征,r∈[1,N],N为特征数量;步骤1所述样本特征值向量为:其中,为样本i在特征ar上的特征值,i∈[1,m];步骤1所述将样本特征值向量进行归一化为:将每一个样本特征值向量中的每一个特征值归一化到[0,1]之间,如下:其中,为归一化处理之后的和分别表示对样本j在特征ar上的特征值求最小值和最大值,j∈[1,m];相应地,为样本i的所有特征值全部归一化之后的特征向量,i∈[1,m];步骤1所述归一化后样本特征值向量为:步骤1所述归一化之后的数据集为:数据集D是已剔除了包含缺失属性值的样本之后的数据集。作为优选,步骤2所述带钢表面质量缺陷类别集:C={c1,c2,…,cs,…,cn}其中,cs是类别集中的第s个类别,s∈[1,n],n为类别数量;样本数量最少的类别为cminor,对应的样本数量为δminor,样本数量最多的类别为cmajor,对应的样本数量为δmajor;样本数量介于二者之间的其他类别都归为中间类别cmoder,对应的样本数量为δmoder,中间类别的数量为(n-2),下标moder的取值范围如下:moder∈{moder|1≤moder≤n,moder≠major且moder≠minor}作为优选,步骤3所述将归一化之后的数据集与样本数量最多的类别对应的样本子集划分为多个包含相同样本数量的互斥亚子集为:将归一化之后的数据集中与样本数量最多的类别cmajor对应的样本子集划分为M个包含相同样本数量δminor的互斥亚子集其中:M=floor(δmajor/δminor),floor(·)为向下取整函数,为第v个亚子集;步骤3所述将归一化之后的数据集中与样本数量最少的类别对应的样本子集按自助采样法采样生成多个包含相同样本数量的亚子集为:将归一化之后的数据集中与样本数量最少的类别cminor对应的样本子集按自助采样法采样生成M个包含相同样本数量δminor的亚子集步骤3所述将中间类别对应的样本子集先按样本数量划分成多个包含相同样本数量的互斥亚子集为:所述中间类别为归一化之后的数据集中除样本数量最多的类别cmajor、样本数量最少的类别cminor剩余的类别本文档来自技高网
...

【技术保护点】
1.一种带钢表面质量缺陷多分类的多目标优化特征选择方法,其特征在于,包括以下步骤:/n步骤1:构建带钢表面质量缺陷数据集、带钢表面质量缺陷特征集,进一步构建样本特征值向量,将样本特征值向量进行归一化得到归一化之后的样本特征值向量,结合归一化之后的样本特征值向量得到归一化之后的数据集;/n步骤2:对归一化之后的数据集中的带钢表面质量缺陷类别分别搜索出样本数量最少的类别、样本数量最多的类别;/n步骤3:将归一化之后的数据集与样本数量最多的类别对应的样本子集划分为多个包含相同样本数量的互斥亚子集,将归一化之后的数据集中与样本数量最少的类别对应的样本子集按自助采样法采样生成多个包含相同样本数量的亚子集,将中间类别对应的样本子集先按样本数量划分成多个包含相同样本数量的互斥亚子集,再按自助采样法采样生成多个包含相同样本数量的亚子集;/n步骤4:根据样本最多的类别、样本最少的类别、中间类别生成多个均衡分布的样本子集;/n步骤5:应用ReliefF方法计算多个均衡分布的样本子集中的各特征权重;/n步骤6:计算均衡分布的样本子集中的各特征权重均值,构建所有特征权重均值向量,进一步将特征权重均值按照权重大小降序方式排列,设置特征权重阈值并将权重大于特征权重阈值的特征筛选出来,得到筛选之后的特征子集;/n步骤7:构建带钢表面质量缺陷多分类问题的特征选择多目标优化模型;/n步骤8:应用NSGA-III算法求解带钢表面质量缺陷多分类问题的特征选择多目标优化模型,通过特征权重降序基因填充构造法生成初始种群,同一代中的染色体利用非支配排序方法按非支配关系进行分层,同一支配层中的染色体应用多维的基于参考点的选择方法进行选择;经过多轮的迭代优化,最后得到优化结果作为带钢表面质量缺陷多分类的最优特征选择子集。/n...

【技术特征摘要】
1.一种带钢表面质量缺陷多分类的多目标优化特征选择方法,其特征在于,包括以下步骤:
步骤1:构建带钢表面质量缺陷数据集、带钢表面质量缺陷特征集,进一步构建样本特征值向量,将样本特征值向量进行归一化得到归一化之后的样本特征值向量,结合归一化之后的样本特征值向量得到归一化之后的数据集;
步骤2:对归一化之后的数据集中的带钢表面质量缺陷类别分别搜索出样本数量最少的类别、样本数量最多的类别;
步骤3:将归一化之后的数据集与样本数量最多的类别对应的样本子集划分为多个包含相同样本数量的互斥亚子集,将归一化之后的数据集中与样本数量最少的类别对应的样本子集按自助采样法采样生成多个包含相同样本数量的亚子集,将中间类别对应的样本子集先按样本数量划分成多个包含相同样本数量的互斥亚子集,再按自助采样法采样生成多个包含相同样本数量的亚子集;
步骤4:根据样本最多的类别、样本最少的类别、中间类别生成多个均衡分布的样本子集;
步骤5:应用ReliefF方法计算多个均衡分布的样本子集中的各特征权重;
步骤6:计算均衡分布的样本子集中的各特征权重均值,构建所有特征权重均值向量,进一步将特征权重均值按照权重大小降序方式排列,设置特征权重阈值并将权重大于特征权重阈值的特征筛选出来,得到筛选之后的特征子集;
步骤7:构建带钢表面质量缺陷多分类问题的特征选择多目标优化模型;
步骤8:应用NSGA-III算法求解带钢表面质量缺陷多分类问题的特征选择多目标优化模型,通过特征权重降序基因填充构造法生成初始种群,同一代中的染色体利用非支配排序方法按非支配关系进行分层,同一支配层中的染色体应用多维的基于参考点的选择方法进行选择;经过多轮的迭代优化,最后得到优化结果作为带钢表面质量缺陷多分类的最优特征选择子集。


2.根据权利要求1所述的带钢表面质量缺陷多分类的多目标优化特征选择方法,其特征在于:
步骤1所述带钢表面质量缺陷数据集为:
D={(x1,y1),(x2,y2),…,(xi,yi),…,(xm,ym)}
其中,(xi,yi)是数据集中的第i个样本,xi是样本i的特征/属性值向量,yi是样本i所属的带钢表面质量缺陷类别,i∈[1,m],m为数据集D中的样本数量;
步骤1所述带钢表面质量缺陷特征集为:
A={a1,a2,…,ar,…,aN}
其中,ar是特征集中的第r个特征,r∈[1,N],N为特征数量;
步骤1所述样本特征值向量为:



其中,为样本i在特征ar上的特征值,i∈[1,m];
步骤1所述将样本特征值向量进行归一化为:
将每一个样本特征值向量中的每一个特征值归一化到[0,1]之间,如下:



其中,为归一化处理之后的i∈[1,m],r∈[1,N],和分别表示对样本j在特征ar上的特征值求最小值和最大值,j∈[1,m];相应地,为样本i的所有特征值全部归一化之后的特征向量,i∈[1,m];
步骤1所述归一化后样本特征值向量为:



步骤1所述归一化之后的数据集为:



数据集D是已剔除了包含缺失属性值的样本之后的数据集。


3.根据权利要求1所述的带钢表面质量缺陷多分类的多目标优化特征选择方法,其特征在于:
步骤2所述带钢表面质量缺陷类别集:
C={c1,c2,…,cs,…,cn}
其中,cs是类别集中的第s个类别,s∈[1,n],n为类别数量;
样本数量最少的类别为cminor,对应的样本数量为δminor,样本数量最多的类别为cmajor,对应的样本数量为δmajor;
样本数量介于二者之间的其他类别都归为中间类别cmoder,对应的样本数量为δmoder,中间类别的数量为(n-2),下标moder的取值范围如下:
moder∈{moder|1≤moder≤n,moder≠major且moder≠minor}。


4.根据权利要求1所述的带钢表面质量缺陷多分类的多目标优化特征选择方法,其特征在于:
步骤3所述将归一化之后的数据集与样本数量最多的类别对应的样本子集划分为多个包含相同样本数量的互斥亚子集为:
将归一化之后的数据集中与样本数量最多的类别cmajor对应的样本子集划分为M个包含相同样本数量δminor的互斥亚子集

其中:M=floor(δmajor/δminor),floor(·)为向下取整函数,为第v个亚子集;
步骤3所述将归一化之后的数据集中与样本数量最少的类别对应的样本子集按自助采样法采样生成多个包含相同样本数量的亚子集为:
将归一化之后的数据集中与样本数量最少的类别cminor对应的样本子集按自助采样法采样生成M个包含相同样本数量δminor的亚子集



步骤3所述将中间类别对应的样本子集先按样本数量划分成多个包含相同样本数量的互斥亚子集为:
所述中间类别为归一化之后的数据集中除样本数量最多的类别cmajor、样本数量最少的类别cminor剩余的类别;
将中间类别cmoder对应的样本子集先按样本数量划分成K个包含相同样本数量δminor的互斥亚子集;
步骤3所述自助采样法采样生成多个包含相同样本数量的亚子集为:按自助采样法在中采样生成(M-K)个包含相同样本数量δminor的亚子集,共同构成M个亚子集,


5.根据权利要求1所述的带钢表面质量缺陷多分类的多目标优化特征选择方法,其特征在于:
步骤4所述根据样本最多的类别、样本最少的类别、中间类别生...

【专利技术属性】
技术研发人员:曾亮刘哲王珊珊常雨芳黄文聪全睿杨文戈狄飞超陈新彦
申请(专利权)人:湖北工业大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1