基于区间阴影集和密度峰值聚类的钢材质量检测方法技术

技术编号:21300845 阅读:33 留言:0更新日期:2019-06-12 08:15
本发明专利技术属于钢材质量测试领域,具体涉及一种基于区间阴影集和密度峰值聚类的钢材质量检测方法;所述方法包括获取原始钢材数据集,采用欧式距离公式计算得到其距离矩阵;通过密度峰值聚类中的计算公式,获取局部密度矩阵和相对距离矩阵;输出密度峰值聚类中数据集的决策图,并选取m个聚类中心,将非聚类中心进行归类得到m个类簇;计算出m个类簇中各个对象的隶属度值;通过最小化模糊熵差异,确定出m个类簇的最优阈值序列;基于最优阈值序列,采用分类规则分别对m个类簇中的非中心对象按照其隶属度值采用区间阴影集进行三支分类,从而确定出每个对象的质量检测结果,即获得原始钢材数据集的质量检测结果。本发明专利技术能够有效且快速的检测出钢材质量。

Steel Quality Detection Method Based on Interval Shadow Set and Density Peak Clustering

The invention belongs to the field of steel quality testing, and specifically relates to a steel quality detection method based on interval shadow set and density peak clustering. The method includes obtaining raw steel data sets, calculating its distance matrix by using Euclidean distance formula, obtaining local density matrix and relative distance matrix by computing formula in density peak clustering, and output density peak clustering. Decision maps of data sets in class and M clustering centers are selected to classify non-clustering centers into m clusters; the membership values of each object in M clusters are calculated; the optimal threshold sequence of M clusters is determined by minimizing the difference of fuzzy entropy; based on the optimal threshold sequence, non-central objects in M clusters are classified according to their membership values by using classification rules. The interval shadow set is classified into three branches to determine the quality test results of each object, that is, to obtain the quality test results of the original steel data set. The invention can effectively and rapidly detect the quality of steel products.

【技术实现步骤摘要】
基于区间阴影集和密度峰值聚类的钢材质量检测方法
本专利技术属于钢材质量测试领域,具体涉及一种基于区间阴影集和密度峰值聚类的钢材质量检测方法。
技术介绍
冶金工厂生产各种钢材,出厂时都要按照相应标准及技术文件的规定进行各项检测。检测过程将会产生大量数据,且随着生产的进行,数据呈现爆炸式增长,人工比对各项数据在此大数据背景下不仅耗费人力成本,同时效率低下,甚至无法完成质量检测工作。其次,钢材大数据信息系统的属性不仅多样化,而且属性之间往往具有一定的关联性。因此,诸如粒计算理论、聚类分析等数据挖掘方法大量应用于工业大数据中,快速有效提升知识发现的效果。钢材质量检测中,检测结果通常可分为m种不同等级,该m类分别对应聚类分析算法中的m个类簇。但此分类形成的是一个初步检测结果。2014年,AlexRodriguez在《Science》上发表的密度峰值聚类(DensityPeaksClustering,DPC)引起了业界广泛关注。大量密度峰值聚类相关算法得到广泛研究。算法能够快速、有效地发现任意形状的簇。该算法同时具有K中心点聚类(K-medoids)算法、基于密度的空间聚类(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)算法和均值漂移聚类(Mean-Shift)算法的特点,简洁新颖。该算法的中心点同时具有以下两个特点:本身的密度大,即它被密度均不超过它的邻居包围;与其他密度更大的数据点之间的“距离”相对更大。类簇中心点找到后,剩余的每个点被决策归类到它的有更高密度的最近邻所属类簇,此过程只需一步完成。因此该算法的优势在于无需迭代,极大地降低了算法的成本开销。本专利技术中定义了类簇的边界区域,通过对边界内对象的处理来进一步检测噪声对象,但此方法受截断距离dc的设置影响较大,dc的设置不合理可能引起对噪声对象的处理能力降低,导致类簇结构划分不合理,影响聚类效果。DPC算法的核心思想在于对中心点的刻画上,显然,中心点是局部密度和与高密度点之间的相对距离均大的点。因此,该算法主要有两个需要计算的量:每个点的局部密度ρ以及与高密度点之间的相对距离δ;在数据集中,通过初始化参数dc;计算每个对象的局部密度ρ和相对距离δ;输出决策图,并选取聚类中心;将非聚类中心进行归类得到Ck(k=1,2,…,m);对边界区域的对象进行噪声检测,并进一步分配给core区域或halos区域,即划分为优质钢材或劣质钢材。为了增加算法对噪声数据的鲁棒性,DPC算法定义了类簇的边界区域,一个类簇的边界区域由那些属于该类簇但与其他类簇对象的距离小于截断距离dc的对象构成。以每一个类簇边界区域中密度最大对象的密度为阈值ρb,定义该类簇中密度大于ρb的对象为本类簇的核(core),该类簇的其他对象判别为噪声点,即分配给halos区域。显然,该分配策略存在一定的缺陷。一方面,若一个类簇不存在边界区域(即不存在属于该类簇且截断距离与其他类簇对象的距离小于截断距离dc的对象),则局部密度较小且相对距离较大的噪声一些对象将会错误归类到该类簇。另一方面,若一个类簇存在边界区域,但ρb的确定与截断距离dc的选取直接相关,若则因此,dc值过大,可能使得本该属于该类簇core区域的对象被错误分配到halos区域;反之,dc值过小,可能使得本该属于halos区域的对象被错误分配到该类簇的core区域。而dc的设置没有一个统一的准则,如图1所示,图中记录了截断距离dc分别取包含数据样本总数的不同值时得到的不同聚类结果,表明已有噪声检测策略存在一定缺陷,即聚类结果受dc(人为因素)影响较大。对同一数据集,dc取不同值时对应的聚类结果。易知,对于不同的dc值,虽然类簇数相同,但是非噪声对象以及噪声对象的归类随dc的变化而变化。研究其内在原因:dc值的变化引起ρb值的变化,进一步引起core区域和halos区域的变化。因此,DPC算法的噪声检测策略存在一定的局限性。
技术实现思路
针对上述噪声检测问题,本专利技术在于提供一种基于区间阴影集的密度峰值聚类改进算法(ISS-DPC),消除dc值对噪声对象检测的影响,以此来达到钢材质量检测的目的。本专利技术的一种基于区间阴影集和密度峰值聚类的钢材质量检测方法,所述方法包括以下步骤:S1、获取原始钢材数据集,采用欧式距离公式计算得到其距离矩阵;S2、通过密度峰值聚类中的计算公式,获取距离矩阵中的局部密度矩阵以及相对距离矩阵;S3、输出密度峰值聚类中钢材数据集的决策图,并选取m个聚类中心;将非聚类中心进行归类得到m个类簇,分别代表数据集中初分类的m个等级钢材,即一等钢材,二等钢材,…,m等钢材。S4、计算出m个类簇中各个对象的隶属度值;S5、通过最小化模糊熵差异,确定出所述m个类簇的最优阈值序列;S6、基于最优阈值序列,采用分类规则分别对m个类簇中的非中心对象按照其隶属度值采用区间阴影集进行三支分类,从而确定出每个对象的质量检测结果,即获得原始钢材数据集的质量检测结果。进一步的,步骤S2中,所述局部密度矩阵的计算公式包括或中任意一种方式;优选的,本专利技术选择作为局部密度矩阵;所述相对距离矩阵的计算公式包括其中,ρi表示第i个对象的局部密度;δi表示第i个对象的相对距离;dij表示xi与xj之间的距离,参数dc为截断距离;xi表示钢铁数据集S中的第i个对象;S={x1,x2,…,xn};n表示钢铁数据集的对象总数;IS表示对象指标集,IS={k∈IS|ρk>ρi},当时,对象指标集为空集,即不存在还有局部密度更大的点,表明ρi为局部密度最大的点。进一步的,所述隶属度的计算公式包括:其中,ω表示权重阈值因子,0.5<ω<1,μ(xi)表示第i个对象xi的隶属度值;xi∈Ck,Ck表示第k个类簇,k=1,2,…,m;dic表示第i个对象xi到该类簇中心点xc的距离;ρi表示第i个对象的局部密度;ρmin该类簇中对象局部密度的最小值;ρmax表示该类簇中对象局部密度的最大值;R表示包围大部分对象的球半径。优选的,球半径R的确定方法包括以半径R形成的球能够以半径R形成的球包围一个类簇中70%~80%的类簇对象;即使得类簇中心点的近邻数是该类簇规模的70%~80%。进一步的,所述最优阈值序列的确定方式包括:其中,表示最小化隶属度提升、降低操作的模糊熵之和与阴影区域的模糊熵之差,从而获得最优阈值序列(α1,β1),(α2,β2),…,(αm,βm);e*(ElevatedArea)表示将对象的隶属度提升为1形成的变换区域;e*(ReducedArea)表示将对象的隶属度降低为0形成的变换区域;e*(Shadow)表示将对象的隶属度转化为[βk,αk]区间形成的变换区域;(αk,βk)表示第k个类簇的最优阈值,αk表示第k个类簇的最优上阈值;βk表示第k个类簇的最优下阈值;k=1,2,…,m。进一步的,所述将对象的隶属度提升为1形成的变换区域e*(ElevatedArea)的计算公式包括e*(ReducedArea)的计算公式包括e*(Shadow)的计算公式包括其中,μA(x)表示对象x的隶属度值;α表示隶属度上阈值;β表示隶属度下阈值;进一步的,进行三支分类的操作包括当本文档来自技高网
...

【技术保护点】
1.一种基于区间阴影集和密度峰值聚类的钢材质量检测方法,其特征在于,所述方法包括以下步骤:S1、获取原始钢材数据集,采用欧式距离公式计算得到其距离矩阵;S2、通过密度峰值聚类中的计算公式,获取距离矩阵中的局部密度矩阵以及相对距离矩阵;S3、输出密度峰值聚类中钢材数据集的决策图,并选取m个聚类中心;将非聚类中心进行归类得到m个类簇,分别代表数据集中初分类的m个等级钢材,即一等钢材,二等钢材,…,m等钢材。S4、计算出m个类簇中各个对象的隶属度值;S5、通过最小化模糊熵差异,确定出所述m个类簇的最优阈值序列;S6、基于最优阈值序列,采用分类规则分别对m个类簇中的非中心对象按照其隶属度值采用区间阴影集进行三支分类,从而确定出每个类簇中对象的进一步质量检测结果,即获得原始钢材数据集的最终质量检测结果。

【技术特征摘要】
1.一种基于区间阴影集和密度峰值聚类的钢材质量检测方法,其特征在于,所述方法包括以下步骤:S1、获取原始钢材数据集,采用欧式距离公式计算得到其距离矩阵;S2、通过密度峰值聚类中的计算公式,获取距离矩阵中的局部密度矩阵以及相对距离矩阵;S3、输出密度峰值聚类中钢材数据集的决策图,并选取m个聚类中心;将非聚类中心进行归类得到m个类簇,分别代表数据集中初分类的m个等级钢材,即一等钢材,二等钢材,…,m等钢材。S4、计算出m个类簇中各个对象的隶属度值;S5、通过最小化模糊熵差异,确定出所述m个类簇的最优阈值序列;S6、基于最优阈值序列,采用分类规则分别对m个类簇中的非中心对象按照其隶属度值采用区间阴影集进行三支分类,从而确定出每个类簇中对象的进一步质量检测结果,即获得原始钢材数据集的最终质量检测结果。2.根据权利要求1所述的一种基于区间阴影集和密度峰值聚类的钢材质量检测方法,其特征在于,步骤S2中,所述局部密度矩阵的计算公式包括或中任意一种方式;所述相对距离矩阵的计算公式包括其中,ρi表示第i个对象的局部密度;δi表示第i个对象的相对距离;dij表示xi与xj之间的距离,dc为截断距离;xi表示钢铁数据集S中的第i个对象;S={x1,x2,…,xn};n表示钢铁数据集的对象总数;IS表示对象指标集,IS={k∈IS|ρk>ρi},当时,即对象指标集为空集。3.根据权利要求1所述的一种基于区间阴影集和密度峰值聚类的钢材质量检测方法,其特征在于,所述隶属度的计算公式包括:其中,ω表示权重阈值因子,0.5<ω<1,μ(xi)表示第i个对象xi的隶属度值;xi∈Ck,Ck表示第k个类簇,k=1,2,…,m;dic表示第i个对象xi到该类簇中心点xc的距离;ρi表示第i个对象的局部密度;ρmin该类簇中对象局部密度的最小值;ρmax...

【专利技术属性】
技术研发人员:张清华陈玉洪刘学颖杨洁
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1