一种基于主成分分析的DBSCAN算法岸桥状态分类方法技术

技术编号:20993362 阅读:33 留言:0更新日期:2019-04-29 23:06
本发明专利技术的一种基于主成分分析的DBSCAN算法岸桥状态分类方法中,岸桥各处安装有传感器,每隔设定时间提取传感器传来的数据;通过主成分分析,进行数据中心化后求得特征协方差矩阵及其特征值和特征向量,计算每个成分的贡献度,取其中在前的若干阶主成分进行矩阵变换;初始化密度阈值和密度半径,用于数据点聚类,根据聚类结果实现岸桥状态的分类,实现对岸桥状态的监测。本发明专利技术实现了岸桥状态的准确、快速聚类,能够对非圆域分布数据进行聚类并取得良好效果,相比于一般DBSCAN算法聚类降低了时间复杂度,提高了聚类效率和准确度,还能够很好地识别异常数据。

A State Classification Method of Quayside Crane Based on Principal Component Analysis and DBSCAN Algorithms

In the DBSCAN method of quayside bridge state classification based on principal component analysis, sensors are installed everywhere in quayside bridge, and the data from sensors are extracted every set time. After data centralization, the characteristic covariance matrix and its eigenvalues and eigenvectors are obtained by principal component analysis, and the contribution degree of each component is calculated, and the first principal components are selected to proceed. Line matrix transformation, initialization density threshold and density radius are used for data point clustering. The classification of quayside bridge state is realized according to the clustering results, and the monitoring of quayside bridge state is realized. The method realizes accurate and fast clustering of quayside bridge state, can cluster non-circular distributed data and achieve good results. Compared with the general DBSCAN algorithm, the method reduces the time complexity, improves the clustering efficiency and accuracy, and can also identify abnormal data well.

【技术实现步骤摘要】
一种基于主成分分析的DBSCAN算法岸桥状态分类方法
本专利技术涉及港口机械领域,具体地说,涉及一种基于主成分分析的具有噪音的基于密度的空间聚类算法的岸桥状态分类方法。
技术介绍
使用聚类算法对岸桥状态分类能够提高分类的效率和准确度,能从大量数据中筛选出有用信息,有助于全面系统的了解设备信息,实现对设备状态的监测并提供了设备维护保养的依据。由于数据的分布具有不规则、较离散的特点,一般的基于距离的聚类方法仅对分布在近似圆形区域的数据聚类效果较好。因此,寻找一种行之有效的聚类方法成为提升数据聚类效果的关键。具有噪音的基于密度的空间聚类算法(density-basedspatialclusteringofapplicationwithnoise,DBSCAN)是一个比较有代表性的基于密度的聚类算法,DBSCAN算法可以在数据集中发现任意形状的类并发现其他类型算法难以发现的噪声数据,这些数据可以反映设备工作中的异常状态。主成分分析(Principalcomponentsanalysis,PCA)是一种分析、简化数据集的技术,直接对数据进行聚类往往效率不高,对数据进行主成分分析,减少数据集的维数,同时保持数据集中的对方差贡献最大的特征,可以提高岸桥状态分类的效率和准确度。国内外学者对DBSCAN聚类算法进行了研究并取得了一些进展。但是,在DBSCAN算法中仍存在参数值Eps的选取对聚类结果影响较大、改进的DBSCAN算法时间复杂度提高的问题。
技术实现思路
为解决现有技术中存在的诸多不足之处,本专利技术提供一种基于主成分分析的DBSCAN算法岸桥状态分类方法,实现岸桥状态的准确、快速聚类。基于主成分分析和具有噪音的基于密度的空间聚类的岸桥状态分类方法,包含以下过程:步骤1:数据表示步骤1.1数据库中的数据表示数据库中的数据可用一个向量集合表示如下:D={Dj|j∈N}其中的第j个数据表示如下:Dj=[xj,1,xj,2,...,xj,n]每个测点的数据表示为:Bi=[x1,i,x2,i,...,xm,i]T步骤2:获取数据安装在岸桥各处的传感器,每隔10秒提取传感器传来的数据,并储存在数据库中。从数据库中获取岸桥在一段时间内n个测点测得的m个数据点共m×n个数据。步骤3:主成分分析步骤3.1数据中心化第i个测点的均值表示为:计算第i个测点中心化后的数据如下:步骤3.2求特征协方差矩阵中的数据组成的集合作为样本空间,记为Si。Xi是样本空间Si上的随机变量,求得特征协方差矩阵C步骤3.3求协方差矩阵的特征值和特征向量作|λE-C|=0求诸λi,(i=1,2,...,n-1,n)解(λiE-C)x=0得基础解析采用下式计算每个成分的贡献度:取其中的前k阶主成分,经矩阵变换后得:步骤4:用k-dist图法初始化密度阈值MinPts和密度半径Eps。步骤5:数据点聚类步骤5.1计算近邻点距离随机从经过矩阵变换后的数据集V*中未检查点Vi*开始,计算点Vi到其他点Vj*的欧氏距离如下:步骤5.2判断数据点是否为核心点如果数据点的Eps邻域至少包含最小数目MinPts的点,则称该点为核心点,该Eps邻域包含的点称为直接密度可达点。如果dst≤Eps,则称Dj*为直接密度可达点,如果直接密度可达点个数不小于MinPts,则点Di*为一个核心点。如果直接密度可达点个数小于MinPts,则这个数据点不是核心点,并且称之为已检查点。随机从数据集D*中不属于任何簇(初始判断时未产生任何簇,从D*中随机的下一个未检查点开始即可)的下一个未检查点开始重复本步骤,直到找到一个核心点。步骤5.3创建簇出现核心点则创建一个新簇C,并把直接密度可达点和核心点Di*移入新簇C。步骤5.4扩充簇从簇C中未检查点Dk*开始,计算数据点Dk*到其他点的距离dstkq=||Dk*-Dq*||如果dstkq≤Eps,点Dq*为直接密度可达点,直接密度可达点个数不小于MinPts,则点Dk*是核心点,把直接密度可达点中不包含在簇C中的点移入簇C。如果数据点个数小于MinPts,则从C中下一个未检查点开始重复本步骤,直到簇C中的点不再扩充。步骤5.5循环并得到结果重复以上步骤直到集合D*中的数据点全部为已检查点,得到n个簇,并得到一个不属于任何簇的噪声集,簇反映了岸桥状态的分类,噪声集反映了岸桥工作中出现的异常状况。根据聚类结果可实现岸桥状态的分类,可以实现对岸桥状态的监测,这些聚类数据为之后对状态的预测提供了依据。本专利技术所要解决的问题在于,一般基于距离的聚类方法对分布不规则、较离散的非近似圆形区域内的数据聚类效果不佳,而可对任意形状分布的点簇聚类的DBSCAN算法的聚类效果受参数选取影响较大,时间复杂度较高。为此,本专利技术提出了一种将PCA和DBSCAN相结合的PCA-DBSCAN聚类方法,实现了岸桥状态的准确、快速聚类,能够对非圆域分布数据进行聚类并取得良好效果,相比于一般DBSCAN算法聚类降低了时间复杂度,提高了聚类效率和准确度,还能够很好地识别异常数据(噪声)。附图说明图1为本专利技术整体流程图。图2为本专利技术的实施例中岸桥左起升电机输出端的振动传感器安装位置示意图(HMLIH、HMLIV和HMLIA分别代表水平、径向和轴向振动测点)。具体实施方式以岸桥左侧起升电机输出端的振动传感器为例,下面将结合说明书附图和具体实施方式对本专利技术作进一步的详细说明。如图1所示,一种基于主成分分析的DBSCAN算法岸桥状态分类方法,数据取自岸桥左侧起升电机输出端,实施过程包括如下步骤:步骤1:数据表示分析2009年12月28日0时到2010年1月3日24时之间的54669个数据点。左侧起升电机输出端有三个振动测点,其振动数据表示为:V={Vj|j∈(154669),j∈N}第j个左侧起升电机输出端振动数据表示为:Vj=[xj,18,xj,19,xj,20]18、19和20分别是岸桥三个测点的端线号,分别代表测点HMLIV、HMLIA和HMLIW三个测点(图2)。HMLIV、HMLIA和HMLIW分别测量左侧起升电机输出端水平、径向和轴向的振动数据。xj,18、xj,19和xj,20分别表示第j个数据中HMLIV、HMLIA和HMLIW处的振动数据。左侧起升电机输出端水平、径向和轴向振动数据分别表示如下:B18=[x1,18,x2,18,...,xm,18]TB19=[x1,19,x2,19,...,xm,19]TB20=[x1,20,x2,20,...,xm,20]T步骤2:获取数据从数据库中获取岸桥在2009年12月28日0时到2010年1月3日24时之间的54669个数据点中左起升电机输出端三个测点的振动数据,共54669×3个数据。步骤3:主成分分析步骤3.1中心化计算B18,B19,B20中元素的均值如下:计算中心化后的数据如下:步骤3.2求特征协方差矩阵把中的数据组成的集合作为样本空间,分别为S1,S2,S3。X1,X2和X3分别为样本空间S1,S2,S3上的随机变量,求得特征协方差矩阵C步骤3.3求协方差矩阵的特征值和特征向量作|λE-C|=0求诸λi,(i=1,2,3,n=3)解(λiE-C)x=0得基础解析步骤3.4计算贡献度采用下式计算每个成分的贡献度为:本文档来自技高网...

【技术保护点】
1.一种基于主成分分析和具有噪音的基于密度的空间聚类的岸桥状态分类方法,其特征在于,岸桥各处安装有传感器,每隔设定时间提取传感器传来的数据;通过主成分分析,进行数据中心化后求得特征协方差矩阵及其特征值和特征向量,计算每个成分的贡献度,取其中在前的若干阶主成分进行矩阵变换;初始化密度阈值和密度半径,用于数据点聚类,根据聚类结果实现岸桥状态的分类,实现对岸桥状态的监测。

【技术特征摘要】
1.一种基于主成分分析和具有噪音的基于密度的空间聚类的岸桥状态分类方法,其特征在于,岸桥各处安装有传感器,每隔设定时间提取传感器传来的数据;通过主成分分析,进行数据中心化后求得特征协方差矩阵及其特征值和特征向量,计算每个成分的贡献度,取其中在前的若干阶主成分进行矩阵变换;初始化密度阈值和密度半径,用于数据点聚类,根据聚类结果实现岸桥状态的分类,实现对岸桥状态的监测。2.如权利要求1所述基于主成分分析和具有噪音的基于密度的空间聚类的岸桥状态分类方法,其特征在于,提取传感器传来的数据储存于数据库,数据库中的数据用向量集合表示为:D={Dj|j∈N}其中的第j个数据表示如下:Dj=[xj,1,xj,2,...,xj,n]每个测点的数据表示为:Bi=[x1,i,x2,i,...,xm,i]T从数据库中获取岸桥在一段时间内n个测点测得的m个数据点共m×n个数据。3.如权利要求2所述基于主成分分析和具有噪音的基于密度的空间聚类的岸桥状态分类方法,其特征在于,主成分分析时,第i个测点的均值表示为:计算第i个测点中心化后的数据如下:中的数据组成的集合作为样本空间Si;Xi是样本空间Si上的随机变量,求得特征协方差矩阵C求协方差矩阵的特征值和特征向量,作|λE-C|=0求诸λi,i=1,2,...,n-1,n;解(λiE-C)x=0,得基础解析计算每个成分的贡献度:取其中的前k阶主成分,经矩阵变换后得:4.如权利要求3所述基于主成分分析和具有噪音的基于密度的空间聚类的岸桥状态分类方法,其特征在于,用k-dist图法初始化密度阈...

【专利技术属性】
技术研发人员:唐刚施皓正胡雄
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1