一种基于聚类算法的多特征数据分类识别方法技术

技术编号:20119220 阅读:33 留言:0更新日期:2019-01-16 12:19
一种基于聚类算法的多特征数据分类识别方法,所述方法首先计算多维数据中任意两维特征数值之间的离散度准则函数值,再通过比较各离散度准则函数值的大小提取出能代表待分类数据的二维主特征,然后将待分类的多特征数据转换成仅包含主特征的二维数据;最后采用聚类算法对降维后的二维数据进行分类,从而实现对原多特征数据的准确分类识别。本发明专利技术采用聚类算法对多特征数据进行分类,并在分类前首先对数据进行降维处理,使之仅包含能代表待分类数据的二维主特征,从而消除了多维数据中无效信息对分类造成的不良影响,大大提高了多特征数据分类识别的准确性。

A Classification and Recognition Method of Multi-feature Data Based on Clustering Algorithms

A classification and recognition method for multi-feature data based on clustering algorithm is proposed. The method first calculates the value of the discreteness criterion function between any two-dimensional feature values in multi-dimensional data, then extracts the two-dimensional main features representing the data to be classified by comparing the values of the discreteness criterion function, and then converts the multi-feature data to two-dimensional data containing only the main features. Finally, the clustering algorithm is used to classify the two-dimensional data after dimensionality reduction, so as to realize the accurate classification and recognition of the original multi-feature data. The method adopts clustering algorithm to classify multi-feature data, and first reduces the dimension of the data before classifying, so that it only contains two-dimensional main features representing the data to be classified, thereby eliminating the adverse effect of invalid information in multi-dimensional data on classification, and greatly improving the accuracy of classification and recognition of multi-feature data.

【技术实现步骤摘要】
一种基于聚类算法的多特征数据分类识别方法
本专利技术涉及一种基于聚类算法的能够对多特征数据进行准确分类识别方法,属于数据处理

技术介绍
随着科技的发展和人民生活水平的提高,越来越多的科学技术不仅仅被应用在军事领域、航天领域等高精尖行业,而是逐渐进入人们的生活中,为百姓服务。对多特征数据的处理在很多方面都有需求,例如在植物学领域:为了更好地研究植物的生物多样化以及植物的生长状态等方面的问题,需要对于植物的叶片进行分类识别,叶片的多特征数据包括如下特征:虫洞图像、纹理图像、灰度图像,要想对叶片进行分类就需要提取相应的几何特征和结构特征,然后使用主成分分析方法以及线性评判分析方法,就可以实现对植物叶片的准确分类识别。在人类医学领域:传统的医学图像检测方法已经不能满足准确率的要求,为了方便医学理论的研究,使研究人员可以更好地对医学文本书籍进行理解,机器学习可以抽取多特征融合的语义关系,通过支持向量机来实现中文web医学信息语义关系的抽取。在日常生活中也存在多特征数据识别的需求,随着互联网购物潮流的出现,促进了采用图像检索方式进行购物的需求,通过提取纹理特征、轮廓特征和统计特征作为低层特征向量进行特征融合,使用SVM分类器和卷积神经网络来实现服装图像分类识别,消费者得到极大的方便。随着网络生活的逐渐活跃,人们的安全受到了威胁,根据人类的生物特征,例如掌纹和虹膜等明显特征,对人的身份进行识别比传统的密码认证更加安全。这种多特征数据识别技术在公路交通收费和停车场收费方面应用的更多,收费需要区分车辆型号进行分级,因此产生了对于车辆型号进行分类的需求,通过这项技术就实现了车辆型号的识别,并且识别率较高、鲁棒性好。正是由于科学研究、人民生活、安全防卫等方面对于多特征数据处理方面的需求,使得多维特征数据的准确分类识别具有深远的现实意义,然而现有的分类识别方法还不够成熟,在处理高维数据时受多维数据中无效信息量的影响较大,严重影响了分类识别的准确性。
技术实现思路
本专利技术的目的在于针对现有技术之弊端,提供一种基于聚类算法的多特征数据分类识别方法,以提高多特征数据分类识别的准确性。本专利技术所述问题是以下述技术方案实现的:一种基于聚类算法的多特征数据分类识别方法,所述方法首先计算多维数据中任意两维特征数值之间的离散度准则函数值,再通过比较各离散度准则函数值的大小提取出能代表待分类数据的二维主特征,然后将待分类的多特征数据转换成仅包含主特征的二维数据;最后采用聚类算法对降维后的二维数据进行分类,从而实现对原多特征数据的准确分类识别。上述基于聚类算法的多特征数据分类识别方法,所述方法包括以下步骤:a.获得待分类的多特征数据样本集合为E=(e1,e2,L,eN);N为聚类样本点的总数,原数据共包含c个类别;b.提取能代表待分类数据的二维主特征,将样本集合中的数据转换为二维数据,具体方法如下:设第i类数据ex的维数为w,特征矢量为X=(x1,x2L,xw),其中xj(j=1,2,Lw)表示数据ex的第j维特征数值,将所有特征两两组合,得到种特征组合,分别求每种特征组合的离散度准则函数值J:其中:式中mi是第i类数据的均值向量;c为原数据类别数;ni为第i类数据的样本数,m是总平均向量;N是总样本数;选择J的最大值所对应的两位特征,得到能代表待分类数据的二维主特征,仅保留数据的二维主特征,将w维数数据降维成二维数据;用上述方法将样本集合E=(e1,e2,L,eN)中的数据降维成二维数据;c.采用聚类算法对多特征数据进行准确分类,具体方法如下:①将降维后的数据集E中的每一个数据ei(i∈1,2,LN)作为一个聚类中心;②遍历集合E计算两两聚类中心(ei,ej)(i,j∈1,2,LN,j≠i)之间的距离;③选取距离最近的两个聚类中心(ei,ej),用这两个点的平均值(距离中心点)代替这两个点;④检测聚类中心的个数,若聚类中心的个数大于原数据类别c,重复步骤②和步骤③,直至聚类中心的个数等于原数据类别c,得到数据分类所需的c个聚类中心;⑤计算数据集E中的每一个数据ei(i∈1,2,LN)与每个聚类中心的距离,将每一个数据划归到与其距离最小的聚类中心所属的类别,完成多特征数据的分类识别。本专利技术采用聚类算法对多特征数据进行分类,并在分类前首先对数据进行降维处理,使之仅包含能代表待分类数据的二维主特征,从而消除了多维数据中无效信息对分类造成的不良影响,大大提高了多特征数据分类识别的准确性。附图说明下面结合附图对本专利技术作进一步详述。图1为本专利技术分类识别数据的流程图;图2为选取数据点集第三维,第四维特征代替原数剧特征的二维显示图像;图3为聚类算法的分类结果图。文中各符号为:E为样本集合;J为离散度准则函数;mi是第i类数据的均值向量;ni为第i类数据的样本数,m是总平均向量;N为总样本数;c为原数据类别数。具体实施方式聚类分析方法的研究已经相对成熟,在多领域的研究中可以作为数据预处理部分,更多的是作为一种独立工具来获得数据的分布情况,实现数据分类的目的,进行数据分析。聚类方法是一种无监督的模式分类方法,不需要实现提供样本的类别信息,只是依照样本数据自身的特点将样本进行分类,这样可以实现在未知情况下的分类,对于样本的条件要求大大降低,因而应用也更加方便。本专利技术将数据相似度大的归为一类,所涉及的特征选择方法具有较广的应用范围,运用这种方法可以处理高维数据,减少多维数据中无效信息量对数据所属类别的判定的影响,对数据分类识别提供重要参考价值。本专利技术根据待分类数据的多维特征来确定数据类别,并采用离散度准则选择最能代表原数据的特征来完成分类,再根据分级聚类算法来对数据进行聚类,将相似度高的数据聚为一类,进而得出更加准确的分类结果。所述方法包括下述步骤:(一)获得待分类的多特征数据;样本集合为E=(e1,e2,L,eN);N为聚类样本点的总数,原数据共包含c个类别。(二)提取能代表待分类数据的二维主特征。(1)特征选择:是指从原来的w维特征X=(x1,x2,L,xw)中挑选出w′个特征构成新的特矢量X′=(x1,x2,L,xw′)的过程,其中xj(j=1,2,Lw)表示数据各维特征数值,w′<w。特征选择的目的是要从原始的数据中挑选出对分类最具有意义的最有利于分类的一组特征,而抛弃掉与分类无关或对区分不同类别贡献很小的特征。特征选择实际上是一个对某种选定的可分性判据的优化问题。使用特征选择算法的目的是降维,即将w维数据降为易处理的两维数据。本专利技术根据穷举思想,将所有特征组合总数种特征组合列举出来,分别求其离散度准则函数值。(2)计算离散度准则函数的步骤如下①mi是第i类数据的均值向量;②c为原数据类别数;③ni为第i类数据的样本数,m是总平均向量,N为总样本数。④J的值越大越好。应用类别可分性准则的原理,即J值越大,类别可分性越大,所选取的特征维数的特征越是明显,由此得到特征最明显的两位特征。(三)基于聚类算法对多特征数据进行准确分类:本专利技术应用的是其中的分级聚类算法。具体的算法流程如下:①将数据集E中的每一个数据ei(i∈1,2,LN)作为一个聚类中心;②遍历集合计算两两聚类中心(ei,ej)(i,j∈1,2,LN)之间的距离,并将两个数据的距离作为两个本文档来自技高网
...

【技术保护点】
1.一种基于聚类算法的多特征数据分类识别方法,其特征是,所述方法首先计算多维数据中任意两维特征数值之间的离散度准则函数值,再通过比较各离散度准则函数值的大小提取出能代表待分类数据的二维主特征,然后将待分类的多特征数据转换成仅包含主特征的二维数据;最后采用聚类算法对降维后的二维数据进行分类,从而实现对原多特征数据的准确分类识别。

【技术特征摘要】
1.一种基于聚类算法的多特征数据分类识别方法,其特征是,所述方法首先计算多维数据中任意两维特征数值之间的离散度准则函数值,再通过比较各离散度准则函数值的大小提取出能代表待分类数据的二维主特征,然后将待分类的多特征数据转换成仅包含主特征的二维数据;最后采用聚类算法对降维后的二维数据进行分类,从而实现对原多特征数据的准确分类识别。2.根据权利要求1所述的一种基于聚类算法的多特征数据分类识别方法,其特征是,所述方法包括以下步骤:a.获得待分类的多特征数据样本集合为E=(e1,e2,L,eN);N为聚类样本点的总数,原数据共包含c个类别;b.提取能代表待分类数据的二维主特征,将样本集合中的数据转换为二维数据,具体方法如下:设第i类数据ex的维数为w,特征矢量为X=(x1,x2,Lxw),其中xj(j=1,2,Lw)表示数据ex的第j维特征数值,将所有特征两两组合,得到种特征组合,分别求每种特征组合的离散度准则函数值J:其中:式中mi是第i类数据的均值向量;c为原...

【专利技术属性】
技术研发人员:魏乐姚伟徐珮宸田琪林
申请(专利权)人:华北电力大学保定
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1