当前位置: 首页 > 专利查询>江苏大学专利>正文

一种模糊非相关C均值聚类的茶叶红外光谱分类方法技术

技术编号:19565862 阅读:36 留言:0更新日期:2018-11-25 01:57
本发明专利技术公开了一种模糊非相关C均值聚类的茶叶红外光谱分类方法,本发明专利技术的方法能够在模糊C均值聚类过程中动态提取茶叶红外光谱数据的模糊非相关鉴别信息,可提高茶叶品种鉴别的准确率。首先用傅里叶红外光谱分析仪采集茶叶样本的红外光谱;接着对红外光谱进行多元散射校正预处理;然后用主成分分析法将光谱数据降维到20维;再利用线性判别分析提取光谱数据中的鉴别信息;最后用一种模糊非相关C均值聚类方法进行茶叶品种的分类。本发明专利技术在模糊C均值聚类方法基础上设计了一种模糊非相关C均值聚类方法,具有检测速度快,分类速度快,分类准确率高等优点,可实现茶叶品种的正确分类。

A Classification Method of Tea Infrared Spectrum Based on Fuzzy Uncorrelated C-Means Clustering

The invention discloses a tea infrared spectrum classification method based on Fuzzy non-correlation C-means clustering. The method can extract the fuzzy non-correlation identification information of tea infrared spectrum data dynamically in the process of fuzzy C-means clustering, and can improve the accuracy of tea variety identification. Firstly, the infrared spectra of tea samples were collected by Fourier transform infrared spectroscopy (FTIR) analyzer; secondly, the infrared spectra were pre-processed by multiple scattering correction; secondly, the spectral data were reduced to 20 dimensions by principal component analysis (PCA); then, the discriminant information was extracted from the spectral data by linear discriminant analysis; finally, a kind of fuzzy non-correlation C-means clustering was used. Classification methods were used to classify tea varieties. Based on the fuzzy C-means clustering method, the present invention designs a fuzzy non-correlation C-means clustering method, which has the advantages of fast detection speed, fast classification speed and high classification accuracy, and can realize the correct classification of tea varieties.

【技术实现步骤摘要】
一种模糊非相关C均值聚类的茶叶红外光谱分类方法
本专利技术涉及一种茶叶分类方法,具体涉及一种模糊非相关C均值聚类的茶叶红外光谱分类方法。
技术介绍
饮茶是中国人的传统饮食文化。茶叶中含有茶多酚,茶多糖和茶氨酸等有益人体健康的物质。目前,市场上茶叶品种众多,茶叶质量的重要性已渐渐被人们所重视。但是,市场上茶叶良莠不齐,品种众多,其优劣难以分辨。因此,研究出一种快速有效的鉴别茶叶品种的方法十分重要。红外光谱主要用于有机化合物的定性和定量分析。红外光谱技术作为一种无损检测技术,近年来,已经在农产品和食品安全检测等领域得到广泛应用。例如:杨新河等利用傅里叶红外光谱法对黑茶进行鉴别研究。Ayvaz等用便携式中红外系统收集马铃薯汁的中红外光谱,利用归一化和Savitzky-Golay二阶多项式滤波器进行光谱预处理,再用偏最小二乘回归建立校正模型预测七种不同颜色马铃薯的花青素,酚醛物质和糖含量。在众多的模糊聚类算法中基于目标函数的模糊聚类由于其具有设计简单、解决问题的范围广,最终可以归结为优化问题等优点而成为目前应用最广泛的模糊聚类算法。其中模糊C-均值聚类是基于目标函数的聚类算法中最具代表性的聚类算法。但是模糊C-均值聚类FCM在模糊聚类过程中无法动态提取样本的鉴别信息。为了解决这个问题,本专利技术设计了一种模糊非相关C均值聚类方法。该方法可实现模糊C均值聚类过程中进行数据模糊非相关鉴别信息的提取,可以达到更高的聚类准确率。
技术实现思路
本专利技术的目的在于克服现有技术存在的上述缺陷,提供一种检测速度快、分类准确率高、分类效率高的一种模糊非相关C均值聚类的茶叶红外光谱分类方法。首先,用傅里叶红外光谱分析仪采集茶叶样本的红外光谱;接着对红外光谱进行多元散射校正预处理;然后用主成分分析法将光谱数据降维;再利用线性判别分析提取光谱数据中的鉴别信息;最后用一种模糊非相关C均值聚类方法进行茶叶品种的分类。本专利技术依据的原理:研究表明茶叶的红外漫反射光谱包含了茶叶内部的茶多酚、咖啡碱和可溶性固形物等内部品种信息,不同品种的茶叶所对应的红外漫反射光谱也不同。一种模糊非相关C均值聚类的茶叶红外光谱分类方法,具体包括以下步骤:步骤一、茶叶样本红外光谱采集及光谱预处理;步骤二、采用主成分分析方法对茶叶样本红外光谱进行降维处理和用线性判别分析提取茶叶训练样本红外光谱的鉴别信息。步骤三、设置模糊C-均值聚类的权重指数m,最大迭代次数rmax,误差上限值ε。对步骤二的测试样本数进行模糊C均值聚类得到的聚类中心作为一种模糊非相关C均值聚类的初始聚类中心V(0)。步骤四:采用一种模糊非相关C均值聚类方法进行茶叶品种的判定:1)初始化:设置权重指数m,类别数c,测试样本数n;设置迭代次数初始值r和最大迭代次数rmax;设置迭代误差上限值为ε;2)计算模糊类间散射矩阵SfB其中,为第r次迭代时第k个样本xk隶属于第i类的模糊隶属度,m代表权重;c为类别数,为第r次迭代时第i类的类中心值,为测试样本的均值,n为测试样本数,xj为第j个测试样本,上标T代表矩阵转置运算。3)计算模糊总体散射矩阵SfT其中,xk为第k个测试样本。4)计算特征向量其中,为模糊离散度矩阵的逆矩阵,SfB为模糊类间散列矩阵,λ是特征向量ψ所对应的特征值。将计算所得的最大特征值λ1对应的特征向量ψ1作为模糊非相关鉴别转换向量的第1个向量,若p个模糊非相关鉴别转换向量为ψ1,ψ2,...,ψp,则计算第p+1个模糊非相关鉴别转换向量如下:QSfBψp+1=βSfTψp+1Q=I-SfTTψT(ψSfTψT)-1ψ,ψ=[ψ1ψ2…ψP]β是特征向量ψp+1所对应的特征值,I为单位矩阵。5)将xk∈Rq转化到特征空间(由ψ1,ψ2,...,ψp组成)yk=xkT[ψ1,ψ2,...,ψp](yk∈Rp)其中,p和q均为样本的维数,ψp为第p个特征向量。6)同样将转化到特征空间其中,为步骤三中模糊C均值聚类中的类中心值,ψp为第p个特征向量。7)在特征空间中计算模糊隶属度函数值其中,yk为特征空间里第k个样本,是第r+1次迭代时样本yk隶属于类别i的模糊隶属度值,uik(r+1)是第r+1次迭代计算的模糊隶属度值;vi′(r)和vj′(r)分别是第r次迭代计算的第i类和第j类的类中心值;c为类别数,m为权重值。8)在特征空间中计算i类的类中心值其中,是第r+1次迭代计算的第i类的类中心的值。9)增加迭代数r值,即r=r+1;,直到或者r>rmax计算终止,否则将的值赋给变量的值赋给变量继续从2)开始重新计算。本专利技术的有益效果:1、本专利技术的一种模糊非相关C均值聚类方法通过步骤四以实现在模糊C均值聚类过程中计算模糊非相关鉴别转换向量以提取茶叶样本近红外光谱的鉴别信息,可实现在模糊C均值聚类过程中进行数据非相关鉴别信息的提取,达到更高的聚类准确率。可以实现不同品种茶叶的正确分类。2、本专利技术的方法能够在模糊C均值聚类过程中动态提取茶叶红外光谱数据的模糊非相关鉴别信息,可提高茶叶品种鉴别的准确率。附图说明图1是一种模糊非相关C均值聚类的茶叶红外光谱分类方法的流程图。图2是茶叶样本的红外光谱图。图3是多元散射校正处理后的茶叶红外光谱图图4是线性判别分析处理后得到的二维测试样本图5是一种模糊非相关C均值聚类得到的模糊隶属度值。具体实施方式下面结合实施例和附图对本专利技术作进一步说明。如图1所示,本专利技术的方法包括如下步骤:步骤一、茶叶样本红外光谱采集及光谱预处理:将FTIR-7600型傅里叶红外光谱分析仪开机预热1个小时。扫描次数为32,光谱扫描的波数范围为7800cm-1~350cm-1,扫描间隔为1.928cm-1,分辨率为4cm-1。取优质竹叶青、劣质竹叶青和峨眉山毛峰三种茶叶作为研究对象,取适量的三种茶叶经研磨粉粹,再用40目筛进行过滤后,各取0.5g分别与溴化钾1:100均匀混合。每个样本取混合物1g进行压膜,然后用光谱仪扫描3次,取3次的平均值作为样本光谱数据。采集环境温度为25℃,相对湿度50%。每种茶叶采集32个样本,共获得96个样本。每个样本为一个1868维的数据,波数范围为4001.569cm-1~401.1211cm-1。每种样本选取22个为测试样本,则测试样本共66个;剩余的30个样本作为训练样本。茶叶样本的红外光谱如图2所示。采用多元散射校正(MSC)对茶叶红外光谱进行光谱预处理。经过光谱预处理后的茶叶红外光谱如图3所示。步骤二、采用主成分分析方法对茶叶样本红外光谱进行降维处理和用线性判别分析提取茶叶训练样本红外光谱的鉴别信息。采用主成分分析方法对茶叶样本红外光谱的降维处理:采用主成分分析方法将图3茶叶样本红外光谱进行特征分解得到前20个特征向量v1,v2…v20和对应的20个特征值λ1,λ2…λ20。每个特征向量都是1868维的数据,特征值具体如下λ1=293.9148,λ2=129.0279,λ3=19.0010,λ4=14.8802,λ5=6.4349,λ6=3.8189,λ7=2.0033,λ8=1.4310,λ9=1.0661,λ10=0.6298,λ11=0.4020,λ12=0.3169,λ13=0.2706,λ14=0.2294,λ15=0.1928,λ16=0.本文档来自技高网...

【技术保护点】
1.一种模糊非相关C均值聚类的茶叶红外光谱分类方法,其特征在于,包括如下步骤:步骤一、茶叶样本红外光谱采集及光谱预处理;步骤二、采用主成分分析方法对茶叶样本红外光谱进行降维处理和用线性判别分析提取茶叶训练样本红外光谱的鉴别信息;步骤三、设置模糊C‑均值聚类的权重指数m,最大迭代次数rmax,误差上限值ε。对步骤二的测试样本数进行模糊C均值聚类得到的聚类中心作为一种模糊非相关C均值聚类的初始聚类中心V(0);步骤四:采用一种模糊非相关C均值聚类方法进行茶叶品种的判定。

【技术特征摘要】
1.一种模糊非相关C均值聚类的茶叶红外光谱分类方法,其特征在于,包括如下步骤:步骤一、茶叶样本红外光谱采集及光谱预处理;步骤二、采用主成分分析方法对茶叶样本红外光谱进行降维处理和用线性判别分析提取茶叶训练样本红外光谱的鉴别信息;步骤三、设置模糊C-均值聚类的权重指数m,最大迭代次数rmax,误差上限值ε。对步骤二的测试样本数进行模糊C均值聚类得到的聚类中心作为一种模糊非相关C均值聚类的初始聚类中心V(0);步骤四:采用一种模糊非相关C均值聚类方法进行茶叶品种的判定。2.根据权利要求1所述的一种模糊非相关C均值聚类的茶叶红外光谱分类方法,其特征在于,所述步骤四的具体实现包括:1)初始化:设置权重指数m,类别数c,测试样本数n;设置迭代次数初始值r和最大迭代次数rmax;设置迭代的误差上限值为ε;2)计算模糊类间散射矩阵SfB其中,为第r次迭代时第k个样本xk隶属于第i类的模糊隶属度,m代表权重;c为类别数,为第r次迭代时第i类的类中心值,为测试样本的均值,n为测试样本数,xj为第j个测试样本,上标T代表矩阵转置运算;3)计算模糊总体散射矩阵SfT其中,xk为第k个测试样本;4)计算特征向量其中,为模糊离散度矩阵的逆矩阵,SfB为模糊类间散列矩阵,λ是特征向量ψ所对应的特征值。将计算所得的最大特征值λ1对应的特征向量ψ1作为模糊非相关鉴别转换向量的第1个向量,若p个模糊非相关鉴别转换向量为ψ1,ψ2,...,ψp,则计算第p+1个模糊非相关鉴别转换向量如下:5)将xk∈Rq转化到特征空间yk=xkT[ψ1,ψ2,...,ψp](yk∈Rp)其中,p和q均为样本的维数,ψp为第p个特征向量,所述特征空间由ψ1,ψ2,...,ψp组成。6)同样将转化到特征空间其中,为步骤三中模糊C均值聚类中的类中心值,ψp为第p个特征向量;7)在特征空间中计算模糊隶属度函数值其中,yk为特征空间里第k个样本,是第r+1次迭代时样本yk隶属于类别i的模糊隶属度值,uik(r+1)是第r+1次迭代计算的模糊隶属度值;vi'(r)和vj'(r)分别是第r次迭代计算的第i类和第j类的类中心值;c为类别数,m为权重值;8)在特征空间中计算i类的类中心值其中,是第r+1次迭代计算的第i类的类中心的值。9)增加迭代数r值...

【专利技术属性】
技术研发人员:武小红傅海军陈勇武斌孙俊戴春霞翟艳丽
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1