一种白酒图谱的高精度分类识别算法制造技术

技术编号:20390708 阅读:112 留言:0更新日期:2019-02-20 03:10
本发明专利技术提供一种白酒图谱的高精度分类识别算法,通过步骤1.图谱数据的预处理、步骤2.计算核矩阵的特征值与特征向量、步骤3.映射数据到主成分(Principal Component Analysis,PCA)空间、步骤4.采用支持向量机(Support Vector Machine,SVM)进行分类、步骤5.计算各类的聚类中心与阈值、步骤6.奇异点的判断与余弦角的计算、步骤7.利用余弦角对奇异点重新聚类,实现特性微小差异的不同样品白酒的区分,对白酒的准确鉴定、白酒客观评价标准的建立有极大的推动作用。

【技术实现步骤摘要】
一种白酒图谱的高精度分类识别算法
本专利技术涉及数据处理
,具体涉及一种白酒图谱的高精度分类识别算法。
技术介绍
近年来,随着中国经济的不断发展不断提高,白酒在人们消费中所占的比重越来越高。我国已经确定形成的白酒香型多达十余种,如浓香型、酱香型、清香型、米香型、芝麻香型、凤香型、药香型、特香型等等。白酒是多种化学成分的混合物,除98%的水和乙醇外,还包括2%的醇、酯、酸、醚类等微量成分,这些微量元素是决定白酒香型的重要物质。随着科学技术的进步,现已发现决定着白酒的香味风格的微量成分约300余种,很多成分能够通过色谱或光谱等技术手段获得能够表示白酒特性的图谱或图像,包括气相色谱法、液相色谱法、气质联用、红外光谱法、电子鼻等方法、目前,在白酒行业,无统一的白酒特性鉴别标准,其划分主要依靠用人体的味觉、视觉等感觉器官判断酒的香型与等级。客观评价主要使用直接法与间接法对白酒的图谱进行分类判别。图谱直接分类判别法,主要对图谱相似度进行计算,通过计算得到的相似度进行分别识别。间接法通过图谱数据进行降维处理,从而实现较少的数据标准描述图谱的特征,通过较少的数据进行分类识别。间接法中主要采用主成分分析对白酒图谱数据进行降维处理,对降维后的数据采用支持向量机进行分类识别。主成分分析主要通过运算将原有的数据变换得到特征维数更少的数据空间,实现冗余数据的简化,然而,白酒中的微量元素以及微量元素之间的比例是决定白酒香型的重要因素,而微量元素在白酒构成中所占比重极小,主成分分析提取的特征主要由比重较大的成分决定,微量元素以及微量元素之间的比例关系映射到特征空间往往是非线性关系,对于非线性关系的特征值采用线性方法聚类并不适用。因此现有方法并不适用于不同香型白酒的精确区分。间接法能实现不同香型、产地、品种的区分,但白酒成分复杂、影响白酒香型的微量元素众多,现用间接法区分能力有限。与本专利技术相关的现有技术一现有技术一的技术方案主成分分析的实现步骤基于上述主成分分析的基本原理,可以得出主成分分析的计算步骤如下所示:1、数据预处理(1)、将所获得的n个指标(每一指标有m个样品)的一批数据写成一个(m×n)维数据矩阵(2)矩阵A作标准化处理:即对每一个指标分量进行标准化处理从而得到式中,其中,aj为样本均值,sj为样本标准差2、数据主成分特征空间的映射(1)计算样本矩阵的相关系数矩阵R(2)计算R的特征值并由大到小排列λ1,…,λn,即对应的单位正交化特征向量α1,…,αn。(3)选择最大的前k个特征值对的特征向量,构成映射矩阵W=(α1,…αk);(4)计算已标准化的样本数据X通过映射矩阵W在主成分空间的投影Y=XW;对投影到主成分空间的样本数据以欧拉距离为判别依据进行分类识别(如采用支持向量机),如主空间的两个点分别为:y1=(y11,…,y1k)、y2=(y21,…,y2k),欧拉距离定义为:现有技术一的缺点上述方法对样本数据直接采用PCA提取主要特征信息,通过提取的主要特种能实现香型差异较大的样品酒的区分(如浓香、清香、酱香不同类别之间的区分),但对于香型差异不大(如不同年份浓香白酒),其微量成分与不同微量成分之间构成关系存在非线性关系,却不能有效区分。如图1所示,在第一、二主成分组成的特征空间里,清香型与浓香型能较好的区分,而浓香1与浓香2部分样本混在一起,无法进行有效的区分。另外,在聚类分析中,多采用欧拉距离作为分类的参考量,而欧拉距离受测试误差、环境干扰的影响,容易出现误分。如图2所示,两类香型白酒,其聚类中心分别为B、C。A点应该属于香型1。如果采用欧拉距离作为判别依据,A点分别到香型1聚类中心B与香型2的聚类中心C的距离长度为AB、AC,明显AB>AC,若采用欧拉距离作为判别依据,此时A点被误判为香型2;如果采用余弦角作为聚类分析的依据,A点通过坐标原点0到各类聚类中心的夹角分别为∠AOB、∠AOC,此时,∠AOB<∠AOC,能正确判断A点属于香型1。
技术实现思路
本专利技术的目的在于解决上述现有技术存在的缺陷,提供一种白酒图谱的高精度分类识别算法,能实现特性微小差异的不同样品酒的区分。本专利技术采用如下技术方案:一种白酒图谱的高精度分类识别算法,包括以下步骤:步骤1.图谱数据的预处理:(1)将所获得的m个样品白酒图数据,每一个样品白酒包含n个样品数据,写成一个m×n维数据矩阵(2)矩阵A作标准化处理:即对每一个指标分量进行标准化处理,从而得到式中,其中,aj为样本均值,sj为样本标准差步骤2、选定多项式核函数,计算核矩阵的特征值与特征向量(1)选用多项式核函数,k(xi,xj)=(xi×xj+b)a,式中a=2,b=1.5,从而获得核矩阵K(2)计算特征空间对映射数据进行中心化处理后的核矩阵其中,(2)计算的特征值并由大到小排列λ1,…,λn,即对应的单位正交化特征向量α1,…,αn,选择最大的前k个特征值对的特征向量,构成映射矩阵α=(α1,…αk);步骤3.计算已标准化的样本数据X通过映射矩阵α在主成分空间的投影步骤4、对投影到主成分空间的样本数据以欧拉距离为基础采用SVM进行分类。步骤5、计算各类的聚类中心到判别阈值T(1)计算各类的聚类中心、各类点与聚类中心的欧拉距离以及欧拉距离的均值和方差;假设某类的有N个样本,其中第i个样本在主成分空间的坐标为yi=[yi1,yi2,,…,yik],则此类的聚类中心坐标为聚类中心坐标值通过下式求得:进一步,可以求出样本到聚类中心的欧拉距离的均值和方差σ;(2)通过欧拉距离的均值和方差σ确定波动较大点的判别阈值T,步骤6、判断各点到聚类中心的欧拉距离是否大于阈值T,如大于T,则该点与奇异,计算该点(假设该点为yg=[yg1,yg2,,…,ygk])到各个聚类中心的余弦角θg;步骤7、选择余弦角最小聚类中心进行聚类,从而实现特性微小差异的不同样品酒间的区分。本专利技术的有益效果:现有白酒分类方法准确性有限,各品种特征间的微小差异不能准确的判别,本专利技术能实现特性微小差异的不同样品酒的区分,对白酒的准确鉴定、白酒客观评价标准的建立有极大的推动作用。附图说明图1为白酒图谱主成分聚类分析;图2为欧拉距离与正弦距离示意图;图3为本专利技术的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图3所示,本专利技术的一种白酒图谱的高精度分类识别算法,包括以下步骤:步骤1.图谱数据的预处理:(1)将所获得的m个样品白酒图数据,每一个样品白酒包含n个样品数据,写成一个m×n维数据矩阵(2)矩阵A作标准化处理:即对每一个指标分量进行标准化处理,从而得到式中,其中,aj为样本均值,sj为样本标准差步骤2、选定多项式核函数,计算核矩阵的特征值与特征向量(1)选用多项式核函数,k(xi,xj)=(xi×xj+b)a,式中a=2,b=1.5,从而获得核矩阵K(2)计算特征空间对映射数据进行中心化处理后的核矩阵其中,(3)计算的特征值并由大到小排列λ1,…,λn,即对应的单位正交化特征向本文档来自技高网
...

【技术保护点】
1.一种白酒图谱的高精度分类识别算法,其特征在于,包括以下步骤:步骤1.图谱数据的预处理;(1)将所获得的m个样品白酒图数据,每一个样品白酒包含n个样品数据,写成一个m×n维数据矩阵

【技术特征摘要】
1.一种白酒图谱的高精度分类识别算法,其特征在于,包括以下步骤:步骤1.图谱数据的预处理;(1)将所获得的m个样品白酒图数据,每一个样品白酒包含n个样品数据,写成一个m×n维数据矩阵(2)矩阵A作标准化处理;即对每一个指标分量进行标准化处理,从而得到式中,其中,aj为样本均值,sj为样本标准差步骤2.选定多项式核函数,计算核矩阵的特征值与特征向量;(1).选用多项式核函数,k(xi,xj)=(xi×xj+b)a,式中a=2,b=1.5,从而获得核矩阵K,(2).计算特征空间对映射数据进行中心化处理后的核矩阵其中,(3).计算的特征值并由大到小排列λ1,…,λn,即对应的单位正交化特征向量α1,…,αn,选择最大的前k个特征值对的特征向量,构成映射矩阵α=(α1,…αk);步骤3.计算已标准化的样本数据X通过映射矩阵α在主成分空间的投影步骤4.对投影到主成分空间的样本数据以欧拉距离为基础采用SVM进行分类;步骤5.计算各类的聚类中心与判别阈值;步骤6.判断各点到聚类中心的欧...

【专利技术属性】
技术研发人员:陈明举熊兴中黄臣程郑兴文
申请(专利权)人:四川理工学院
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1