一种具有普适性的近红外光谱定性分析方法技术

技术编号:10824948 阅读:142 留言:0更新日期:2014-12-26 13:49
一种具有普适性的近红外光谱定性分析方法,获取训练集和预测集样本近红外光谱,构造余弦字典,求解训练集和预测集样本在余弦字典下的表示系数,然后结合表示系数的稀疏度完成光谱重构,再根据重构后的训练集近红外光谱及训练集样本类别编号寻找定性分类的有效投影方向,并完成重构后训练集和预测集近红外光谱的投影变换,接下来计算变换后的训练集和预测集近红外光谱的图拉普拉斯矩阵,并将分类问题转化成优化问题,最后完成分类函数的求解及执行预测集近红外光谱的定性分析。本发明专利技术提供了一种精度较高、准确性良好、有效适用于小样本复杂体系的具有普适性的近红外光谱定性分析方法。

【技术实现步骤摘要】

本专利技术涉及化工、食品、农业、环境、生物等行业的近红外仪器分析和检测领域,特 别是一种近红外光谱定性分析方法。
技术介绍
近红外光谱分析技术是利用物质中敏感基团对不同波长近红外光的吸收强度来 进行定性分析的方法,近年来在农业、食品、药物、医学、石油化工等领域有着广泛的应用。 各个领域应用近红外分析技术后,优势明显,主要表现如下几个方面:分析测试速度有较大 幅度地提高,测试时间通常在几分钟内;测试效率有较大提升,通过一次光谱测量,可对样 本多个性质同时进行测量;测试成本进一步降低,近红外技术是无损检测,除仪器供电外无 其他试剂、预处理损耗。近红外分析技术被越来越多的分析工作者认可和使用,近红外光谱 技术作为在线快速分析技术在生产过程和工业控制中发挥了的巨大作用,应用潜力巨大。 将近红外光谱与待检测参数建立定性分析模型是近红外法检测的关键技术。 在定性模型建立方面,由于光谱中不同波长变量间存在复共线性关系,即某个波 长点的信息可以用其他波长点线性表示,这些波长点的存在对现有的定性分析方法存在干 扰作用,降低建模精度。此外,由于光谱波长点过多,而不同波长点之间的信息差别较小,在 计算过程中易引起散度、方差矩阵奇异。 为解决上述问题及完成近红外光谱的定性分析,光谱分析工作者主要使用两类方 法,一类是无监督的方法,以根据距离测度分类的聚类分析为典型代表,之后出现了 K均值 聚类、模糊K均值聚类等动态聚类算法。采用了迭代分级聚类策略思想的系统聚类分析,神 经网络中的自组织神经网络也逐步在近红外光谱聚类分析中应用。另一类是有监督的方 法,根据已知样本距离判断的最小距离判别法、K最邻近法,根据样本之间的相关性判断的 线性判别分析法,在主成分分析基础上进行拟合判别的SMCA方法等模式识别方法在近红 外光谱分析文献中较为常见。同时对定量分析方法进行适当改造,将定量值定义为特定的 类别编号,就可将定量分析方法用于定性分析,比如判别偏最小二乘法(PLS-DA),支持向量 机,BP神经网络等。 现有的神经网络、支持向量机等定性分析方法难以拟合样本光谱和类别特征存在 的非线性关系,容易造成预测失败。光谱各吸收峰之间存在交叠现象,加上在光谱采集过程 中由于光谱仪器本身或者外界因素的干扰,不可避免地存在噪声,这仍旧给光谱的定性析 造成很大困难。通常近红外法应用的检测对象,如农业、食品的产品,由于种类的多样性和 不确定性,在定性模型建立过程中,在特定波长下,朗伯比尔定律约束具有多样性、交叠性, 光谱建模就从单一体系问题演变成为复杂体系问题,加大分类预测的难度。 样本数量对于复杂体系下近红外分类模型精度有较大的影响,常规近红外定性分 析方法需通过收集大量样品建立分类模型,使模型尽可能地涵盖样品信息,从而具有较好 的稳定性和适用性。在工程实际中,每次取得的样本不一定处于同一体系,则大多数近红外 光谱定性分析成为一小样本建模问题,其预测精度和稳定性尚待提升。同时获得样本物理 化学类别特性信息的过程将会消耗大量的时间、人力和财力,在极端情况下,部分样本光谱 的物理化学类别信息可能无法获得。而获得未知物理化学类别信息的样本光谱较为容易, 仅需一次或多次的光谱采集。 如上所述,现用于提高近红外光谱定性分析结果精度的方法和途径存在各种局限 性和不足,制约了近红外光谱分析技术在复杂体系中的应用范围。目前大多应用实践尚不 能满足近红外光谱定性分析中需大量已知物理化学类别特性信息样本的要求,且针对复杂 体系的应用对象,无法提供标准物理化学类别特性信息的样本。那么为了提高近红外光 谱定性分析的精度和稳定性,必须发展新的近红外光谱定性分析方法,克服噪声、吸收峰混 叠、复共线性的干扰,从未知分类信息的样本光谱提取更多信息,实现复杂混合体系近红外 光谱的准确定性分析,对于当前近红外光谱定性分析的研究和应用具有十分重要的意义。
技术实现思路
为了克服已有近红外光谱定性分析方法的精度较低、准确性较差、不能适用于小 样本复杂体系的不足,本专利技术提供了一种精度较高、准确性良好、有效适用于小样本复杂 体系的具有普适性的近红外光谱定性分析方法。 本专利技术解决其技术问题所采用的技术方案是: ,所述方法包括以下步骤: (1)获取训练集和预测集样本近红外光谱,将训练集近红外光谱表示为X(nXp), 其中η为训练集样本数量,p为光谱数据维度;将预测集近红外光谱表示为X'(mXp),其中 m为预测集样本数量;X(i,j)表示训练集近红外光谱矩阵中坐标位置为(i,j)的吸光度值, X'(i,j)表示预测集近红外光谱矩阵中坐标位置为(i,j)的吸光度值;构造训练集近红外 光谱的类属性矩阵Y(nXK),Y(i,j)表示类属性矩阵中坐标位置为(i,j)的类别属性,其中 K为校正集样本中类别数;Y矩阵的每一行对应一个训练集样本,若第t号训练集样本的类 别编号为 z,则 Y(t, j = z) = 1,r(i,j'gz) = 0; (2)用离散余弦函数8£1[13] = cos(b π a/(10*n*m))逼近近红外光谱中余弦信号特 征的吸收峰并构造字典中原子ga,每个原子ga为一 P维列向量,其中b = 0, 1,. . .,p-ι,下 标a = 0, 1,. . .,10*n*m-l代表频率参量;在10*n*m个原子形成后,使用原子〖3组成具有 过完备特性的字典矩阵G,字典矩阵G的计算式为: G(pX (10*n*m)) = [g0, g g2. · · ; (3)逐一提取训练集近红外光谱矩阵X(nXp)的每个样本光谱,即光谱矩 阵X(IiXp)的P维行向量,向量记为X。,C = 1,2... η;逐一提取预测集近红外光谱矩 阵X'(mXp)的每个样本光谱,即光谱矩阵X'(mXp)的ρ维行向量,向量记为x'd,d = 1,2. .. m ;计算每个近红外光谱X。和X'd在字典矩阵G下的稀疏表示系数α。和a d,c = 1,2· · · n,d = 1,2· · · m,其中 α。和 a d 均为 l〇*n*m 维行向量; (4)使用稀疏表示系数向量α。重构训练集近红外光谱矩阵中的行向量x'。= (G* α。)T,c = 1,2. . . η,其中,上标T为向量或矩阵转置运算;使用稀疏表示系数向量a d重 构预测集近红外光谱矩阵中的行向量X d = (G*a d)T,d = 1,2. . .m,其中上标T为向量或 矩阵转置运算;使用重构后的X'。,c = 1,2. .. n,逐行替换训练集近红外光谱矩阵X(nXp) 中的行向量,形成新的训练集近红外光谱矩阵Xmw(IiXp);使用重构后的X d,d=l,2...m 逐行替换预测集近红外光谱矩阵X'(mXp)中的行向量,形成新的预测集近红外光谱矩阵 X'new(mXp); (5)利用训练集近红外光谱数据,寻找实施定性判别的q个投影方向wk,W k为P维 向量,k = 1,2. .. q该方向能对光谱类别信息数据进行有效分类; (6)将新的训练集近红外光谱矩阵XnOT(nXp)和新的预测集近红外光谱矩阵 X' new(mXp)向向量 wk,k 本文档来自技高网
...

【技术保护点】
一种具有普适性的近红外光谱定性分析方法,其特征在于:所述方法包括以下步骤:(1)获取训练集和预测集样本近红外光谱,将训练集近红外光谱表示为X(n×p),其中n为训练集样本数量,p为光谱数据维度;将预测集近红外光谱表示为X'(m×p),其中m为预测集样本数量;X(i,j)表示训练集近红外光谱矩阵中坐标位置为(i,j)的吸光度值,X'(i,j)表示预测集近红外光谱矩阵中坐标位置为(i,j)的吸光度值;构造训练集近红外光谱的类属性矩阵Y(n×K),Y(i,j)表示类属性矩阵中坐标位置为(i,j)的类别属性,其中K为校正集样本中类别数;Y矩阵的每一行对应一个训练集样本,若第t号训练集样本的类别编号为z,则Y(t,j=z)=1,(2)用离散余弦函数ga[b]=cos(bπa/(10*n*m))逼近近红外光谱中余弦信号特征的吸收峰并构造字典中原子ga,每个原子ga为一p维列向量,其中b=0,1,...,p‑1,下标a=0,1,...,10*n*m‑1代表频率参量;在10*n*m个原子形成后,使用原子ga组成具有过完备特性的字典矩阵G,字典矩阵G的计算式为:G(p×(10*n*m))=[g0,g1,g2...g10*n*m‑1];(3)逐一提取训练集近红外光谱矩阵X(n×p)的每个样本光谱,即光谱矩阵X(n×p)的p维行向量,向量记为xc,c=1,2...n;逐一提取预测集近红外光谱矩阵X'(m×p)的每个样本光谱,即光谱矩阵X'(m×p)的p维行向量,向量记为x'd,d=1,2...m;计算每个近红外光谱xc和x'd在字典矩阵G下的稀疏表示系数αc和αd,c=1,2...n,d=1,2...m,其中αc和αd均为10*n*m维行向量;(4)使用稀疏表示系数向量αc重构训练集近红外光谱矩阵中的行向量x'c=(G*αc)T,c=1,2...n,其中,上标T为向量或矩阵转置运算;使用稀疏表示系数向量αd重构预测集近红外光谱矩阵中的行向量x″d=(G*αd)T,d=1,2...m,其中上标T为向量或矩阵转置运算;使用重构后的x'c,c=1,2...n,逐行替换训练集近红外光谱矩阵X(n×p)中的行向量,形成新的训练集近红外光谱矩阵Xnew(n×p);使用重构后的x″d,d=1,2...m逐行替换预测集近红外光谱矩阵X'(m×p)中的行向量,形成新的预测集近红外光谱矩阵X'new(m×p);(5)利用训练集近红外光谱数据,寻找实施定性判别的q个投影方向wk,wk为p维向量,k=1,2...q,该方向能对光谱类别信息数据进行有效分类;(6)将新的训练集近红外光谱矩阵Xnew(n×p)和新的预测集近红外光谱矩阵X'new(m×p)向向量wk,k=1,2,3...q,方向进行投影变换Xcal=(Xneww1,Xneww2...Xnewwq)、Xtst=(X'neww1,X'neww2...X'newwq),得到变换后的训练集近红外光谱矩阵和预测集近红外光谱矩阵,分别记作Xcal(n×q)和Xtst(m×q);(7)将变换后的训练集近红外光谱矩阵Xcal(n×q)和预测集近红外光谱矩阵Xtst(m×q)按行合并为一全体光谱矩阵Xall((n+m)×q),逐一提取全体光谱矩阵Xall((n+m)×q)的每个样本光谱,即光谱矩阵Xall((n+m)×q)的q维行向量,向量记为xii或xjj,ii,jj=1,2...n+m;计算关联矩阵W,Wii,jj表示关联矩阵中坐标位置为(ii,jj)的值,ii,jj=1,2...n+m且Wii,jj=exp(||xii‑xjj||2/0.48),其中|| ||为向量2范数;计算对角矩阵D,Dii,jj表示对角矩阵中坐标位置为(ii,jj)的值,且Dii,jj=0(ii≠jj)ii,jj=1,2...n+m;计算n+m阶图拉普拉斯方阵L,L=D‑W;(8)将预测集样本的定性分析转换成minf∈Hk1nΣii=1nmax(0,1-yf(xii))+γK||f||K2+γIfTLf]]>优化问题,其中;γK为控制空间复杂度参数,γI为控制结构复杂度参数,Hk为希尔伯特空间,xii为光谱矩阵Xall((n+m)×q)的q维行向量,ii=1,2...n+m,xii的前n个样本由训练集近红外光谱组成,y为前n个xii光谱向量对应样本的类别编号向量;f(xii)为xii的分类函数,该函数在输入后m个预测集光谱向量xii时,预测xii光谱对应样本的类别编号;(9)使用拉格朗日乘子法,计算minf∈Hk1nΣii=1nmax(0,1-yf(xii))+γK||f||K2+γIfTLf]]>优化问题的解,得到ii=1,2...n+m,其中x...

【技术特征摘要】
1. 一种具有普适性的近红外光谱定性分析方法,其特征在于:所述方法包括以下步 骤: (1) 获取训练集和预测集样本近红外光谱,将训练集近红外光谱表示为X(nXp),其 中η为训练集样本数量,p为光谱数据维度;将预测集近红外光谱表示为X'(mXp),其中m 为预测集样本数量;X(i,j)表示训练集近红外光谱矩阵中坐标位置为(i,j)的吸光度值, X'(i,j)表示预测集近红外光谱矩阵中坐标位置为(i,j)的吸光度值;构造训练集近红外 光谱的类属性矩阵Y(nXK),Y(i,j)表示类属性矩阵中坐标位置为(i,j)的类别属性,其中 K为校正集样本中类别数;Y矩阵的每一行对应一个训练集样本,若第t号训练集样本的类 别编号为Z,则Y(t,j=z) = 1,Γ〇,_/?ζ) = 0; (2) 用离散余弦函数83[13] =cos(bπa/(10*n*m))逼近近红外光谱中余弦信号特征的 吸收峰并构造字典中原子ga,每个原子ga为一P维列向量,其中b= 0, 1,. . .,p-Ι,下标a =0,1,. . .,10*n*m-l代表频率参量;在10*n*m个原子形成后,使用原子ga组成具有过完 备特性的字典矩阵G,字典矩阵G的计算式为: G(pX(10*n*m)) = [g〇,g1;g2. . .g10*n*m-i]; (3) 逐一提取训练集近红外光谱矩阵X(nXp)的每个样本光谱,即光谱矩阵X(nXp)的 P维行向量,向量记为X。,c= 1,2...η;逐一提取预测集近红外光谱矩阵X'(mXp)的每个 样本光谱,即光谱矩阵X'(mXp)的p维行向量,向量记为X'd,d= 1,2. . .m;计算每个近红 外光谱X。和X'd在字典矩阵G下的稀疏表示系数α。和ad,c= 1,2. . .n,d= 1,2. . .m,其 中α。和ad均为l〇*n*m维行向量; (4) 使用稀疏表示系数向量α。重构训练集近红外光谱矩阵中的行向量X'。= (G*a。) T,C=l,2...n,其中,上标T为向量或矩阵转置运算;使用稀疏表示系数向量Cid重构预 测集近红外光谱矩阵中的行向量Xd = (G*ad)T,d= 1,2. . .m,其中上标T为向量或矩 阵转置运算;使用重构后的X'。,c= 1,2...n,逐行替换训练集近红外光谱矩阵X(nXp)中 的行向量,形成新的训练集近红外光谱矩阵Xmw(IiXp);使用重构后的Xd,d= 1,2...m 逐行替换预测集近红外光谱矩阵X'(mXp)中的行向量,形成新的预测集近红外光谱矩阵 X'new(mXp); (5) 利用训练集近红外光谱数据,寻找实施定性判别的q个投影方向wk,wk为p维向量, k= 1,2. ..q,该方向能对光谱类别信息数据进行有效分类; (6) 将新的训练集近红外光谱矩阵Xnrat(nXp)和新的预测集近红外光谱矩阵 X'new(mXp)向向量wk,k= 1,2,3.··q,方向进行投影变换Xcal=(XnewW1,XnewW2.··XnewWtl)、Xtst =(X'MwWl,X'nw2.. .X'MwW(1),得到变换后的训练集近红外光谱矩阵和预测集近红外光谱矩 阵,分别记作(ηXq)和Xtst(mXq); (7) 将变换后的训练集近红外光谱矩阵XMl(nXq)和预测集近红外光谱矩 阵XtstOnXq)按行合并为一全体光谱矩阵Xall((n+m)Xq),逐一提取全体光谱矩阵 Xall((n+m)Xq)的每个样本光谱,即光谱矩阵Xall((n+m)Xq)的(1维行向量,向量记为^或 Xjj,ii,jj= 1,2. . .n+m;计算关联矩阵W,Wn,jj表示关联矩阵中坐标位置为(ii,jj)的值, ii,jj= 1,2.· ·n+m且WiiJj =exp(|Ixii-XjjI|2/0· 48),其中IIII为向量2 范数;计算对角 m+n 矩阵DJiijj表示对角矩阵中坐标位置为(ii,jj)的值,=Σ%』且Diijj= 0(ii关jj) ,JM, ii,jj= 1,2.. .n+m;计算n+m阶图拉普拉斯方阵L,L=D-W; (8) 将预测集样本的定性分析转换成I/!丨^丄之⑴叫0,卜分(Y〃))+A|/t+h,1/优 J k ^ ii-\ 化问题,其中;Yk为控制空间复杂度参数,Y1为控制结构复杂度参数,Hk为希尔伯特空间,Xii为光谱矩阵Xall((n+m...

【专利技术属性】
技术研发人员:周扬刘铁兵陈正伟施秧
申请(专利权)人:浙江科技学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1