一种光谱数据分析方法及装置制造方法及图纸

技术编号:19961156 阅读:43 留言:0更新日期:2019-01-03 11:17
本发明专利技术实施例公开了一种光谱数据分析方法及装置,方法包括:建立样本数据库,筛选待测样本的邻近光谱组,通过主成分累计贡献率对邻近光谱组进行降维,根据马氏距离之比确定目标邻近光谱组,选择相关相对预测误差最小的目标邻近光谱组为训练集样本对待测样本进行预测,确定样本数据库的代表性是否充足,不充足则将待测样本添加至样本数据库。通过使用分子光谱技术建立样本数据库,自动根据待测样本的光谱特征从样本数据库中选出最优的目标邻近光谱组,进一步预测待测样本的理化数据和确定样本数据库的代表性,实现了光谱数据分析流程和数据库更新的自动化,提高了预测准确度,免除了人工建立及维护模型的复杂工作,便于推广和应用分子光谱技术。

A Spectral Data Analysis Method and Device

The embodiment of the present invention discloses a spectral data analysis method and device. The method includes: establishing a sample database, screening the adjacent spectral group of the sample to be measured, reducing the dimension of the adjacent spectral group by the cumulative contribution rate of the principal component, determining the target adjacent spectral group according to the ratio of Mahalanobis distance, and selecting the target adjacent spectral group with the smallest relative prediction error as the training set sample. The sample is forecasted to determine whether the representative of the sample database is sufficient or not, and if not, the sample to be tested is added to the sample database. By using molecular spectroscopy technology to establish sample database, the optimal target adjacent Spectral Group is automatically selected from the sample database according to the spectral characteristics of the sample to be measured. The physical and chemical data of the sample to be measured are further predicted and the representativeness of the sample database is determined. The automation of spectral data analysis process and database updating is realized, the prediction accuracy is improved, and the manual establishment is avoided. The complex work of maintaining the model facilitates the popularization and application of molecular spectroscopy technology.

【技术实现步骤摘要】
一种光谱数据分析方法及装置
本专利技术实施例涉及数据分析
,具体涉及一种光谱数据分析方法及装置。
技术介绍
分子光谱分析技术是利用物质分子和电磁波发生作用,从而对物质进行定性或定量分析的技术。分子光谱分析技术具有方便、快速、高效、准确、环境友好以及成本较低等优点,已被广泛应用于农业、石化产业、临床诊断、环境检测等领域。该技术的应用也面临着一些严峻的挑战。由于分子光谱技术的检测结果是基于大量数据建立的多元校正模型进行预测,只有待测样本的特征或含量范围处于模型数据适用范围内才能保证预测的准确性。随着时间、地点、原料、环境等要素的变化,超出模型适用范围的样本会不断增多,需要持续不断地对原模型进行扩充更新,但光谱数据分析的工作需要相当专业的知识背景和经验,多数使用者都难以达到该条件,这成为推广应用分子光谱技术的主要瓶颈。
技术实现思路
由于现有方法存在上述问题,本专利技术实施例提出一种光谱数据分析方法及装置。第一方面,本专利技术实施例提出一种光谱数据分析方法,包括:根据各样本的分子光谱和理化参考值建立样本数据库,根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组,并分别根据各邻近光谱组建立对应的矩阵;对各矩阵进行主成分分析,计算得到各矩阵每个主成分对应的得分以及贡献率,并根据累计贡献率阈值对各矩阵进行筛选,得到若干个目标矩阵;计算所述待测样本的光谱与所述若干个目标矩阵对应的邻近光谱组之间的马氏距离,根据各马氏距离计算得到拟合评价参数RRPE(RelatedRelativePredictionError,相关相对预测误差);选择RRPE最小的目标邻近光谱组,根据所述目标邻近光谱组预测所述待测样本的理化数据,并根据所述目标邻近光谱组的RRPE确定所述样本数据库对所述待测样本的代表性是否充足;若判断获知所述样本数据库的代表性不充足,则将所述待测样本添加至所述样本数据库,完成数据库的自动更新。可选地,所述根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组,并分别根据各邻近光谱组建立对应的矩阵,具体包括:根据K最近邻分类算法KNN计算出所述样本数据库的样本中与所述待测样本的光谱距离最近的i个光谱,组成邻近光谱组NSSi,计算出所述样本数据库的样本中与所述待测样本的光谱距离最近的(i+1)个光谱,组成邻近光谱组NSSi+1,以此类推,计算出所述样本数据库的样本中与所述待测样本的光谱距离最近的(i+n)个光谱,组成邻近光谱组NSSi+n,并根据NSSi、NSSi+1、……、NSSi+n分别建立对应的矩阵;其中,i为大于等于10的整数,n为正整数。可选地,所述根据马氏距离计算得到拟合评价参数相关相对预测误差RRPE,具体包括:分别计算各邻近光谱组的马氏距离之比MDri:MDri=Max(Di,D10)/Min(Di,D10)其中,D10表示所述待测样本的光谱到NSS10的距离;筛选得到小于设定阈值的目标MDri,并对各目标MDri对应的邻近光谱组和所述待测样本进行拟合,得到拟合评价参数相关相对预测误差RRPE。可选地,所述选择RRPE最小的目标邻近光谱组,根据所述目标邻近光谱组预测所述待测样本的理化数据,并根据所述目标邻近光谱组的RRPE确定所述样本数据库对所述待测样本的代表性是否充足,具体包括:选择RRPE最小的目标邻近光谱组为自变量,所述待测样本光谱为因变量进行回归拟合得到回归系数,并根据所述回归系数预测所述待测样本的理化数据;若所述目标邻近光谱组的RRPE大于或等于预设的右阈值,则确定所述样本数据库的代表性不足,待测样本的预测结果需要验证,且提示当前样本数据库需要更新;若所述目标邻近光谱组的RRPE小于所述右阈值且大于预设的左阈值,则确定所述样本数据库的代表性正常,可满足待测样本的预测需求;若所述目标邻近光谱组的RRPE小于或等于所述左阈值,则确定所述样本数据库的代表性充足,样本数据库无需更新。可选地,所述分子光谱包括:紫外光谱、可见光谱、近红外光谱、中红外光谱或太赫兹光谱,所述分子光谱的光谱范围为10nm-3mm。可选地,所述各矩阵主成分的累计贡献率阈值的范围为0.9-0.95和0.95-0.99。可选地,所述回归拟合的算法包括:多元线性回归算法、主成分回归算法、偏最小二乘回归算法、人工神经网络算法和支持向量机回归算法的任意组合。第二方面,本专利技术实施例还提出一种光谱数据分析装置,包括:矩阵建立模块,用于根据各样本的分子光谱和理化参考值建立样本数据库,根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组,并分别根据各邻近光谱组建立对应的矩阵;主成分分析模块,用于对各矩阵进行主成分分析,计算得到各矩阵每个主成分对应的得分以及贡献率,并根据累计贡献率阈值对各矩阵进行筛选,得到若干个目标矩阵;距离计算模块,用于计算所述待测样本的光谱与所述若干个目标矩阵对应的邻近光谱组之间的马氏距离,根据各马氏距离计算得到拟合评价参数相关相对预测误差RRPE;样本判断模块,用于选择RRPE最小的目标邻近光谱组,根据所述目标邻近光谱组预测所述待测样本的理化数据,并根据所述目标邻近光谱组的RRPE确定所述样本数据库对所述待测样本的代表性是否充足;数据库更新模块,用于若判断获知所述样本数据库的代表性不充足,则将所述待测样本添加至所述样本数据库,完成数据库的自动更新。第三方面,本专利技术实施例还提出一种电子设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述方法。第四方面,本专利技术实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述方法。由上述技术方案可知,本专利技术实施例通过使用分子光谱技术建立样本数据库,并自动根据待测样本的光谱特征从样本数据库中选出最优的目标邻近光谱组,根据目标邻近光谱组的相关相对预测误差(RRPE)预测待测样本的理化数据,并确定所述样本数据库的代表性,当代表性不充足时将待测样本添加至样本数据库,实现了光谱数据分析流程和数据库更新的自动化,提高了预测准确度,免除了人工建立及维护模型的复杂工作,便于推广和应用分子光谱技术。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。图1为本专利技术一实施例提供的一种光谱数据分析方法的流程示意图;图2为本专利技术另一实施例提供的一种光谱数据分析方法的流程示意图;图3为本专利技术一实施例提供的一种邻近光谱组的构建流程示意图;图4为本专利技术一实施例提供的传统方法、KNN方法和本专利技术方法三种方法的流程对比图;图5为本专利技术一实施例提供的一种光谱数据分析装置的结构示意图;图6为本专利技术一实施例提供的电子设备的逻辑框图。具体实施方式下面结合附图,对本专利技术的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。图1示出了本实施例提供的一种光谱数据分析本文档来自技高网...

【技术保护点】
1.一种光谱数据分析方法,其特征在于,包括:根据各样本的分子光谱和理化参考值建立样本数据库,根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组,并分别根据各邻近光谱组建立对应的矩阵;对各矩阵进行主成分分析,计算得到各矩阵每个主成分对应的得分以及贡献率,并根据累计贡献率阈值对各矩阵进行筛选,得到若干个目标矩阵;计算所述待测样本的光谱与所述若干个目标矩阵对应的邻近光谱组之间的马氏距离,根据马氏距离计算得到拟合评价参数相关相对预测误差RRPE;选择RRPE最小的目标邻近光谱组,根据所述目标邻近光谱组预测所述待测样本的理化数据,并根据所述目标邻近光谱组的RRPE确定所述样本数据库对所述待测样本的代表性是否充足;若判断获知所述样本数据库的代表性不充足,则将所述待测样本添加至所述样本数据库,完成数据库的自动更新。

【技术特征摘要】
1.一种光谱数据分析方法,其特征在于,包括:根据各样本的分子光谱和理化参考值建立样本数据库,根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组,并分别根据各邻近光谱组建立对应的矩阵;对各矩阵进行主成分分析,计算得到各矩阵每个主成分对应的得分以及贡献率,并根据累计贡献率阈值对各矩阵进行筛选,得到若干个目标矩阵;计算所述待测样本的光谱与所述若干个目标矩阵对应的邻近光谱组之间的马氏距离,根据马氏距离计算得到拟合评价参数相关相对预测误差RRPE;选择RRPE最小的目标邻近光谱组,根据所述目标邻近光谱组预测所述待测样本的理化数据,并根据所述目标邻近光谱组的RRPE确定所述样本数据库对所述待测样本的代表性是否充足;若判断获知所述样本数据库的代表性不充足,则将所述待测样本添加至所述样本数据库,完成数据库的自动更新。2.根据权利要求1所述的方法,其特征在于,所述根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组,并分别根据各邻近光谱组建立对应的矩阵,具体包括:根据K最近邻分类算法KNN计算出所述样本数据库的样本中与所述待测样本的光谱距离最近的i个光谱,组成邻近光谱组NSSi,计算出所述样本数据库的样本中与所述待测样本的光谱距离最近的(i+1)个光谱,组成邻近光谱组NSSi+1,以此类推,计算出所述样本数据库的样本中与所述待测样本的光谱距离最近的(i+n)个光谱,组成邻近光谱组NSSi+n,并根据NSSi、NSSi+1、……、NSSi+n分别建立对应的矩阵;其中,i为大于等于10的整数,n为正整数。3.根据权利要求1所述的方法,其特征在于,所述根据马氏距离计算得到拟合评价参数相关相对预测误差RRPE,具体包括:分别计算各邻近光谱组的马氏距离之比MDri:MDri=Max(Di,D10)/Min(Di,D10)其中,D10表示所述待测样本的光谱到NSS10的距离;筛选得到小于设定阈值的目标MDri,并对各目标MDri对应的邻近光谱组和所述待测样本进行拟合,得到拟合评价参数相关相对预测误差RRPE。4.根据权利要求1所述的方法,其特征在于,所述选择RRPE最小的目标邻近光谱组,根据所述目标邻近光谱组预测所述待测样本的理化数据,并根据所述目标邻近光谱组的RRPE确定所述样本数据库对所述待测样本的代表性是否充足,具体包括:选择RRPE最小的目标邻近光谱组为自变量,所述待测样本光谱为因变量进行回归拟合得到回归系数,并根据所述...

【专利技术属性】
技术研发人员:朱业伟曹江娜曾智朋王征王帅
申请(专利权)人:北京格致同德科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1