用于根据电磁光谱信息表征物理样本中成分的方法和设备技术

技术编号:27695180 阅读:21 留言:0更新日期:2021-03-17 05:14
本发明专利技术涉及机器学习领域,特别是用于分析高分辨率或超分辨率光谱数据的机器学习,分析所述数据通常包括分析高度复杂的样本/物质的混合物和/或具有低分辨率的数据,例如激光诱导击穿光谱技术(LIBS)。本发明专利技术的一个目的是一种用于根据样本的电磁光谱信息表征这种样本中的一种或多种成分的计算自学习方法,所述方法通过以下方式改变与现有技术方法相关联的范例:仅使用亚光光谱信息,即获得所述光谱信息的分辨率,并由此能够从这种光谱信息提取光谱线—从而确定光谱线位置,因此避免与基于像素的方法相关联的所有不确定性。本发明专利技术的又一目的是一种被配置来实现这种方法的计算设备。

【技术实现步骤摘要】
【国外来华专利技术】用于根据电磁光谱信息表征物理样本中成分的方法和设备
本专利技术涉及机器学习领域,特别是用于分析高分辨率或超分辨率光谱数据的机器学习,分析所述数据通常包括分析高度复杂的样本/物质的混合物,例如激光诱导击穿光谱技术(LIBS)。本文公开的方法属于可解释人工智能类别。
技术介绍
等离子体发射光谱技术(特别是激光诱导击穿光谱技术(LIBS))是高分辨率且高度解析的技术。等离子体发射光谱技术的全部潜力通过解译在分子击穿电离过程期间获取的发射线的动态信息结构来提供,其中每种不同的成分具有不同的等离子体发射动态。此动态'指纹'包含关于存在于物理样本中的化学元素和/或其同位素、分子和/或其构象、状态和结构的所有信息。等离子体发射(例如LIBS)通常用于分析自然存在的或人造的复杂样本/物质的混合物。如果仪器具有无限的光学分辨率并且仅存在量子不确定性,那么化学元素和分子的识别将是简单的操作,因为每种元素的发射线都是得到良好表征,并且与认证数据库(例如NIST原子光谱线数据库)的直接匹配将足以评估物理样本。然而,从物理样本获得的光谱信息是光物理现象的复杂叠加和卷积的结果。这对任何复杂样本的光谱中的光谱信息造成多尺度干扰。等离子体发射光谱系统(例如LIBS)解析光谱信息的能力(即光学光谱分辨率)是有限的,其受在光谱系统中使用的CCD中像素的数量和布置限制。这个事实使得不可能验证光谱线不包括每种元素的假设。在更复杂的样本中,因为不同的化学元素在非常靠近的波长处呈现光谱线,使用光学光谱分辨率的方法不能够输出准确的识别或量化结果。例如,锂(Li)光谱线会被错误识别为:i)铁(FeI)(610.329nm和670.74nm);或ii)钨(W)(670.8202nm);或iii)钛(Ti):(610.35nm和670.76nm)。光学分辨率下的谱线匹配算法很可能无法识别元素。这对于等离子体发射光谱技术来说是非常显著的限制,因为许多元素具有显著数量的重叠带区,原因是它们具有增加数量的会干扰其他元素的线。现有等离子体发射光谱系统(特别是LIBS系统)已经准备好在光谱带之间的低干扰下识别和量化物理样本中的元素。这些系统通过以下方式来最小化等离子体物理效应(诸如多普勒和斯塔克展宽):降低压力或使用气调,或操纵激光能量/脉冲以使信号强度最大化并且使潜在热力学平衡下的光谱带不确定性最小化。所有元素识别和量化都在基于像素的信号中直接进行,这在所评估样本极其复杂(例如矿物或生物样本)的情况下是显著的缺点。对LIBS系统实施基于像素的方法得到的成功是有限的,因为卷积光谱带的使用不允许通过光谱线确定性地识别存在于物理样本中的成分。在此过程期间,引入了不必要的干扰和不确定性,从而将基于像素的方法约束到概率性的识别、分类和量化。EP1967846公开了一种基于匹配算法对未知化合物混合物的光谱进行分类或量化的方法。然而,EP1967846仅在分析纯化学品或纯化学品的混合物方面的表现是准确的,所述纯化学品或纯化学药品的混合物在光学分辨率内具有无干扰的连续光谱信号,从而允许与纯化学品或化学品的混合物的拉曼光谱数据库进行匹配。复杂样本(诸如生物样本)表现出如此之多的多尺度干扰,以致于光谱特征无法与组成直接相关。此外,现有方法识别、量化和预测物理样本的组成的能力仍然取决于人类专家的先前知识(Hahn和Omenetto,2010年)。因此,量化模型的开发高度依赖于为光谱线识别提供正确的环境(Cousin等人,2011年)。从这个意义上说,本领域已知两种主要的机器学习方法,具体地是化学计量和神经网络/深度学习。化学计量是提供预测潜在变量的方法的标准途径。此方法无法应用于复杂样本,仅限于具有更简单组成的样本或具有低组成可变性的接近纯的化学品(诸如药品)或样本。例如,化学计量模型(诸如偏最小二乘(PLS))不能够正确地量化包含锂的矿石中的锂含量,因为化学计量技术未正确地对正确的等离子体发射信息以及光谱线之间的干扰进行建模。支持向量机器、神经网络/深度学习方法提供输入与输出之间的确定性非线性映射。所有这些方法都不能够找到组成、光谱带及其干扰模式之间的正确的协方差。这是由于所有元素之间的叠加的且多尺度的干扰以及等离子体发射的所有物理现象。数据如此庞大且详细,以致于找到可预测组成的正确网络架构是极其低效的机器学习过程。这些是全局模型,并且随着新数据的收集,需要创建新的全局模型。此外,这些现有方法并不提供确定给定样本是否可预测的方式;并且这些现有方法在检测异常值方面存在显著的困难。缺少此特性是在关键领域(诸如其中必须进行故障安全操作的医药或危险工业应用)中的机器学习(ML)方法的主要障碍。对于等离子体诱导光谱信息处理(诸如激光诱导等离子体光谱技术(LIBS))来说,当前的机器学习对其在以下方面的全部理论潜力呈现一系列显著的限制:i)测量和识别化学元素及其同位素;ii)测量分子结构和组成;iii)遵循等离子体加强的化学反应;iv)识别、表征和量化材料、其分子构象和化学元素组成;v)通过等离子体指纹法识别和量化生物材料;vi)分析在不同的压力或温度下处于不同状态(固体、液体或气体)的同一样本;以及vii)处理在不同的压力和温度下的测量结果。此外,当前的机器学习技术(诸如SVM和ANN)通常依赖于黑箱途径。尽管取得了积极的结果,但是这些方法并未提供对结果的可解释解译以用于允许人类控制和与之交互的互操作性、解译和交互,使得要对算法的结果和内部运作两者进行调试并且要根据人类知识和推理来验证和策展预测结果。这对等离子体发射光谱技术来说是严重的限制,其中诊断发射线波长及其强度如何干扰和有助于识别、分类和量化对于正确的物理建模并准确预示新的且未知的数据以及创建在许多应用领域中都支持此水平技术的固化且得到科学验证的数据库是至关重要的。本专利技术包括一种机器学习方法和系统,其实时地并且在使用点/护理点处提供高度复杂的样本中的分析准确度度性组成预测,从而克服此类已知方法。
技术实现思路
因此,本专利技术的一个目的是一种用于根据物理样本的电磁光谱信息表征这种物理样本中的一种或多种成分的方法,每种成分由化学元素和/或其同位素、分子和/或其构象或状态中的一者或其组合组成,所述方法包括以下步骤:·获得对应于所述物理样本的电磁光谱信息、优选地包括一个或多个电磁光谱的分辨率,·在对应于所述光谱信息的所述光谱分辨率是亚光光谱分辨率的情况下,从所述电磁光谱信息提取一条或多条光谱线,·将所述光谱线投影到确定性特征空间的样本点中,这种确定性特征空间由多维向量空间组成,所述多维向量空间包括具有预先确定的向量基的多条光谱线,这种具有预先确定的向量基的多条光谱线:ο存储在数据库中并且已经通过亚光光谱分辨率提取获得,并且ο对应于多种已知成分,其中所述多维向量空间的每个维度都是所述电磁光谱信息所对应于的所述物理样本中的所述一种或多种成分的预测特征,这种预测特征提供对所述物理样本中的一种或多种成分的量的确定、分类和/或本文档来自技高网
...

【技术保护点】
1.一种用于根据物理样本的电磁光谱信息表征这种物理样本中的一种或多种成分的方法,每种成分由化学元素和/或其同位素、分子和/或其构象或状态中的一者或其组合组成,所述方法包括以下步骤:/n●获得对应于所述物理样本的电磁光谱信息、优选地包括一个或多个电磁光谱的分辨率,/n●在对应于所述光谱信息的所述光谱分辨率是亚光光谱分辨率的情况下,从所述电磁光谱信息提取一条或多条光谱线,/n●将所述光谱线投影到确定性特征空间的样本点中,这种确定性特征空间由多维向量空间组成,所述多维向量空间包括具有预先确定的向量基的多条光谱线,这种具有预先确定的向量基的多条光谱线:/n○存储在数据库中并且已经通过亚光光谱分辨率提取获得,并且/n○对应于多种已知成分,/n其中所述多维向量空间的每个维度都是所述电磁光谱信息所对应于的所述物理样本中的所述一种或多种成分的预测特征,这种预测特征提供对所述物理样本中的一种或多种成分的量的确定、分类和/或识别。/n

【技术特征摘要】
【国外来华专利技术】20180803 EP 18187384.5;20180731 PT 1108941.一种用于根据物理样本的电磁光谱信息表征这种物理样本中的一种或多种成分的方法,每种成分由化学元素和/或其同位素、分子和/或其构象或状态中的一者或其组合组成,所述方法包括以下步骤:
●获得对应于所述物理样本的电磁光谱信息、优选地包括一个或多个电磁光谱的分辨率,
●在对应于所述光谱信息的所述光谱分辨率是亚光光谱分辨率的情况下,从所述电磁光谱信息提取一条或多条光谱线,
●将所述光谱线投影到确定性特征空间的样本点中,这种确定性特征空间由多维向量空间组成,所述多维向量空间包括具有预先确定的向量基的多条光谱线,这种具有预先确定的向量基的多条光谱线:
○存储在数据库中并且已经通过亚光光谱分辨率提取获得,并且
○对应于多种已知成分,
其中所述多维向量空间的每个维度都是所述电磁光谱信息所对应于的所述物理样本中的所述一种或多种成分的预测特征,这种预测特征提供对所述物理样本中的一种或多种成分的量的确定、分类和/或识别。


2.根据前一权利要求所述的方法,其中所述方法还包括以下步骤:
●在所述确定性特征空间内选择对应于已知成分量的最少量的相邻样本点,使得所投影样本点使与所述对应的最少量的相邻点的协方差最大化,
●根据所述最小量的相邻点选择专有光谱线、干扰光谱线和独特光谱线,从而得到所述相邻样本点内的局部特征空间,以及
●通过考虑将要量化的所述物理样本的投影到所选择相邻样本点的协方差特征空间中的光谱线来关联来自所述局部特征空间的所述已知成分,来预测来自将要量化的所述物理样本的所述成分的量化。


3.根据前述权利要求中任一项所述的方法,其中所述方法还包括以下步骤:
●通过确定所投影样本点是否在所述确定性特征空间的预先确定的区域内,在所述确定性特征空间内选择最少量的相邻样本点,使得此类相邻样本点属于特定类别,这种区域由非线性逻辑边界界定,以及
●针对定界在所述区域内部的所述最少量的相邻样本点,选择专有光谱线、干扰光谱线和独特光谱线以得到局部特征空间,从而在所述相邻样本点和所述样本点内提供匹配。


4.根据前一权利要求所述的方法,其中所提及的非线性逻辑边界是根据以下方式得到的:
●使用成分的能从所述数据库获得的所有现有光谱线作为变量来将所述确定性特征空间声明为矩阵;
●对所述先前矩阵执行分解,这种分解使得其提供搜索并且使所述成分的协方差最大化,从而确定产生所述确定性特征空间的多维向量空间,优选地以下中的一者:奇异值分解、傅里叶、小波或曲波变换;
●将光谱信息投影到所述多维向量基、即所述确定性特征空间的样本点中;
●在所述确定性特征空间中限定多个搜索方向;
●限定包含在所述特征空间内的多个定向搜索体积,每个定向搜索体积被限定为所述特征空间的包括所述所投影样本点的区域,所述区域沿着搜索方向延伸搜索长度,其中所述搜索方向由逻辑函数限定;
●使用对应于所选择方向的所选择定向搜索体积内的所投影样本点作为所选择的最小量的相邻样本点来选择对应预测模型具有对将要分类的成分的分类或识别的最大可预测性的所述搜索方向;
●确定与所述预测模型的距离并且限定维持所述非线性逻辑边界的支持辨别样本;
●确定极端支持辨别样本,并使用对应于所选择方向的所选择定向搜索体积内的所投影样本点作为所选择的最小量的相邻样本点来选择对应预测模型具有对将要分类的成分的分类或识别的最大可预测性的所述搜索方向;
●递归地执行所述先前操作,直到针对特定类别确定全部所述非线性逻辑边界为止。


5.根据权利要求3至4中任一项所述的方法,其中在所述光谱分辨率是亚光光谱分辨率并且所述样本点在所述非线性逻辑边界内部的情况下,进一步根据以下方式获得所述样本中的成分的量化:
●在特定分类的条件下,通过确定专有光谱线、干扰光谱线和独特光谱线来获得相关线;
●使用由所述确定性特征空间给出的所述特定分类的所述专有光谱线、所述干扰光谱线和所述独特光谱线组编成局部特征空间,所述局部特征空间由所述确定性特征空间的子空间组成;
●验证所述样本点是否具有预先确定的相关光谱带,即所述专有光谱线、所述干扰光谱线和所述独特光谱线;
●如果所述样本点具有所述专有光谱线、所述干扰光谱线和所述独特光谱线,则使用所述相邻样本点作为对使用非贡献等离子体效应的正交过滤进行量化的局部多变量模型的支持,从而使协方差本征向量最小化,直到获得所述子空间的一组相关的相邻样本点和光谱线为止;
●使用所述预先确定的局部多变量建模来执行所述物理样本的成分的量化。


6.根据权利要求3至4中任一项所述的方法,其中在所述光谱分辨率是亚光光谱分辨率并且所述样本点在所述非线性逻辑边界内部的情况下,进一步根据以下方式获得所述物理样本中的成分的量化:
●在特定分类的条件下,通过确定专有光谱线、干扰光谱线和独特光谱线来获得相关线;
●使用由所述确定性特征空间给出的所述特定分类的所提及的专有光谱线、干扰光谱线和独特光谱线组编...

【专利技术属性】
技术研发人员:R·M·达科斯塔马丁斯P·A·达席尔瓦豪尔赫E·A·佩雷拉席尔瓦J·M·阿尔梅达苏亚雷斯A·M·德奥利维拉马丁斯
申请(专利权)人:伊耐斯克泰克计算机科学与技术系统工程研究所
类型:发明
国别省市:葡萄牙;PT

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1