一种基于稀疏性假设分解与解析混合质谱的方法技术

技术编号:20516055 阅读:26 留言:0更新日期:2019-03-06 02:02
本发明专利技术公开了一种基于稀疏性假设分解与解析混合质谱的方法,该方法是在假设混合质谱中包含少数种类纯质谱,并给定若干参考质谱的前提下,先在不同稀疏性条件下对待测混合谱进行稀疏分解,得到若干分解结果,再根据稀疏性条件对各个分解结果进行分类,并依据分类结果生成若干种稀疏性配置,以各个稀疏性配置作为定性或解析结果。该方法不仅可以有效地避免传统非负最小二乘分解算法的过拟合问题,且提供多种稀疏性配置,充分挖掘数据中隐含的信息,有利于相关科研技术人员洞察定性分析结果。

A Method of Decomposition and Resolution of Mixed Mass Spectrometry Based on Sparsity Hypothesis

The invention discloses a method for decomposition and analysis of mixed mass spectrometry based on the sparsity hypothesis. The method assumes that the mixed mass spectrometry contains a few pure mass spectrometries and gives several reference mass spectrometries. First, the measured mixed spectrum is sparsely decomposed under different sparsity conditions, and several decomposition results are obtained. Then, the decomposition results are classified according to the sparsity conditions. Several sparse configurations are generated according to the classification results, and each sparse configuration is taken as qualitative or analytical results. This method can not only effectively avoid the over-fitting problem of the traditional non-negative least squares decomposition algorithm, but also provide a variety of sparse configurations, fully mine the hidden information in the data, which is conducive to the relevant scientific and technical personnel to insight into the qualitative analysis results.

【技术实现步骤摘要】
一种基于稀疏性假设分解与解析混合质谱的方法
本专利技术涉及一种气相色谱-质谱联用技术,特别涉及一种色谱共流出峰解析及混合质谱解析技术,属于检测分析

技术介绍
气相色谱-质谱(GC-MS)联用技术是复杂样品定性定量分析中应用最广泛的技术之一,随着美国国家标准局推出的NIST质谱库容量的不断增大,GC-MS已经成为复杂样品的挥发性和半挥发性小分子有机化合物的首选分析技术。然而,实际的色谱指纹图谱往往难以将色谱峰完全分离开来,色谱共流出峰非常普遍,主要是受限于气相色谱硬件本身分离能力的限制,其次是实验条件的限制。当前技术,如渐进因子分析法,固定尺寸移动窗口因子分析法,局部正交投影方法等(参见《复杂体系仪器分析--白、灰、黑分析体系及其多变量解析方法》,梁逸曾、许青松等著)对部分色谱共流出峰有一定的分离效果,但对色谱峰形有较强依赖,且对完全重叠峰尚无一般性的分离方案,无法满足某些特殊领域的应用需求。基于标准质谱数据库对色谱图中任意保留时间点的混合质谱进行分析是解析色谱共流出峰的一个重要思路。基于混合质谱进行GC-MS数据解析的一个重要环节是将混合质谱关于若干已知纯质谱进行分解。基于传统的非负最小二乘分解方法容易导致过拟合现象,亦即,为了拟合出最优解,许多实际上并非混合质谱组分的纯质谱也将参与拟合,导致分解系数的平均化,主要成分不突出或被淹没,给最终定性决策带来较强的干扰。另一方面,非负最小二乘等方法一般只能给出一种分解结果,有时单一配置并不能全面地抓取或体现数据背后的本质,且一旦结果失效,无法对可能的其他结果进行关联性推荐,降低了系统的灵活性。专利技术内容针对现有的非负最小二乘分解法对混合质谱分解与解析方法存在的缺陷,本专利技术的目的是在于提供一种基于稀疏性假设分解与解析混合质谱的方法,该方法可以改善传统分解与解析方法容易导致过拟合现象的缺陷,并提供更灵活的计算结果配置。为了实现上述目的,本专利技术提供了一种基于稀疏性假设分解与解析混合质谱的方法,该方法是在假设混合质谱中包含少数种类纯质谱,并给定若干参考质谱的前提下,先在不同稀疏性条件下对待测混合谱进行稀疏分解,得到若干分解结果,再根据稀疏性条件对各个分解结果进行分类,并依据分类结果生成若干种稀疏性配置,以各个稀疏性配置作为定性或解析结果。优选的方案,所述参考质谱根据以下方法筛除得到:混合质谱先采用最右端质量数符合准则和基峰符合准则进行粗选,剔除不合格纯质谱,再通过加权出峰比率准则、强峰高概率出峰准则和耐挤压性准则进行细选,剔除不合格纯质谱,得到候选质谱列表。较优选的方案,所述最右端质量数准则为:若在质谱数据库中任意物质的纯质谱中的最右端峰或最右端峰簇中丰度最大峰所对应的质量数在混合质谱中出峰,则相应质谱保留在候选质谱列表中,否则剔除;较优选的方案,所述基峰准则为:若在质谱数据库中任意物质的纯质谱中的基峰所对应的质量数在混合质谱中出峰,则相应质谱保留在候选质谱列表中,否则剔除。较优选的方案,所述粗选过程中先用最右端质量数准则剔除不合格纯质谱,再用基峰准则剔除不合格纯质谱。进一步优选的方案,所述最右端质量数准则在运用过程中预先建立最右端质量数索引结构;所述最右端质量数索引结构用于查询纯质谱最右端质量数,判断所述纯质谱最右端质量数与混合质谱中某一峰对应的质量数是否一致,如果一致则相应的纯质谱列入候选质谱列表中,否则剔除。进一步优选的方案,所述基峰准则在运行过程中预先建立基峰索引结构;所述基峰索引结构用于查询纯质谱基峰,判断所述纯质谱基峰在混合质谱中是否出峰,且混合质谱中相应峰相对丰度大于阈值T,则所述纯质谱列入候选质谱中,否则剔除;所述阈值T为20%~30%。较优选的方案,所述加权出峰比率准则为:确定质谱数据库中任意物质的纯质谱碎片在混合质谱中的所有出峰,依据所述出峰在所述物质的纯质谱图中的丰度求和得S1,对所述物质的纯质谱图中的所有碎片出峰的丰度求和得S2,若S1/S2大于或等于阈值,则所述纯质谱列入候选质谱中,否则剔除;所述阈值为0.99±0.005。较优选的方案,所述强峰高概率出峰准则为:在质谱数据库中任意物质的纯质谱中的相对丰度不小于10%的碎片峰定义为强峰,若所述强峰在混合质谱中的相对丰度与纯质谱图中所述碎片峰的相对丰度之比大于阈值T,则所述纯质谱列入候选质谱中,否则剔除;所述阈值T为20%~30%。较优选的方案,所述耐挤压性准则为:若混合质谱中每个相对丰度大于5%的碎片峰,在其相应纯质谱中的相对强度与其在混合质谱中相对强度的比值的最大值小于阈值1/T,则所述纯质谱列入候选质谱列表中,否则剔除;所述阈值T为20%~30%。优选的方案,所述稀疏分解通过求解约束或无约束的非负稀疏分解模型进行实现。优选的方案,所述非负稀疏分解模型的关于最优分解结果C*的数学形式为:或或以上两种形式的其他等价形式;其中,A为各纯质谱向量堆叠而成的矩阵,λ为稀疏性控制参数,m为混合质谱向量,||·||1为向量的L1范数,即向量各分量的绝对值之和;||·||2为向量的L2范数,即向量各分量的平方和的平方根。优选的方案,根据稀疏性条件对各个分解结果进行分类的过程为:利用各组稀疏分解结果,构造关于稀疏性控制参数λ的分段常数函数d(λ),并根据d(λ)确定分类结果。较优选的方案,对关于每个稀疏性控制参数λ的分解结果,忽略其微小权重后,重新计算其平均L1范数值,再将平均L1范数值作为λ对应的函数值。本专利技术中λ为在一定范围内变化的实数。本专利技术参考质谱由以下方法得到:1.粗筛:基于混合质谱中的质谱碎片规律,对质谱数据库中的质谱进行初步筛除,排除不可能存在于混合质谱中的纯质谱;主要包含如下两步:1)质谱最右端质量数准则:给定质谱数据库(NIST质谱数据库或其他质谱数据库)中任一纯质谱,考察其质谱图中最右端峰所对应的质量数,若待测混合质谱在该质量数处出峰,则初步认为所考察纯质谱可能是待测混合质谱中的某一组分,将其加入初筛列表A;为加速搜索,可以预先基于最右端质量数对质谱数据库建立索引结构,索引结构用于更快速查询纯质谱最右端质量数,判断所述纯质谱最右端质量数与混合质谱中某一峰对应的质量数是否一致;2)基峰准则:考察列表A中所有纯质谱中相对丰度最大的峰所对应的质量数,若待测混合质谱在对应质量数处出峰且其相对丰度大于某一阈值T(例如T=30%),则将该纯质谱保留,将不满足该条件的质谱从列表A中删除;为加速对基峰的搜索,可以预先建立关于基峰的索引结构,对每张纯质谱,标明并存储其基峰位置,由此,对基峰的线性搜索被改进为直接查询;2.细筛:基于初筛后得到的质谱列表A,进行进一步精细筛除,该筛除步骤涉及到质谱出峰强度和一些概率准则,主要分为如下三个小步骤:1)加权出峰比率准则:进一步考察列表A中的质谱,计算其加权出峰比率,若该比率大于某一阈值K(例如K=0.99),则将所考察质谱保留在列表A中,不满足该条件则将其删除;此处所考察质谱的加权出峰比率为该质谱在待测混合质谱中出峰的所有质量数处的相对丰度总和与全部出峰的相对丰度总和之比;2)强峰高概率出峰准则,亦即在纯质谱中相对丰度较大的峰在待测混合质谱中也应出峰,且其相对丰度不宜太小;一种实现方法为,对列表A中的每一张质谱,若存在某个质量数处的相对丰度本文档来自技高网...

【技术保护点】
1.一种基于稀疏性假设分解与解析混合质谱的方法,其特征在于:在假设混合质谱中包含少数种类纯质谱,并给定若干参考质谱的前提下,先在不同稀疏性条件下对待测混合谱进行稀疏分解,得到若干分解结果,再根据稀疏性条件对各个分解结果进行分类,并依据分类结果生成若干种稀疏性配置,以各个稀疏性配置作为定性或解析结果。

【技术特征摘要】
1.一种基于稀疏性假设分解与解析混合质谱的方法,其特征在于:在假设混合质谱中包含少数种类纯质谱,并给定若干参考质谱的前提下,先在不同稀疏性条件下对待测混合谱进行稀疏分解,得到若干分解结果,再根据稀疏性条件对各个分解结果进行分类,并依据分类结果生成若干种稀疏性配置,以各个稀疏性配置作为定性或解析结果。2.根据权利要求1所述的基于稀疏性假设分解与解析混合质谱的方法,其特征在于:所述参考质谱根据以下方法筛除得到:混合质谱先采用最右端质量数符合准则和基峰符合准则进行粗选,剔除不合格纯质谱,再通过加权出峰比率准则、强峰高概率出峰准则和耐挤压性准则进行细选,剔除不合格纯质谱,得到候选质谱列表。3.根据权利要求2所述的基于稀疏性假设分解与解析混合质谱的方法,其特征在于:所述最右端质量数准则为:若在质谱数据库中任意物质的纯质谱中的最右端峰或最右端峰簇中丰度最大峰所对应的质量数在混合质谱中出峰,则相应质谱保留在候选质谱列表中,否则剔除。4.根据权利要求2所述的基于稀疏性假设分解与解析混合质谱的方法,其特征在于:所述基峰准则为:若在质谱数据库中任意物质的纯质谱中的基峰所对应的质量数在混合质谱中出峰,则相应质谱保留在候选质谱列表中,否则剔除。5.根据权利要求2所述的基于稀疏性假设分解与解析混合质谱的方法,其特征在于:所述粗选过程中先用最右端质量数准则剔除不合格纯质谱,再用基峰准则剔除不合格纯质谱。6.根据权利要求5所述的基于稀疏性假设分解与解析混合质谱的方法,其特征在于:所述最右端质量数准则在运用过程中预先建立最右端质量数索引结构;所述最右端质量数索引结构用于查询纯质谱最右端质量数,判断所述纯质谱最右端质量数与混合质谱中某一峰对应的质量数是否一致,如果一致则相应的纯质谱列入候选质谱列表中,否则剔除。7.根据权利要求5所述的基于稀疏性假设分解与解析混合质谱的方法,其特征在于:所述基峰准则在运行过程中预先建立基峰索引结构;所述基峰索引结构用于查询纯质谱基峰,判断所述纯质谱基峰在混合质谱中是否出峰,且混合质谱中相应峰相对丰度大于阈值T,则所述纯质谱列入候选质谱中,否则剔除;所述阈值T为20%~30%。8.根据权利要求3所述的基于稀疏性假设分解与解析...

【专利技术属性】
技术研发人员:伍毅子杨华武魏维伟孔波李燕春庹苏行钟科军陈增萍尹双凤
申请(专利权)人:湖南中烟工业有限责任公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1