当前位置: 首页 > 专利查询>西北大学专利>正文

一种特征交叉融合的时间序列峰簇精确定位方法技术

技术编号:28711431 阅读:23 留言:0更新日期:2021-06-06 00:17
本发明专利技术公开了一种特征交叉融合的时间序列峰簇精确定位方法,该方法按照以下步骤进行,对糖肽质谱数据集进行鉴定,得到鉴定结果数据集;建立原始质谱数据间的基于随机扰动的时间加权全局粗校准模型,用重复鉴定离子数据集r

【技术实现步骤摘要】
一种特征交叉融合的时间序列峰簇精确定位方法


[0001]本专利技术属于生物信息/信号处理领域,涉及质谱学中的峰簇精确定位,具体涉及一种特征交叉融合的时间序列峰簇精确定位方法。

技术介绍

[0002]在质谱数据的分析研究中,通常有气相色谱,液相色谱LC等。这些仪器和方法都能够进行生物质谱分析生成丰富的光谱信息。因此,高质量数据的获取是实际应用的关键,但这一步往往受仪器条件和人工操作变化的影响。为了更好应用数据,必须对数据中由于仪器漂移、温度、压力波动,注入延迟,分离株老化等因素引起的峰簇漂移等问题进行处理。因此在质谱数据的后续分析研究中,首先要解决的问题是针对峰簇漂移的定位算法研究。
[0003]针对这个问题,科学界进行了数十年的研究与探讨,针对二维洗脱时间峰簇对准后定位,提出了众多计算方法,例如,动态时间规划算法、相关优化扭曲算法、参数时间扭曲方法、使用减少组映射的峰对齐方法、波束搜索的自动峰值对准方法、模糊扭曲方法、实用简便的峰值对准方法、多尺度峰对齐方法和自动时移算法等,这些算法在解决二维洗脱时间峰簇对准上确实有一定的效果。然而,这些方法都只能够实现峰簇对准后定位,但在具体定位过程都没有考虑峰簇的全部特征,导致最终峰簇定位不够精准。
[0004]此外,在离子峰簇的精确定位中,离子峰簇正确定位过程,不仅与色谱图中的洗脱时间相关,与离子本身的特征如电荷,质量,同位素峰型等亦息息相关,而且,在根据实际质谱计算离子信息的过程中发现,离子峰簇还会存在混叠现象。

技术实现思路

[0005]针对现有技术存在的不足,本专利技术的目的在于,提供一种特征交叉融合的时间序列峰簇精确定位方法,解决现有技术中峰簇的定位不够精准的技术问题。
[0006]为了解决上述技术问题,本专利技术采用如下技术方案予以实现:
[0007]一种特征交叉融合的时间序列峰簇精确定位方法,该方法按照以下步骤进行:
[0008]步骤一,对糖肽质谱数据集进行鉴定,得到鉴定结果数据集;
[0009]所述的糖肽质谱数据集为多个原始质谱文件;
[0010]所述的鉴定结果数据集包括重复鉴定离子数据集r

Set和未匹配离子数据集;
[0011]所述的重复鉴定离子数据集r

Set包括糖肽质量、电荷、二级谱图编号、糖结构编号和肽链组成;所述的未匹配离子数据集包括糖肽质量,电荷,二级质谱图编号,糖肽结构编号和肽链组成;
[0012]步骤二,建立原始质谱数据间的基于随机扰动的时间加权全局粗校准模型,用重复鉴定离子数据集r

Set进行模型参数训练,得到基于随机扰动的时间加权粗校准模型;使用基于随机扰动的时间加权粗校准模型对未匹配离子数据集完成粗校准,得到粗校准结果;
[0013]所述的原始质谱数据间基于随机扰动的时间加权全局粗校准模型如公式2

1所
示:
[0014]T
target
=Slope*T
template
+offset
ꢀꢀ
公式2
‑1[0015]其中:
[0016]T
template
表示作为模板的原始质谱文件的洗脱时间;
[0017]T
target
表示作为目标的原始质谱文件的洗脱时间;
[0018]Slope表示原始质谱文件间的洗脱时间平均变化率;
[0019]offset表示原始质谱文件间的洗脱时间偏移;
[0020]所述的粗校准结果包括未匹配离子的质荷比估计值和未匹配离子的洗脱时间估计值;
[0021]步骤三,根据粗校准结果得到最佳匹配峰簇CPeak

b,采用峰特征交叉融合公式3

3计算模板峰簇和候选峰簇的相关值S,比较相关值S与临界值S
cv
的大小,判定最佳匹配峰簇CPeak

b是否为精确定位结果;
[0022]所述的峰特征交叉融合公式3

3为:
[0023][0024]f(s

,z1⊙
z2,MA1⊙
MA2)=s

+(z1⊙
z2)+(MA1⊙
MA2)
ꢀꢀ
公式3
‑4[0025]其中:
[0026]z1表示模板峰簇对应糖肽离子的电荷;
[0027]z2表示候选峰簇对应糖肽离子的电荷;
[0028]MA1表示模板峰簇对应糖肽离子的质量;
[0029]MA2表示候选峰簇对应糖肽离子的质量;
[0030]s

为模板峰簇的同位素峰簇和候选峰簇的同位素峰簇间的皮尔逊相关系数;
[0031]所述的判定最佳匹配峰簇CPeak

b是否为精确定位结果具体过程为:当相关值S小于S
cv
时,则最佳匹配峰簇CPeak

b的正确性为峰簇匹配不正确,重复步骤3.2~3.4,再计算候选峰簇与模板峰簇之间的相关值S,直至满足相关值S大于设定的临界值S
cv
时,则最佳匹配峰簇CPeak

b的正确性为峰簇匹配正确,则判定定位成功,此时,对应的CPeak

b即为精确定位的结果;
[0032]若候选色谱图中所有峰簇都没有满足相关值S大于设定的临界值S
cv
时,则判定定位失败。
[0033]本专利技术还具有以下技术特征:
[0034]具体的,所述的粗校准结果得到最佳匹配峰簇CPeak

b的具体过程为:
[0035]步骤3.1,根据粗校准结果,在原始质谱数据中提取模板色谱流图TXIC,候选色谱流图CXIC;
[0036]步骤3.2,采用动态规划方法计算TXIC与CXIC的最佳匹配峰簇CPeak

b;
[0037]步骤3.3,将未匹配离子数据集中的糖肽质量和电荷输入到三维信息差异下的多电荷混叠峰簇分离提取方法中,得到模板峰簇相关信息TPeak,候选峰簇相关信息CPeak;
[0038]所述的峰簇相关信息包括糖肽离子质量、电荷、同位素峰和洗脱时间。
[0039]具体的,所述的动态规划方法计算TXIC与CXIC的最佳匹配峰簇CPeak

b具体包括以下步骤:
[0040]步骤3.2.1,根据公式3

1计算TXIC与CXIC的匹配矩阵D[i,j];
[0041]D[i,j]=min(D[i

1,j]+d(i,j),D[i,j

1]+d(i,j),D[i

1,j

1]+2d(i,j))
ꢀꢀ
公式3
‑1[0042]其中:
[0043]d(i,j)=|本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征交叉融合的时间序列峰簇精确定位方法,其特征在于,该方法按照以下步骤进行:步骤一,对糖肽质谱数据集进行鉴定,得到鉴定结果数据集;所述的糖肽质谱数据集为多个原始质谱文件;所述的鉴定结果数据集包括重复鉴定离子数据集r

Set和未匹配离子数据集;所述的重复鉴定离子数据集r

Set包括糖肽质量、电荷、二级谱图编号、糖结构编号和肽链组成;所述的未匹配离子数据集包括糖肽质量,电荷,二级质谱图编号,糖肽结构编号和肽链组成;步骤二,建立原始质谱数据间的基于随机扰动的时间加权全局粗校准模型,用重复鉴定离子数据集r

Set进行模型参数训练,得到基于随机扰动的时间加权粗校准模型;使用基于随机扰动的时间加权粗校准模型对未匹配离子数据集完成粗校准,得到粗校准结果;所述的原始质谱数据间基于随机扰动的时间加权全局粗校准模型如公式2

1所示:T
target
=Slope*T
template
+offset
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式2

1其中:T
template
表示作为模板的原始质谱文件的洗脱时间;T
target
表示作为目标的原始质谱文件的洗脱时间;Slope表示原始质谱文件间的洗脱时间平均变化率;offset表示原始质谱文件间的洗脱时间偏移;所述的粗校准结果包括未匹配离子的质荷比估计值和未匹配离子的洗脱时间估计值;步骤三,根据粗校准结果得到最佳匹配峰簇CPeak

b,采用峰特征交叉融合公式3

3计算模板峰簇和候选峰簇的相关值S,比较相关值S与临界值S
cv
的大小,判定最佳匹配峰簇CPeak

b是否为精确定位结果:所述的峰特征交叉融合公式3

3为:f(s

,z1⊙
z2,MA1⊙
MA2)=s

+(z1⊙
z2)+(MA1⊙
MA2)
ꢀꢀꢀꢀ
公式3

4其中:z1表示模板峰簇对应糖肽离子的电荷;z2表示候选峰簇对应糖肽离子的电荷;MA1表示模板峰簇对应糖肽离子的质量;MA2表示候选峰簇对应糖肽离子的质量;s

为模板峰簇的同位素峰簇和候选峰簇的同位素峰簇间的皮尔逊相关系数;所述的判定最佳匹配峰簇CPeak

b是否为精确定位结果具体过程为:当相关值S小于S
cv
时,则最佳匹配峰簇CPeak

b的正确性为峰簇匹配不正确,重复步骤3.2~3.4,再计算候选峰簇与模板峰簇之间的相关值S,直至满足相关值S大于设定的临界值S
cv
时,则最佳匹配峰簇CPeak

b的正确性为峰簇匹配正确,则判定定位成功,此时,对应的CPeak

b即为精确定位的结果;若候选色谱图中所有峰簇都没有满足相关值S大于设定的临界值S
cv
时,则判定定位失败。
2.如权利要求1所述的特征交叉融合的时间序列峰簇精确定位方法,其特征在于,所述的粗校准结果得到最佳匹配峰簇CPeak

b的具体过程为:步骤3.1,根据粗校准结果,在原始质谱数据中提取模板色谱流图TXIC,候选色谱流图CXIC;步骤3.2,采用动态规划方法计算TXIC与CXIC的最佳匹配峰簇CPeak

b;步骤3.3,将未匹配离子数据集中的糖肽质量和电荷输入到三维信息差异下的多电荷混叠峰簇分离提取方法中,得到模板峰簇相关信息TPeak,候选峰簇相关信息CPeak;所述的峰簇相关信息包括糖肽离子的质量、糖肽离子的电荷、糖肽离子的同位素峰簇和糖肽离子的洗脱时间。3.如权利要求2所述的特征交叉融合的时间序列峰簇精确定位方法,其特征在于,所述的动态规划方法计算TXIC与CXIC的最佳匹配峰簇CPeak

b具体包括以下步骤:步骤3.2.1,根据公式3

1计算TXIC与CXIC的匹配矩阵D[i,j];D[i,j]=min(D[i

1,j]+d(i,j),D[i,j

1]+d(i,j),D[i

1,j

1]+2d(i,j))
ꢀꢀꢀꢀ
公式3

1其中:d(i,j)=|TXIC
i

CXIC...

【专利技术属性】
技术研发人员:冯筠陆柯迪孙士生胡陟
申请(专利权)人:西北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1