一种基于质谱数据的N-糖链结构鉴定Denovo方法及系统技术方案

技术编号:32627883 阅读:19 留言:0更新日期:2022-03-12 18:01
本发明专利技术属于糖组学技术领域,公开了一种基于质谱数据的N

【技术实现步骤摘要】
一种基于质谱数据的N

糖链结构鉴定Denovo方法及系统


[0001]本专利技术属于糖组学
,尤其涉及一种基于质谱数据的N

糖链结构鉴定Denovo方法及系统。

技术介绍

[0002]目前:蛋白质的糖基化是生物体内普遍存在的蛋白质翻译后修饰,其N

糖链结构在很大程度上决定着糖蛋白的生物功能。随着质谱技术的飞速提升,运用质谱数据对糖链结构进行鉴定,已是认识糖蛋白生物功能的重要方式。
[0003]N

糖链是具有五糖核心固定结构的一种树状结构,目前N

糖链结构鉴定的方法大体分为两类:1)数据库搜索方法;2)从头测序(Denovo)法;3)标签法。其中标签法是数据库搜索方法与从头测序法的结合。下面对数据库搜索方法和从头测序方法分别进行介绍。
[0004]1.数据库搜索方法:参照了GlycoSearchMS、GlycoPep DB、GlyDB等数据库,将某个未知结构的待测糖肽质谱图与带有注释的糖链结构的真实谱图进行相似性匹配,从而获得一个表示相似性的分值,将最佳匹配的糖链结构作为鉴定结果。基于该类方法的算法有GRIP、ArMone 2.0、GlycoPep Detector、Byonic、Protein

Prospector、pGlyco 2.0等。
[0005]2.通常从头测序方法由两个过程组成,即枚举可能的糖链结构和评估这些候选结构,将具有最高分数的糖链结构作为鉴定结果。理想的枚举程序应当尽可能生成少量候选结构用于进一步评估,但不应缺失目标糖链结构。
[0006]现阶段从头测序方法主要分为三类:
[0007]第一类是详尽搜索:考虑到研究中的糖肽的母离子质量,可以使用Knapsack算法容易地计算出糖链的单糖组成。STAT、StrOligo、OSCAR等详尽的搜索方法列举了与单糖组成匹配的所有可能的分支结构。由于候选糖链结构的数量会与单糖的数量呈指数增长,故该类策略仅用于具有最多十个单糖残基的糖链的鉴定。
[0008]通过对候选糖链结构应用生物合成规则加以限制约束,可以大大缩小搜索空间,但是现实情况是对形成糖链的生物规则并不完全知晓,限制了利用生物合成规则的普遍适用性。
[0009]第二类是启发式方法:在谱图中的每个峰只能使用一次的条件下,生成候选糖链的问题已被证明是NP难问题。为此目前存在多种启发式方法,例如,每个峰的位置仅保留有限数量的子结构,降低计算复杂度以节省时间和空间。现有技术1建议逐步重建糖链结构,并在每次迭代中考虑固定数量的高质量结构。现有技术2提出了一种基于固定参数算法的精确算法,其中参数为峰数,对于具有大量峰的质谱,最多只需要使用k个最强烈的峰,而其他峰则可以多次使用。
[0010]第三类是基于动态规划的方法:类似于从头肽链测序,GLYCH使用动态规划技术从串联MS质谱图中找到最可能的分支结构,仅适用于释放糖链的MS/MS谱图,无法处理糖肽数据。现有技术3将候选结构生成问题公式化为整数线性规划问题,然后用动态规划技术来推断最可能的结构。为了使计算易于管理,动态规划方法通常返回固定数量的最高评分结构,
例如GLYCH报告了最高200个候选结构以进行后续评估。
[0011]与数据库搜索方法相比,从头测序方法的优点是能够鉴定出数据库中未被收录的新的糖链结构,存在很大研究价值。它的缺点是要求高质量的质谱谱图,而现实中存在各种各样的因素致使谱图的质量受到一定的影响,例如谱图中常存在碎片离子的谱峰连续丢失的情况等,所以其谱图利用率相比于数据库搜索不是很高,但随着质谱技术的发展,其在糖链结构鉴定中显示出极具希望的研究前景。
[0012]通过上述分析,现有技术存在的问题及缺陷为:
[0013](1)目前基于数据库搜索的方法不能够鉴定出未收录的结构。
[0014](2)目前基于从头测序(Denovo)的方法,受质谱数据噪声的影响较大,导致鉴定结构的鲁棒性不高。
[0015]解决以上问题及缺陷的难度为:
[0016](1)N

糖链尺度的多样性。有些N

糖链中所含的单糖数目少,有些则很大,即其中所包含的单糖数目变化范围很大,通常尺度越大的糖链,其鉴定的难度越大;
[0017](2)N

糖链结构的多样性。尽管N

糖链具有树形结构,但是其组成及各单糖在糖链上的位置有可能多种多样,给从质谱数据中准确鉴定糖链结构带来极大挑战;
[0018](3)N

糖链子结构的稳定性不同。不同子结构的结构稳定性不同,即有些不易碎裂,有些则极易碎裂,而各种子结构的结构稳定信息未知,给基于质谱数据的N

糖链结构鉴定带来困难;
[0019](4)送入质谱仪的糖肽未必纯净,导致实际有可能是多种糖肽的混合,干扰了对富集糖肽的鉴定;
[0020](5)质谱仪本身的测量噪声、同位素效应等也给糖链结构鉴定带来一定干扰,通常这些通过预处理解决,而质谱数据的预处理效果,直接影响后续鉴定算法的鉴定性能,高质量的预处理是提升鉴定质量的重要保证。
[0021]解决以上问题及缺陷的意义为:
[0022]本专利技术在对N

糖肽的质谱数据进行常规预处理基础上,发展出了一套N

糖链结构鉴定Denovo方法及系统,对质谱数据中存在的噪声具有很好的鲁棒性。
[0023]糖组学的主要挑战是复杂聚糖结构的表征,这对于理解其在生物过程中的作用至关重要。糖基化时形成的糖链参与生物体的生命调节活动,能够增强修饰后蛋白质抵抗蛋白酶的能力,从而影响蛋白质之间的相互作用,并影响蛋白质的空间结构、生物活性、转运、定位和功能等;在某些生命活动中,肽链上附着的糖链的结构发生变化是导致疾病发生的重要原因;糖基化还在许多生物药物的溶解性、稳定性和功效上起重要作用。所以对糖基化产生的糖链进行准确鉴定,对于认识生命调节活动、发现致病原因、疾病的治疗和药物设计,有重要意义。

技术实现思路

[0024]针对现有技术存在的问题,本专利技术提供了一种基于质谱数据的N

糖链结构鉴定Denovo方法及系统。
[0025]本专利技术是这样实现的,一种基于质谱数据的N

糖链结构鉴定Denovo方法,所述基于质谱数据的N

糖链结构鉴定Denovo方法包括:
[0026]通过提取质谱数据中糖链碎片离子的结构和组成信息,基于基础峰、交叉峰、广义单糖字典进行N

糖链鉴定,利用剪枝策略缩小鉴定结果候选结构的搜索空间,得到质谱对应的N

糖链结构。
[0027]进一步,所述基于质谱数据的N

糖链结构鉴定Denovo方法包括以下步骤:
[0028]步骤一,读取经过质谱仪处理后的质本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于质谱数据的N

糖链结构鉴定Denovo方法,其特征在于,所述基于质谱数据的N

糖链结构鉴定Denovo方法,通过提取质谱数据中糖链碎片离子的结构和组成信息,引入广义单糖字典提升鉴定出的结构对质谱数据噪声的鲁棒性;引入基础峰和交叉峰,并基于交叉峰的支持来生长基础峰从而生长出糖链结构;用剪枝策略缩小鉴定结果候选结构的搜索空间,最终鉴定出质谱对应的N

糖链结构。2.如权利要求1所述基于质谱数据的N

糖链结构鉴定Denovo方法,其特征在于,所述基于质谱数据的N

糖链结构鉴定Denovo方法包括以下步骤:步骤一,读取经过质谱仪处理后的质谱数据,提取鉴定所涉及的相关数据;通过对质谱的预处理,将质谱的质荷比m/z转换为质量m;采用五糖核心相关谱峰判断方法,判断是否存在五糖核心,若存在,则转向步骤二;步骤二,基于单糖和广义单糖,将质谱中具有单糖特性的谱峰质量校正为理论质量;步骤三,初始化糖链结构为树的根结点,糖链从初始结构不断生长,按照一定规则生长单糖,边生长边计算生长单糖后的结构的基础峰和交叉峰,并基于计算得到的基础峰和交叉峰生成所述结构的理论质谱;步骤四,通过剪枝策略对生长出的结构中同构的结构进行过滤,得到N

糖链结构鉴定结果;对鉴定结果参考理论质谱进行打分评估,打分排名第一的结构即为鉴定出的糖链结构。3.如权利要求2所述基于质谱数据的N

糖链结构鉴定Denovo方法,其特征在于,步骤一中,所述相关数据包括:糖链质量GlycanMass、肽链质量PeptideMass、低能量下获取的谱峰lowEnergyPeaks。4.如权利要求2所述基于质谱数据的N

糖链结构鉴定Denovo方法,其特征在于,步骤二中,所述基于单糖和广义单糖,对具有五糖核心的质谱进行谱峰质量校正包括:(1)计算相邻谱峰的质量差Δm,某个单糖或广义单糖的质量在该范围内[Δm

Δ,Δm+Δ],则该质量差匹配上了该单糖或广义单糖质量,其中Δ是值为0.2的矫正误差;(2)将质量差更新为相应单糖或广义单糖的质量,重新计算加上相应单糖质量或广义单糖质量后的新的质量即为校正后的质量,所述单糖特性谱峰质量校正后的质量即其理论质量。5.如权利要求2所述基于质谱数据的N

糖链结构鉴定Denovo方法,其特征在于,步骤三中,所述糖链结构生长单糖的规则包括:以每次试图生长最轻单糖为原则。6.如权利要求2所述基于质谱数据的N

糖链结构鉴定Denovo方法,其特征在于,所述基础峰和交叉峰包括:基础峰即谱图S中仅与单条单糖路径有关的峰:谱图S对应的糖链G的每条单糖路径上的单糖质量的和分别记为m=b
i
...

【专利技术属性】
技术研发人员:张军英杨芝吴金辉刘继源孙士生
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1