一种基于A星算法的蛋白质序列标签测序方法技术

技术编号:38331270 阅读:12 留言:0更新日期:2023-07-29 09:14
本发明专利技术公开了一种基于A星算法的蛋白质序列标签测序方法,包括:获取待测蛋白质的原始质谱数据,对所述原始质谱数据进行预处理;构建谱峰连接图;生成候选序列标签;找出符合母离子质量的候选肽段;从数据库中搜索序列标签并进行匹配打分排序。采用本方法有利于提高从头测序生成候选肽段的速度,生成多个碎裂标签能提高准确率,促进蛋白质序列鉴定的发展,为大数据时代下的大规模蛋白质鉴定识别奠定了基础。基础。基础。

【技术实现步骤摘要】
一种基于A星算法的蛋白质序列标签测序方法


[0001]本专利技术涉及生物信息
,特别是涉及一种基于A星算法的蛋白质序列标签测序方法。

技术介绍

[0002]基于串联质谱技术的蛋白质组学已经成为生命科学领域的重要技术。在蛋白质组的生物信息学研究中,质谱数据处理是十分重要的研究内容,其任务是从带有复杂噪声或者部分信息确实的数据中推断样品的蛋白质组成。利用质谱数据进行蛋白质鉴定的过程中常用的两种分析方法是数据库搜索和从头测序。然而数据库搜索方法主要通过匹配实际质谱和数据库中蛋白质序列的理论裂解谱图给出候选肽段,对蛋白质序列数据库有依懒性。从头测序不受蛋白质序列数据库中所包含的错误信息的影响,能够在蛋白质序列数据库信息不完全的情况下对串联质谱数据进行分析,但是对串联质谱的数据质量要求非常高。当肽段碎裂不完全或背景噪音覆盖正确的离子峰时,往往鉴定出来的准确率较低。基于肽序列标签的数据库搜索鉴定方法,是结合从头测序方法和数据库搜索算法的优点,通过从头测序方法预测理论谱图,再利用数据库搜索算法搜索到匹配程度较大的肽段。但是目前的肽序列标签的生成往往是固定了肽段长度和数量,导致肽段的选择尤为重要,同时需要添加一个选择肽段的打分,使得往往复杂了整个过程。

技术实现思路

[0003]本专利技术提供一种基于A星算法的蛋白质序列标签测序方法,用以解决上述的问题。
[0004]本专利技术提供一种基于A星算法的蛋白质序列标签测序方法,包括:
[0005]获取待测蛋白质的原始质谱数据,对所述原始质谱数据进行预处理;
[0006]基于预处理后的原始质谱数据,构建谱峰连接图;
[0007]基于所述谱峰连接图,生成候选序列标签;
[0008]基于所述候选序列标签,找出符合母离子质量的候选肽段;
[0009]从数据库中搜索序列标签并进行匹配打分排序。
[0010]可选地,所述预处理包括:基于原始质谱数据生成二级质谱图,对二级质谱图进行去除同位素、去除噪声、峰强度归一化、去除固定离子和内部离子。
[0011]可选地,构建谱峰连接图包括:
[0012]基于预处理后的二级质谱图,确定光谱图中的顶点;
[0013]合并所述顶点;
[0014]如果任意两个顶点的质荷比等于误差范围内一个或多个氨基酸残基质量的总和时,则两个顶点之间连接一条边,根据谱峰及其质量之间的关系,得到了一张谱峰连接图;
[0015]基于所述谱峰连接图计算路径评分。
[0016]可选地,基于所述谱峰连接图计算路径评分包括:
[0017]a)获取谱峰连接图Gp(v
i
,e
ij
),创建Open表与Close表并初始化为空,创建存放顶
点的邻近节点表E并初始化为空;
[0018]b)将起点v1加入Open表中;
[0019]c)如果Open表不为空,则从Open表中选取分数A最大的顶点为当前顶点v
i
;如果Open表为空,则进入步骤d;
[0020]d)判断顶点v
i
是否为终点v
n
,如果顶点v
i
不是终点,则将顶点v
i
从Open表中删除并加入Close集中,再进行步骤e;
[0021]如果顶点v
i
是终点,将终点v
n
加入Close表中,并从终点逐步取出Close表中的顶点直到起点v1,输出取出顶点的顺序路径和此时终点的路径最佳分数A;
[0022]e)判断与当前节点v
i
相关的顶点v
j
的边是否存在,当边e
ij
存在时,即e
ij
=1,则将此节点作为邻近节点存入表E
i
中,表E
i
表示当前顶点v
i
所有的邻近节点;当边e
ij
不存在时,即e
ij
=0,则跳过该相关顶点v
j

[0023]f)重复步骤e直至遍历完所有顶点,此时获得与当前顶点vi有边的邻近节点表E
i

[0024]g)判断E
i
中的各顶点是否在Close表中和Open表中,只有当E
i
中的邻近顶点v
k
不在Close表和Open表中时,才将邻近顶点的父节点设置为当前节点v
i
,并加入Open表中,计算分数A记作A_k;当邻近顶点在表Close和表Open中任意一个表时,跳过此顶点,进入步骤h;
[0025]h)重复步骤g直到将所有邻近节点遍历完,进入步骤c。
[0026]可选地,生成候选序列标签包括:
[0027]基于获取的路径及相应路径最佳分数,根据分数将路径从大到小排序,选择前多个路径生成多肽标签,将所有多肽标签存入第一索引表;
[0028]将生成的多肽标签进行碎裂,得到多个碎裂标签,将所有碎裂标签存入第二索引表。
[0029]可选地,找出符合母离子质量的候选肽段包括:
[0030]对所述二级质谱图中数据的蛋白质,进行模拟水解生成多肽序列,根据蛋白酶的酶解特点,找到酶解位点进行模拟断裂,然后将蛋白质数据模拟转化为多肽序列,并记录生成的多肽序列的母离子质荷比;
[0031]根据母离子质荷比将所有多肽序列信息按从小到大排序得到肽序列索引表protein;根据母离子质荷比得到肽段质荷比索引号,并设置指针指向索引号范围内的表protein的行数。
[0032]可选地,从数据库中搜索序列标签并进行匹配打分排序包括:
[0033]将多肽序列碎裂标签T*和蛋白质序列S通过质荷比表示为向量;
[0034]对蛋白质序列S形成相应的相似空间;
[0035]计算T[u,v]序列分别与每个相似空间中第一个序列的DTW距离,选出T[u,v]序列对应的最小DTW距离的相似空间,此时一个标签有一个相似空间对应,重复计算DTW距离,直至所有长度的标签都匹配了相应的空间;
[0036]将相应空间中的肽段序列作为理论质谱图,对理论质谱图与预处理后的质谱图进行匹配打分,输出打分最高的序列作为最终输出结果。
[0037]可选地,对蛋白质序列S形成相应的相似空间包括:
[0038]a)、获取长度都为u的所有碎裂标签Tu,对长度为u的标签生成肽段相似空间G,初始化G和质荷比平均值R;
[0039]b)、在任意一个候选肽段序列中,判断当前氨基酸及前面氨基酸的质荷比之和是否大于或等于前缀质量的质荷比α0,如果满足条件,则将接下来u个氨基酸设置为特定长度为u的子序列Xp[u,v],如果不满足条件,则判断下一个氨基酸及前面氨基酸的质荷比之和是否大于或等于前缀质量的质荷比α0,直至所述候选肽段序列遍历完;
[0040]c)重复步骤b直至所有肽段序列集都已形成特定长度u的所有子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于A星算法的蛋白质序列标签测序方法,其特征在于:包括:获取待测蛋白质的原始质谱数据,对所述原始质谱数据进行预处理;基于预处理后的原始质谱数据,构建谱峰连接图;基于所述谱峰连接图,生成候选序列标签;基于所述候选序列标签,找出符合母离子质量的候选肽段;从数据库中搜索序列标签并进行匹配打分排序。2.根据权利要求1所述的基于A星算法的蛋白质序列标签测序方法,其特征在于:所述预处理包括:基于原始质谱数据生成二级质谱图,对二级质谱图进行去除同位素、去除噪声、峰强度归一化、去除固定离子和内部离子。3.根据权利要求2所述的基于A星算法的蛋白质序列标签测序方法,其特征在于:构建谱峰连接图包括:基于预处理后的二级质谱图,确定光谱图中的顶点;合并所述顶点;如果任意两个顶点的质荷比等于误差范围内一个或多个氨基酸残基质量的总和时,则两个顶点之间连接一条边,根据谱峰及其质量之间的关系,得到了一张谱峰连接图;基于所述谱峰连接图计算路径评分。4.根据权利要求3所述的基于A星算法的蛋白质序列标签测序方法,其特征在于:基于所述谱峰连接图计算路径评分包括:a)获取谱峰连接图Gp(v
i
,e
ij
),创建Open表与Close表并初始化为空,创建存放顶点的邻近节点表E并初始化为空;b)将起点v1加入Open表中;c)如果Open表不为空,则从Open表中选取分数A最大的顶点为当前顶点v
i
;如果Open表为空,则进入步骤d;d)判断顶点v
i
是否为终点v
n
,如果顶点v
i
不是终点,则将顶点v
i
从Open表中删除并加入Close集中,再进行步骤e;如果顶点v
i
是终点,将终点v
n
加入Close表中,并从终点逐步取出Close表中的顶点直到起点v1,输出取出顶点的顺序路径和此时终点的路径最佳分数A;e)判断与当前节点v
i
相关的顶点v
j
的边是否存在,当边e
ij
存在时,即e
ij
=1,则将此节点作为邻近节点存入表E
i
中,表E
i
表示当前顶点v
i
所有的邻近节点;当边e
ij
不存在时,即e
ij
=0,则跳过该相关顶点v
j
;f)重复步骤e直至遍历完所有顶点,此时获得与当前顶点vi有边的邻近节点表E
i
;g)判断E
i
中的各顶点是否在Close表中和Open表中,只有当E
i
中的邻近顶点v
k
不在Close表和Open表中时,才将邻近顶点的父节点设置为当前节点v
i
,并加入Open表中,计算分数A记作A_k;当邻近顶点在表Close和表Op...

【专利技术属性】
技术研发人员:李闯刘纯洋何典祝团飞南苏琴
申请(专利权)人:湖南工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1