一种蛋白质鉴定的大规模分布式并行加速方法及其系统技术方案

技术编号:7273525 阅读:607 留言:0更新日期:2012-04-15 22:40
本发明专利技术有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,其中该方法包括:步骤1,用并行处理方法,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明专利技术在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。

【技术实现步骤摘要】

本专利技术涉及一种规模化蛋白质鉴定的分布式并行加速方法,特别是涉及一种采用分布式并行技术以在多个计算节点上,有效分担搜索任务从而提高蛋白质鉴定速度的方法及其系统。
技术介绍
“蛋白质组”(Proteome)描绘了特定生物样品中在给定时刻和给定条件下表达的蛋白质的全体。顾名思义,蛋白质组学就是对蛋白质组的研究,其最基本的任务就是确定出哪些蛋白质在生物体内得到了表达、表达量是多少、翻译后修饰以及蛋白与蛋白相互作用等,由此获得蛋白质水平上关于疾病发生、细胞代谢等过程的整体而全面的认识。在当前的蛋白质组研究中,基于串联质谱的蛋白质鉴定是最广泛使用的技术之一,参考文献1 《Aebersold,R. and Mann, Μ. Mass spectrometry-based proteomics,Nature,2003,422 198-207》中对相关的内容有较为详细的说明。基于串联质谱鉴定蛋白质的基本步骤是首先将混合蛋白样品酶切为肽,经过液相色谱分离后,进入质谱仪,得到肽的实验串联质谱图,然后对质谱图进行分析,得到对应的肽序列,最后通过肽到蛋白质归并分析,得到混合蛋白样品中的蛋白质列表,从而达到对蛋白质进行鉴定的目的。在鉴定产生实验串联质谱的肽序列的过程中,数据库搜索的方法被广泛采用。如在参考文献2 ((Eng, J. K.,McCormack, A. L. and Yates, J. R. An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database. J Am Soc Mass Spectrom, 1994, 5 :976_989〉〉、参考文献 3 ((Perkins, D. N.,Pappin, D. J.,Creasy, D. M. and Cottrell, J. S. Probability-based protein identification by searching sequence databases using mass spectrometry data. Electrophoresis, 1999,20 :3551_3567》以及参考文献 4《Field,H. I.,Fenyo, D. and Beavis,R. C. RADARS,a bioinformatics solution that automates proteome mass spectral analysis, optimises protein identification, and archives data in a relational database. Proteomics, 2002,2 :36_47》中都对采用数据库搜索的方法实现肽序列的鉴定做了详细说明。采用数据库搜索的方法通过肽序列鉴定实现蛋白质鉴定的方法主要包括以下步骤首先,模拟生物学中的酶切规则将蛋白质数据库中的蛋白质序列切分成肽序列;然后计算切分得到的各个肽序列的质量;最后利用质谱数据中的母离子质量误差窗口寻找符合一定质量范围内的肽序列,将符合要求的肽序列输入给打分函数以实现对肽序列的鉴定。由于近年来随着蛋白质数据库的规模不断增长,对非特异性酶切肽的鉴定需求不断增加,导致肽序列的规模不断增大,同时,质谱数据的生成速度也在不断增长,因此对蛋白质的鉴定速度提出了更高的要求。但前述的蛋白质鉴定方法在效率上却有不足,因此需要对上述的数据库搜索方法进行加速。近年来,随着商业集群的廉价和普及,大规模并行计算已经成为科学和工业计算的加速问题的主流解决方案。所谓集群,即将一群计算机用网络以某种结构互连起来,统一调度、协调处理以实现高效并行计算。和早期的统一地址空间的巨型计算机相比,集群中的每个节点都拥有独立的中央处理器、内存和必要外设。集群中的进程可以大规模并行,但彼此之间的通讯代价较高,这也意味着运行在普通电脑上的原有串行或多线程程序,并不天然具有可拓展性,也就是说,将单机程序移植到集群上并不能直接获得加速。必须对现有算法进行重新设计,才能最大程度的利用硬件设施的能力。由于即使在中小规模的集群上加速效果明显的算法,随着集群规模的扩大,其加速效果仍然会不断下降。现有工业计算软件,大多无法在超百核处理器规模下达到线性加速比,在千核处理器以上规模能达到线性加速比的更加少见。除了速度因素,集群的使用还涉及空间因素,使用集群的高性能计算场景常常涉及非常巨大的数据集(例如生物的蛋白质序列,以及待鉴定的海量质谱谱图),这种海量数据集在普通计算机或集群的单节点上甚至无法运行一些常规操作(例如载入内存运行常见的内存排序算法),不得不使用集群硬件系统以及特殊设计的软件算法进行处理。现有蛋白质鉴定搜索引擎大都实现了并行版本。如在参考文献5《Sadygov, R. G.,Eng, J.,Durr, E.,Saraf, A.,McDonald,H.,MacCoss, M. J.,Yates, J. R. 3rd , Code developments to improve the efficiency of automated MS/MS spectra interpretation. J Proteome Res,2002,1 :211_215〉〉、参考文献 6〈〈Duncan,D. Τ.,Craig, R.,Link,A. J. Parallel tandem :a program for parallel processing of tandem mass spectra using PVM or MPI and X ! Tandem. J Proteome Res 2005,4 :1842-1847》、参考文献 7《Bjornson,R. D.,Carrier ο, N. J.,Colangelo,C.,Sh if man, M.,Cheung,K. H., Miller,P. L. ,Williams,K. X ! ! Tandem,an improved method for running X ! tandem in parallel on collections of commodity computers. J Proteome Res 2008,7 :293_299》、 参考文献 8〈〈Halligan,B. D.,Geiger,J. F.,Vailejos,A. K. ,Greene, A. S. Twigger, S. N. Low Cost,Scalable Proteomics Data Analysis Using Amazon' s Cloud Computing Services and Open Source Search Algorithms. J Proteome Res 2009,8 :3148_3153.》和参考文献9 《Leheng Wang, Wenping Wang, Hao Chi,Yanjie Wu,You Li,Yan Fu,Chen Zhou, Rui本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:王乐珩王文平迟浩吴妍洁周郴付岩孙瑞祥贺思敏
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术