一种蛋白质鉴定并行加速算法制造技术

技术编号：20799082 阅读：32 留言：0更新日期：2019-04-06 12:46

本发明专利技术属于并行处理技术领域，具体为一种蛋白质鉴定并行加速算法。本发明专利技术首先采用细粒度切分蛋白质库，通过设置低竞争缓冲区实现细粒度batch分配机制，然后通过数据结构的优化和内存分配器的优化实现对动态内存的优化，利用主线程和工作线程完成对蛋白质库的理论水解、匹配、打分和保存分数；最后通过调整计分流程，完成并行计分。本发明专利技术相较于传统蛋白质鉴定软件X！Tandem串行性能有20.5倍的性能提升。

A Parallel Acceleration Algorithms for Protein Identification

The invention belongs to the technical field of parallel processing, in particular to a parallel acceleration algorithm for protein identification. The invention firstly adopts fine-grained segmentation protein library, realizes fine-grained batch allocation mechanism by setting low-competition buffer, then optimizes dynamic memory by optimizing data structure and memory allocator, completes theoretical hydrolysis, matching, scoring and storage score of protein library by using main thread and working thread, and finally adjusts the calculation shunt process. Scoring in parallel. Compared with the traditional protein identification software X! Tandem serial performance has a 20.5-fold performance improvement.

全部详细技术资料下载

【技术实现步骤摘要】
一种蛋白质鉴定并行加速算法
本专利技术属于并行处理
，具体涉及到一种蛋白质鉴定并行加速算法。
技术介绍
随着人类基因组计划的完成，生命科学开始进入到蛋白质研究时代。蛋白质由氨基酸组成，通过基因指导氨基酸对蛋白质的合成，蛋白质进一步承担生命活动。蛋白质是生命活动的直接参与者，蛋白质的研究对人类进一步揭示生命本质有着重要的意义，蛋白质鉴定是蛋白质研究的基础，对生物、医药研究、临床诊断至关重要。氨基酸序列是表示蛋白质身份唯一标识，蛋白质鉴定的目的是鉴定出蛋白质的氨基酸序列。当前主流蛋白质鉴定的方法是通过串联质谱方法进行鉴定，具体是通过将生物样品转化为串联质谱，对串联质谱进行分析得出样品中蛋白质的氨基酸序列。蛋白质鉴定领域最实用的蛋白质鉴定算法是数据库搜索法。基本鉴定原理是将蛋白质库中蛋白质序列转换为理论质谱，与实验质谱打分，得到与实验质谱最相似的蛋白质序列。生物大数据时代的到来使得蛋白质库越来越大，从生物样品中获取的串联质谱也越来越多。而蛋白质鉴定过程本就是复杂和困难的，并且生物大数据时代的到来，使蛋白质鉴定面临更大的挑战。基于蛋白质库搜索法蛋白质鉴定过程是由理论水解、匹配、打分、计分和生成报告这五个模块组成。对蛋白序列逐条进行理论水解，理论水解得到肽段。肽段再与输入的实验质谱进行匹配，匹配得到与此肽段母离子质量，肽段母离子质量就是肽段中所有分子的质量，可用于衡量肽段与实验质谱的相似性。然后肽段与匹配的实验质谱进行打分，打分过程是把肽段转化为理论质谱，再将理论质谱与实验质谱进行比较打分。计分过程是将肽段与实验质谱的分数记录到实验质谱的对应数据结构中。当完成...

【技术保护点】
1.一种蛋白质鉴定并行加速算法，其特征在于，具体步骤如下：(1)读取蛋白质库，通过每次读取的蛋白质序列数量来控制batch粒度，将蛋白质数据库划分为蛋白质序列条目数较少的batch，实现细粒度切分蛋白质库，并通过设置低竞争缓冲区将细粒度batch分配给工作线程，实现细粒度batch分配机制；其中：所述低竞争缓冲区的具体数据结构是环形数组，数组的每个元素由batch编号、互斥锁和状态位组成，并且每个元素进行了缓存行填充；(2)当蛋白库读取完成并且低竞争缓冲区中已经没有可读batch时，主线程和工作线程完成对蛋白质库的理论水解、匹配、打分和保存分数，该过程中，通过数据结构的优化和内存分配器的优化对动态内存进行优化；(3)当各个线程完成对蛋白质库的理论水解、匹配、打分和保存分数后，主线程先完成对母离子质量大于3000的实验质谱的记分，然后主线程从保存的分数数据中读取细粒度batch，并将batch编号插入到低竞争缓冲区中，然后工作线程从低竞争缓冲区中获取batch编号，工作线程对batch中的分数计入到相应的实验质谱中，最后完成并行计分。

【技术特征摘要】
1.一种蛋白质鉴定并行加速算法，其特征在于，具体步骤如下：(1)读取蛋白质库，通过每次读取的蛋白质序列数量来控制batch粒度，将蛋白质数据库划分为蛋白质序列条目数较少的batch，实现细粒度切分蛋白质库，并通过设置低竞争缓冲区将细粒度batch分配给工作线程，实现细粒度batch分配机制；其中：所述低竞争缓冲区的具体数据结构是环形数组，数组的每个元素由batch编号、互斥锁和状态位组成，并且每个元素进行了缓存行填充；(2)当蛋白库读取完成并且低竞争缓冲区中已经没有可读batch时，主线程和工作线程完成对蛋白质库的理论水解、匹配、打分和保存分数，该过程中，通过数据结构的优化和内存分配器的优化对动态内存进行优化；(3)当各个线程完成对蛋白质库的理论水解、匹配、打分和保存分数后，主线程先完成对母离子质量大于3000的实验质谱的记分，然后主线程从保存的分数数据中读取细粒度batch，并将batch编号插入到低竞争缓冲区中，然后工作线程从低竞争缓冲区中获取batch编号，工...

【专利技术属性】
技术研发人员：张为华，鲁云萍，蒋金虎，孙廷杰，
申请(专利权)人：复旦大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人