【技术实现步骤摘要】
基于MPI技术的分析大规模第三代测序数据并行比对方法
[0001]本专利技术涉及生物信息学、并行程序设计和计算机应用交叉
,更具体地说,特别涉及一种基于MPI技术的分析大规模第三代测序数据并行比对方法。
技术介绍
[0002]DNA序列由A、T、C、G四种碱基组成,这四种碱基的排列顺序代表着生物的遗传信息,确定生物样本中碱基的顺序是一系列研究应用中不可或缺的一部分。在过去的几十年里,为了确定构成DNA链中四种碱基的精确顺序,解开DNA样本的遗传密码,科学家们开发了许多测序技术。测序技术在速度和降低成本方面的不断进步,大大推动了基因组学的发展。与第一代测序和第二代测序不同,由第三代测序测出来的DNA序列片段长度提升了几个数量级,但同时以现有的三代测序技术测得的序列数据错误率约15%,比第二代测序的错误率要高不少。测得长读段序列数据让生物信息学领域面临的许多挑战取得了新的突破,极大地提高了基因组组装的质量和基因组结构的分析。
[0003]三代测序带来了新的契机,但同时也给序列比对技术提出了新的挑战。序列比对是非常耗 ...
【技术保护点】
【技术特征摘要】
1.基于MPI技术的分析大规模第三代测序数据并行比对方法,其特征在于,包括以下步骤:S1、启动p个进程,任意选取一个进程作为主进程,并将其余p
‑
1个进程作为从进程;S2、将参考基因组读入所述主进程,并通过minimap2生成参考基因组索引;S3、根据所述参考基因组索引的值构建数据结构,并广播数据结构中每个数组的长度;S4、所述主进程通过MPI_Bcast函数广播步骤S3中构建的数据结构;S5、所有从进程调用MPI_Bcast函数获取所述主进程广播的数据结构,根据所述数据结构构建基因组索引并作为副本保存在从进程中;S6、将所有p个进程进行序列分割,确定所需读取分析的第三代测序数据;S7、通过多级并行对所有进程进行三代测序比对;S8、每个进程将该进程的比对结果异步输入到独立的文件中保存;S9、将不同的文件中所保存的各个进程的比对结果合并,得到比对结果文件。2.根据权利要求1所述的基于MPI技术的分析大规模第三代测序数据并行比对方法,其特征在于,所述步骤S3具体包括以下步骤:S31、主进程确定参考基因组索引的存储结构,分别保存至不同的数组中,并获取数组长度;S32、主进程通过MPI_Bcast函数广播各个数组长度,从进程通过MPI_Bcast函数获取数组长度并根据获取的数组长度开辟相应的内存空间;S33、主进程通过MPI_Bcast函数广播各个数组数据,从进程通过MPI_Bcast函数获取数组数据存储在步骤S32开辟的内存空间中。3.根据权利要求1所述的基于MPI技术的分析大规模第三代测序数据并行比对方法,其特征在于:所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。