基于众核协处理器的三级流水序列比对方法技术

技术编号：11085918 阅读：148 留言：0更新日期：2015-02-26 12:41

本发明专利技术公开了一种基于众核协处理器的三级流水序列比对方法，目的是提高序列比对软件的比对速度。技术方案是：采用MIC众核协处理器使用多线程并行进行序列比对，并将MIC上序列比对过程中从主存读取序列到MIC、比对序列和将比对结果写回主存这三个串行步骤采用三级流水方式，即在进行每一轮序列比对的同时，读取下一组比对所需要的序列，同时将上一组比对的结果写回主存，使得读写操作和比对操作并行进行。本发明专利技术实现了序列读取，序列比对和比对结果写回的三个主要过程的并行执行，提高了比对效率，降低了比对时间，与两路八核CPU相比，本发明专利技术可加速比对过程2.3倍以上，且避免拷贝大量内存空间，提高了程序的时空效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于众核协处理器的三级流水序列比对方法
本专利技术涉及生物信息领域序列比对的方法，尤其指一种基于众核协处理器的序列比对方法。
技术介绍
分子生物学是从分子水平上研究生命现象物质基础的学科，通过研究生物分子的结构、功能和合成等方面的原理，从而使生物体的功能和性状在前所未有的分子细节上得到详尽的分析和理解，进而更加科学严谨地阐明生命现象的本质。在分子生物学研究中，DNA的序列分析是进一步研究和改造目的基因的基础。DNA(脱氧核糖核酸)是一种生物大分子，一共分为四种碱基，记为A、T、C、G，这些大分子的排列顺序决定了某种遗传指令，这些遗传指令是建构细胞内其他的化合物，如蛋白质与核糖核酸的需要。带有蛋白质编码的DNA片段称为基因，即遗传物质，是DNA分子上具有遗传信息的特定核苷酸序列。基因经过转录、翻译，最终产生结构和功能各异的、表现生物体性状的蛋白质。DNA序列分析的基础是对DNA分子进行测序，即确定DNA分子中A、T、C、G四种碱基的排列顺序。当前的DNA测序技术，一次实验最多只能直接测得不大于5000个碱基的排列顺序，形成多个DNA短序列(称为read)。而一般生物的基因组碱基数目都十分巨大，如人类基因组总长约为30亿个碱基对。这样，绝大多数生物的基因组都不能通过实验手段一次性获得，而必须借助于计算机技术进行后续拼接得到完整的基因组。序列比对是目前广泛使用的DNA序列分析方法，它是将测序得到的read短序列直接与拼接完成的参考基因组进行比对，确定read在参考基因组中是否出现以及出现的具体位置。通过序列比对进行DNA序列分析，避免了对目标基因组进行组装，可以...
基于众核协处理器的三级流水序列比对方法

【技术保护点】
一种基于众核协处理器的三级流水序列比对方法，其特征在于包括以下步骤：步骤1：CPU根据计算机主存可用空间大小M_CPU，以及DNA短序列所占空间大小M_DNA，将DNA短序列即read平均分为L组，L为正整数，表示对“x”向上取整；步骤2：在MIC即众核协处理器上声明三个指针变量：Seqs_ptr、Read_ptr和Write_ptr，并根据MIC上可用空间大小M_MIC以及参考基因组大小M_REF，在MIC上分别为三个指针分配同样大小的缓存空间，MIC上每块缓存空间大小M_SEQ＝(M_MIC‑M_REF)/3，其中Seqs_ptr指向的空间存储当前一组正在比对的序列，Read_ptr指向的空间存储下一组将要比对的序列，Write_ptr指向的空间存储上一组序列比对的结果；步骤3：CPU初始化循环变量i为零；步骤4：CPU将磁盘中L组read中的第i组读入主存中；步骤5：CPU根据MIC上Seqs_ptr指向的空间的大小M_SEQ，将读入主存中的read平均分为M小组，M为正整数，步骤6：CPU将循环变量m置为零；步骤7：CPU将主存中M个小组read中的第m组读到MIC的Seqs_...

【技术特征摘要】
1.一种基于众核协处理器的三级流水序列比对方法，其特征在于包括以下步骤：步骤1：CPU根据计算机主存可用空间大小M_CPU，以及DNA短序列所占空间大小M_DNA，将DNA短序列即read平均分为L组，L为正整数，表示对“x”向上取整；步骤2：在MIC即众核协处理器上声明三个指针变量：Seqs_ptr、Read_ptr和Write_ptr，并根据MIC上可用空间大小M_MIC以及参考基因组大小M_REF，在MIC上分别为三个指针分配同样大小的缓存空间，MIC上每块缓存空间大小M_SEQ＝(M_MIC-M_REF)/3，其中Seqs_ptr指向的空间存储当前一组正在比对的序列，Read_ptr指向的空间存储下一组将要比对的序列，Write_ptr指向的空间存储上一组序列比对的结果；步骤3：CPU初始化循环变量i为零；步骤4：CPU将磁盘中L组read中的第i组读入主存中；步骤5：CPU根据MIC上Seqs_ptr指向的空间的大小M_SEQ，将读入主存中的read平均分为M小组，M为正整数，步骤6：CPU将循环变量m置为零；步骤7：CPU将主存中M个小组read中的第m组读到MIC的Seqs_ptr指向的空间内；步骤8：根据MIC上可用计算核心数Core_MIC，以及MIC上每个计算核心支持的最大硬件线程数Thread_MIC，在MIC上同时启动N+2个线程，线程编号为0到N+1，N>0，为整数，N＝(Core_MIC-1)*Thread_MIC，其中MIC卡需要保留一个核心处理主存与MIC卡之间数据调度，N+2个线程并行执行以下步骤：步骤8.1：第0到第N-1号线程并行比对Seqs_ptr对应空间中的read，并将比较结果写入Seqs_ptr对应空间中；比对方法采用李恒在论文《Fastandaccurateshortreadalign...

【专利技术属性】
技术研发人员：廖湘科，朱小谦，崔英博，彭绍亮，邹丹，王恒，朱敏，刘欣，王海强，高明，
申请(专利权)人：中国人民解放军国防科学技术大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人