一种基于GPU加速的宏基因组物种定丰方法技术

技术编号：36804398 阅读：62 留言：0更新日期：2023-03-09 00:05

本发明专利技术公开了一种基于GPU加速的宏基因组物种定丰方法，首先分析用户输入的需求，根据用户的输入参数，确定计算的方式；随后进行初始化，检查文件的完整性和版本，以此来确保本发明专利技术的稳定运行；确保完稳定性后，进行数据准备，为后续的GPU计算做准备，将所有的数据都存储在numpy格式的数组中；当前期的数据准备完成后，会通过python的numba包调用GPU，先将数据传输给GPU，然后进行两次GPU调用计算，前者作为中间结果，后者输出最终的每一个clade的相对丰度；最后本发明专利技术会根据用户输出的参数选择输出的文件格式，并保存在用户输入的保存文件中。本发明专利技术极大地提高了宏基因组分析的整体效率，准确性也在同类型的宏基因组分析软件中表现良好，具有很强的现实意义。具有很强的现实意义。具有很强的现实意义。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于GPU加速的宏基因组物种定丰方法

[0001]本专利技术属于计算机
，具体涉及一种宏基因组物种定丰方法。

技术介绍

[0002]图形处理器(Graphics Processing Unit)又称显示核心、显卡、视觉处理器、显示芯片或绘图芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备上执行绘图运算工作的微处理器。GPU通常具有数百或数千个内核，经过优化，可并行运行大量计算。虽然GPU在游戏中以3D渲染而闻名，但它们对运行分析、深度学习和机器学习算法尤其有用，GPU允许某些计算比传统CPU上运行相同的计算速度快10倍至100倍。
[0003]GPU的三个核心思想：
[0004]1.电路精简：GPU上处理的运算整体似一个流式过程，没有很多的分支条件和复杂依赖关系，因此可以直接去掉相关电路，只保留“取指令”、“指令译码”、“ALU”及执行计算所需的寄存器和缓存即可。
[0005]2.多核并行和SIMT：由于GPU的运算是天然并行的，因此不需要像CPU那样去通过多线程来实现并行计算，只需在同一个GPU中集成很多组并行的GPU电路即可。
[0006]3.GPU中的超线程：GPU发展为一个通用计算架构后，它需要支持分支运算，但是分支预测相关的电路却被精简了，因此也会遇到类似“流水线停顿”的问题，GPU通过类似“超线程”的技术来解决这个问题，就是为不同的任务提供更多的执行上下文，因此一个core里面执行上下文数量多于ALU。
[0007]通过以上三方面优化的GPU更擅长...

【技术保护点】

【技术特征摘要】
1.一种基于GPU加速的宏基因组物种定丰方法，其特征在于，包括如下步骤：步骤1：初始化；读取用户输入；检查bowtie2的数据库和metaphlan的数据库是否安装，如果没有安装，或者数据库版本不是最新的，则自动安装；并且检查bowtie2是否是可执行的，如果没有安装bowtie2，则提醒用户安装；读取用户输入的文件类型，如果input_type是fasta或fastq类型，则调用bowtie2进行处理，将其转换为bowtie2out类型；在调用bowtie2之前，检查bowtie2的文件完整性、数据完整性；步骤2：数据准备；步骤2
‑
1：读取pkl数据；读取metaphlan的数据库中的pkl文件，pkl文件中包含了宏基因组中marker和clade基因的对应关系，并在读取之后进行存储；步骤2：初始化npy文件；在首次运行宏基因组物种定丰过程时，初始化生成npy文件，具体为：将宏基因组物种定丰过程中的数据全部转为numpy格式，再将numpy格式的数据列表保存为npy文件；步骤3：前期数据准备；将所有在GPU上计算的数据全部存储在numpy数组中，包括：创建marker与reads之间的对应关系，每一个marker可以对应多个read，但每个read只会对应唯一的一个marker；创建每一个clade对应的父子关系...

【专利技术属性】
技术研发人员：徐韬，王璇，苏萌，张译，伊浩圆，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人