本发明专利技术公开了一种基于转录组数据的并行化定量分析方法
【技术实现步骤摘要】
一种基于转录组数据的并行化定量分析方法、系统及介质
[0001]本专利技术涉及生物数据信息大数据处理
,尤其是涉及一种基于转录组数据的并行化定量分析方法
、
系统及介质
。
技术介绍
[0002]在生物信息数据处理
中,转录组的定量分析是重要的组成部分,转录组的定量分析主要包括基因独臂和转录本水平定量分析过程
。
然而,由于转录本测序数据的数据规模通常规模较大,以及实验样本的数量规模大,导致转录本的定量分析存在效率低和耗时长的问题
。
另外,转录组定量分析所涉及的软件工具全是基于
Linux
系统运行,导致其适用范围较小,用户使用不便
。
[0003]因此,如何解决上述技术问题,成为本领域技术人员需要面对的难题
。
技术实现思路
[0004]本专利技术提供一种基于转录组数据的并行化定量分析方法
、
系统及介质,用以解决相关技术中转录组数据定量分析的效率低
、
适用范围小的技术问题
。
[0005]第一方面,本专利技术的一个实施例提供了一种基于转录组数据的并行化定量分析方法,其包括以下步骤:获取待转录组数据信息,并通过
Bowtie2
软件获得所述待转录组数据信息对应物种的参考基因组比对索引数据库文件;在
Spark
集群的多个计算节点和
Hadoop
的
HDFS
上分别创建相同目录下的相同文件夹;将所述待转录组数据信息和所述参考基因组比对索引数据库文件分别上传至所述多个计算节点对应的目录和所述
HDFS
对应的目录下;确定所述多个计算节点的节点数量信息,根据所述节点数量信息对所述待转录组数据信息进行分片处理;基于
Hadoop
的
YARN
资源管理器对分片的计算任务进行分发,并计算资源分配;通过
pipe
函数调用本地
Bowtie2
软件,并启动
Spark
集群上各计算节点的并行比对计算任务;合并所述并行比对计算任务的结果,并输出于
Spark
集群的管理节点的本地目录;调用
RSEM
计算脚本,启动转录组定量计算任务,进而获得最终转录组定量分析结果
。
[0006]本专利技术实施例的基于转录组数据的并行化定量分析方法至少具有如下有益效果:本专利技术实施例中一种基于转录组数据的并行化定量分析方法,其获取到待转录组数据信息后,通过数据读取
、
数据分片
、
数据分发
、
数据并行计算
、
结果合并输出;解决了相关技术中,转录组数据定量分析的效率低
、
适用范围小的技术问题,提供了一种高效
、
便捷
、
适用性强的基于转录组数据的并行化定量分析方法
。
[0007]根据本专利技术的另一些实施例的基于转录组数据的并行化定量分析方法,所述参考基因组比对索引数据库文件为
fastq
文件
。
[0008]第二方面,本专利技术的另一个实施例提供了一种基于转录组数据的并行化定量分析系统,其包括:装部署有
Spark
集群的宿主机;其中,所述
Spark
集群的各个节点均安装有
Bowtie2
软件和
RSEM
软件;所述
Bowtie2
软件接收到待转录组数据信息后,执行前述基于转录组数据的并行化定量分析方法,进而获得转录组定量分析结果
。
[0009]第三方面,本专利技术的另一个实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于转录组数据的并行化定量分析方法
。
附图说明
[0010]图1是本专利技术实施例一种基于转录组数据的并行化定量分析方法的一具体实施例流程图;图2是本专利技术实施例一种基于转录组数据的并行化定量分析系统的一具体实施例结构示意图
。
具体实施方式
[0011]以下将结合实施例对专利技术的构思及产生的技术效果进行清楚
、
完整地描述,以充分地理解本专利技术的目的
、
特征和效果
。
显然,所描述的实施例只是本专利技术的一部分实施例,而不是全部实施例,基于本专利技术的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本专利技术保护的范围
。
[0012]在本专利技术实施例的描述中,如果涉及到“若干”,其含义是一个以上,如果涉及到“多个”,其含义是两个以上,如果涉及到“大于”、“小于”、“超过”,均应理解为不包括本数,如果涉及到“以上”、“以下”、“以内”,均应理解为包括本数
。
如果涉及到“第一”、“第二”,应当理解为用于区分技术特征,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系
。
[0013]参照图1,本专利技术实施例一种基于转录组数据的并行化定量分析方法,其包括以下步骤:
S100、
获取待转录组数据信息,并通过
Bowtie2
软件获得待转录组数据信息对应物种的参考基因组比对索引数据库文件;
S200、
在
Spark
集群的多个计算节点和
Hadoop
的
HDFS
上分别创建相同目录下的相同文件夹;
S300、
将待转录组数据信息和参考基因组比对索引数据库文件分别上传至所述多个计算节点对应的目录和所述
HDFS
对应的目录下;
S400、
确定多个计算节点的节点数量信息,根据节点数量信息对待转录组数据信息进行分片处理;
S500、
基于
Hadoop
的
YARN
资源管理器对分片的计算任务进行分发,并计算资源分配;
S600、
通过
pipe
函数调用本地
Bowtie2
软件,并启动
Spark
集群上各计算节点的并行比对计算任务;
S700、
合并并行比对计算任务的结果,并输出于
Spark
集群的管理节点的本地目录;
S800、
调用
RSEM
计算脚本,启动转录组定量计算任务,进而获得最终转录组定量分析结果
。
[0014]本实施例中,其获取到待转录组数据信息后,根据数据迁移请求信息获取待迁移数据信息,并建立起数据迁移通道;通过数据读取
、
数据分片
、
数据分发
、
数据并行计算<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于转录组数据的并行化定量分析方法,其特征在于,包括以下步骤:获取待转录组数据信息,并通过
Bowtie2
软件获得所述待转录组数据信息对应物种的参考基因组比对索引数据库文件;在
Spark
集群的多个计算节点和
Hadoop
的
HDFS
上分别创建相同目录下的相同文件夹;将所述待转录组数据信息和所述参考基因组比对索引数据库文件分别上传至所述多个计算节点对应的目录和所述
HDFS
对应的目录下;确定所述多个计算节点的节点数量信息,根据所述节点数量信息对所述待转录组数据信息进行分片处理;基于
Hadoop
的
YARN
资源管理器对分片的计算任务进行分发,并计算资源分配;通过
pipe
函数调用本地
Bowtie2
软件,并启动
Spark
集群上各计算节点的并行比对计算任务;合并所述并行比对计算任务的结果,并输出于
Spark
【专利技术属性】
技术研发人员:高静,刘振羽,冯晓龙,郭建男,
申请(专利权)人:内蒙古农业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。