一种基于转录组数据的并行化定量分析方法技术

技术编号：39785682 阅读：11 留言：0更新日期：2023-12-22 02:26

本发明专利技术公开了一种基于转录组数据的并行化定量分析方法

全部详细技术资料下载

【技术实现步骤摘要】
一种基于转录组数据的并行化定量分析方法、系统及介质

[0001]本专利技术涉及生物数据信息大数据处理
，尤其是涉及一种基于转录组数据的并行化定量分析方法
、
系统及介质
。

技术介绍

[0002]在生物信息数据处理
中，转录组的定量分析是重要的组成部分，转录组的定量分析主要包括基因独臂和转录本水平定量分析过程
。
然而，由于转录本测序数据的数据规模通常规模较大，以及实验样本的数量规模大，导致转录本的定量分析存在效率低和耗时长的问题
。
另外，转录组定量分析所涉及的软件工具全是基于
Linux
系统运行，导致其适用范围较小，用户使用不便
。
[0003]因此，如何解决上述技术问题，成为本领域技术人员需要面对的难题
。

技术实现思路

[0004]本专利技术提供一种基于转录组数据的并行化定量分析方法
、
系统及介质，用以解决相关技术中转录组数据定量分析的效率低
、
适用范围小的技术问题
。
[0005]第一方面，本专利技术的一个实施例提供了一种基于转录组数据的并行化定量分析方法，其包括以下步骤：获取待转录组数据信息，并通过
Bowtie2
软件获得所述待转录组数据信息对应物种的参考基因组比对索引数据库文件；在
Spark
集群的多个计算节点和
Hadoop
的
HDFS
上分别创建相同目录下...

【技术保护点】

【技术特征摘要】
1.
一种基于转录组数据的并行化定量分析方法，其特征在于，包括以下步骤：获取待转录组数据信息，并通过
Bowtie2
软件获得所述待转录组数据信息对应物种的参考基因组比对索引数据库文件；在
Spark
集群的多个计算节点和
Hadoop
的
HDFS
上分别创建相同目录下的相同文件夹；将所述待转录组数据信息和所述参考基因组比对索引数据库文件分别上传至所述多个计算节点对应的目录和所述
HDFS
对应的目录下；确定所述多个计算节点的节点数量信息，根据所述节点数量信息对所述待转录组数据信息进行分片处理；基于
Hadoop
的
YARN
资源管理器对分片的计算任务进行分发，并计算资源分配；通过
pipe
函数调用本地
Bowtie2
软件，并启动
Spark
集群上各计算节点的并行比对计算任务；合并所述并行比对计算任务的结果，并输出于
Spark

【专利技术属性】
技术研发人员：高静，刘振羽，冯晓龙，郭建男，
申请(专利权)人：内蒙古农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人