基于转录组测序数据的变异检测并行化分析方法和系统技术方案

技术编号:39801176 阅读:17 留言:0更新日期:2023-12-22 02:32
本发明专利技术公开了一种基于转录组测序数据的变异检测并行化分析方法,该方法包括以下步骤:

【技术实现步骤摘要】
基于转录组测序数据的变异检测并行化分析方法和系统


[0001]本专利技术属于生物信息大数据领域,具体涉及一种基于转录组测序数据的变异检测并行化分析方法和系统


技术介绍

[0002]转录组测序数据的变异检测分析的主要任务是将转录组数据比对到参考转录组需要跨越转录剪切位点

因此,转录组数据变异检测的核心在于跨剪切位点的精准序列比对

然而,由于转录组数据较大和比对算法的复杂度较高,导致在进行转录组数据变异检测时存在比对效率低,计算耗时长的问题


技术实现思路

[0003]本专利技术的目的是针对现有技术的不足而提供一种基于转录组测序数据的变异检测并行化分析方法和系统,该方法可提高转录数据变异检测时的比对效率和减少计算耗时

[0004]有鉴于此,本申请提供了一种基于转录组测序数据的变异检测并行化分析方法和系统,该方法包括以下步骤:
S1
:构建第一次索引数据库;
S2
:第一次转录组并行化比对计算;
>S3
:基本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
基于转录组测序数据的变异检测并行化分析方法,其特征在于,该方法包括以下步骤:
S1
:构建第一次索引数据库;
S2
:第一次转录组并行化比对计算;
S3
:基于第一次转录组并行化比对计算结果构建第二次索引数据库;
S4
:第二次转录组并行化比对计算;
S5
:数据格式转化,将
S4
中比对计算结果输出为
SAM
文件后进行处理,转换成
BAM
格式,并标记为
duplicate

S6
:切除内含子区间的
reads
片段并调整
MAPQ

S7
:对已知的
indel
区域附近的
reads
重新比对;
S8
:碱基质量再校准;
S9
:变异检测;
S10
:变异检测结果过滤,获得最终变异检测结果
。2.
根据权利要求1所述的基于转录组测序数据的变异检测并行化分析方法,其特征在于,在步骤
S1
前还包括,基于宿主机安装部署
Spark
集群,并在所述
Spark
集群的管理节点安装
Picard

GATK
软件,并在各计算节点安装
STAR
软件;在步骤
S1
,第一次构建索引数据库是基于
STAR
软件构建转录组数据对应物种的参考转录组比对索引数据库
。3.
根据权利要求2所述的基于转录组测序数据的变异检测并行化分析方法,其特征在于,在所述步骤
S2
中,第一次转录组并行化比对计算包括基因数据读取

数据分片

数据分发

数据并行计算

结果合并输出;所述基因数据读取包括:在所述
Spark
集群的各计算节点上和所述
Hadoop
集群的
HDFS
上创建相同目录下的相同文件夹;把步骤
S1
中构建的第一次索引数据库文件和转录组测序数据分别上传于所述
Spark
集群的各计算节点和所述
Hadoop
集群的
HDFS
对应目录下,并基于
Spark
集群读取转录组测序数据,并通过基因片段之间的分隔符进行识别所述转录组测序数据文件中的所有片段信息;所述数据分片包括:根据所述
Spark
集群的各计算节点数量确定分片数目,并对读取的所述转录组测序数据文件进行分片处理;所述数据分发包括:基于所述
Hadoop

...

【专利技术属性】
技术研发人员:高静刘振羽左东石
申请(专利权)人:内蒙古农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1