【技术实现步骤摘要】
一种基于UMI
‑
tools和Spark的单细胞上游大数据处理方法
[0001]本专利技术涉及数据处理
,特别涉及一种基于UMI
‑
tools和Spark的单细胞上游大数据处理方法。
技术介绍
[0002]目前使用最广泛的三种基于液滴的协议(Drop
‑
seq、inDrop和10XChromium)均是利用对细胞条形码和独特分子标识符这两个生物信息进行特定的处理以完成定量估计,其仅通过一次实验就能对大量的细胞进行测序,并产生大量的原始FASTQ数据,而FASTQ数据文件是整个数据处理流程的起点。
[0003]对于高通量单细胞RNA测序(scRNA
‑
seq)数据来说,在分析scRNA
‑
seq数据前,需要先将原始的FASTQ类型的测序文件转化成可读的数据,也就是将原始FASTQ数据整理成基因表达矩阵以供下游分析,该过程包括条形码处理、序列质量控制、基因组比对和转录本量化。当前,研究者们已经开发了一些可以在单机环境下运行的软 ...
【技术保护点】
【技术特征摘要】
1.一种基于UMI
‑
tools和Spark的单细胞上游大数据处理方法,其特征在于:包括如下步骤:S1、通过HadoopBAM的接口读取FASTQ R1和FASTQ R2文件,并分别抽象为FASTQ R1数据集和FASTQ R2数据集;S2、从所述FASTQ R2数据集筛选出待处理的FASTQ数据集;S3、利用软件STAR将所述待处理的FASTQ数据集转化为SAM数据集;S4、读取GTF数据集和所述SAM数据集,分别根据各自记录中的染色体名进行聚合分组,得到GTF数据集组和SAM数据集组;S5、将所述GTF数据集组和SAM数据集组中具有相同染色体名的SAM记录和GTF记录进行拼接,并计数;S6、将计数的结果保存为结果文件。2.如权利要求1所述的一种基于UMI
‑
tools和Spark的单细胞上游大数据处理方法,其特征在于:所述步骤S2中的从所述FASTQ R2数据集筛选出待处理的FASTQ数据集,具体为:S21、根据所述FASTQ ...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。