一种RNA-Seq测序数据分析方法技术

技术编号:35475623 阅读:19 留言:0更新日期:2022-11-05 16:23
本发明专利技术公开一种RNA

【技术实现步骤摘要】
一种RNA

Seq测序数据分析方法


[0001]本专利技术涉及生物信息
,更具体地说,本专利技术涉及一种转录组学二代测序RNA

Seq数据的生物信息分析方法。

技术介绍

[0002]转录组学是组织、细胞在某种特定条件下转录出的全部RNA。转录组学分析是从RNA水平探究基因表达情况,通过对这些RNA的分析可以探究基因的转录情况和转录调控的规律,它是探究特定条件下细胞表型与功能的一个重要方法。近些年,随着测序技术的不断发展,下一代测序成本不断降低,使得越来越多的研究单位开始将RNA

Seq技术应用到转录组学的研究,从而获取全转录本的基因表达信息。
[0003]随着RNA

Seq技术应用的大量增多,如何高效、快捷、方便地分析处理这些测序下机数据,从中挖掘有价值的知识成为当前急需解决的问题。由于从下机数据预处理到获取基因表达信息,以及下游一些常规数据处理涉及大量不同软件、程序包,这些软件和包的安装以及依赖的运行环境安装比较复杂,对于它们的使用也需要足够的生物信息基础和编程能力,这对于很多刚接触RNA

Seq的研究人员具有很大挑战。另外,出于高效运行的目的也需要搭建一个流程将不同的软件、包进行整合。目前,虽然已经出现几个RNA

seq的数据分析流程,如RASflow、snakePipes,但是这些流程存在以下一些问题:1.技术门槛高,不利于没有较多生物信息学基础人员使用;2.环境配置复杂,数据分析各阶段软件所需运行环境配置较为复杂,可移植性差,在不同系统、设备、软件版本的情况可能存在运行问题;3.对转录组学下游分析仅停留在差异表达分析,且为软件默认结果图,可视化效果差,图片不能作为正式报告使用;4.缺少对测序数据质量的汇总统计。
[0004]针对以上问题,研究一种简单、易用、模块化、高移植性的RNA

Seq测序数据分析方法,减少研究人员使用门槛,提高他们从RNA

Seq数据中获取知识的效率,是非常有必要的。

技术实现思路

[0005]针对上述技术中存在的不足之处,本专利技术提供一种RNA

Seq测序数据分析方法,通过封装了RNA

Seq数据预处理、基因差异表达分析及可视化、富集分析等常用分析运行环境设置,开箱即用,方便部署,简单、易用、模块化、高移植性的RNA

Seq数据分析流程,减少研究人员使用门槛,提高研究人员从RNA

Seq数据中获取知识的效率。
[0006]为了实现根据本专利技术的这些目的和其它优点,本专利技术通过以下技术方案实现:
[0007]本专利技术实施例提供一种RNA

Seq测序数据分析方法,其包括以下步骤:
[0008]安装一个可移植的应用容器,其封装有RNA

Seq数据分析所需的所有脚本、依赖资源、软件组件;
[0009]以所述应用容器为平台拉取构建的容器镜像并根据其构建一流程容器;
[0010]载入所述流程容器运行所需的运行环境,调用所述流程容器中封装的全局脚本,生成一个数据分析项目对RNA

Seq数据进行数据分析;
[0011]其中,生成一个数据分析项目对RNA

Seq数据进行数据分析包括步骤:
[0012]运行全局脚本,创建一个数据分析项目文件夹,其设有一一对应存放原始测序数据、流程各步骤分析的结果和中间文件、流程运行日志信息以及最终生成报告的若干个数据分析项目子文件夹;所述数据分析项目文件夹还生成有流程运行依赖的配置文件、样本信息表和流程脚本;
[0013]导入待分析的RNA

Seq测序数据,根据其填充所述样本信息表,根据需要可选的修改所述配置文件;
[0014]启动分析自动化流程,开展运行前检测、模块化分析以及分析报告自动生成;所述模块化分析的分析模块至少包括质控、比对、计数、差异表达分析、分组比较、富集分析中的一个。
[0015]优选的是,调用所述流程容器中封装的全局脚本时,还传入一个位置参数,用于定义数据分析项目工作区的存放位置。
[0016]优选的是,运行全局脚本,创建一个数据分析项目文件夹时,所述全局脚本需要提供数据分析项目名称和分析数据类型,所述分析数据类型是双端测序或单端测序。
[0017]优选的是,所述样本信息表的第一列为对应输入的RNA

Seq测序数据的样本名,第二列为每个样本对应的分组名。
[0018]优选的是,修改所述配置文件包括更换不同的比对方法和/或差异表达分析方法,和/或指定运行的至少一个所述分析模块。
[0019]优选的是,所述运行前检查包括步骤:
[0020]根据自定义检查所述全局脚本,检查所述配置文件的运行参数与样本是否匹配、运行参数是否符合运行逻辑条件,并根据样本分组信息将所述样本名和对应所述分组名自动写入所述配置文件。
[0021]优选的是,所述质量控制包括步骤:
[0022]统计原始RNA

Seq测序数据质量,使用自定义脚本统计各样本测序质量情况汇总表;
[0023]比对NCBI rRNA序列,去除所述原始RNA

Seq测序数据中rRNA污染;
[0024]对去污后的RNA

Seq测序数据进行质量控制,使用自定义脚本统计各样本质控后测序质量情况汇总表;
[0025]其中,所述样本测序质量情况汇总表至少包括样本名、读段长度、读段数、GC比例、Q20比例、Q30比例的统计;
[0026]所述质量控制包括过滤低质量的碱基和序列、去除接头污染;
[0027]所述样本质控后测序质量情况汇总表至少包括样本名、读段数、碱基数、读段长度、Q20比例、Q30比例、GC比例和读段通过比例的统计。
[0028]优选的是,所述比对包括:
[0029]将质控后测序数据的各个读段比对到参考基因组或者转录组;
[0030]对比对的结果进行排序;
[0031]生成BAM文件;
[0032]其中,所述比对的数据库和比对方法,在所述配置文件中可选择和可修改,首次使用所述比对的数据库进行分析时,流程在线下载并部署。
[0033]优选的是,所述计数包括如下步骤:
[0034]将比对后各样本BAM文件各转录本读段数进行计数汇总,生成前表达矩阵;
[0035]根据自定义脚本,使用对应gtf文件中基因映射关系将转录本编码转换为基因编码,得到最终的表达矩阵;
[0036]根据所述配置文件选择需要在后续分析中保留的基因类型,剔除与分析无关的基因。
[0037]优选的是,所述差异表达分析包括如下步骤:
[0038]对所述最终的表达矩阵进行差异表达分析,生成一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种RNA

Seq测序数据分析方法,其特征在于,其包括以下步骤:安装一个可移植的应用容器,其封装有RNA

Seq数据分析所需的所有脚本、依赖资源、软件组件;以所述应用容器为平台拉取构建的容器镜像并根据其构建一流程容器;载入所述流程容器运行所需的运行环境,调用所述流程容器中封装的全局脚本,生成一个数据分析项目对RNA

Seq数据进行数据分析;其中,生成一个数据分析项目对RNA

Seq数据进行数据分析包括步骤:运行全局脚本,创建一个数据分析项目文件夹,其设有一一对应存放原始测序数据、流程各步骤分析的结果和中间文件、流程运行日志信息以及最终生成报告的若干个数据分析项目子文件夹;所述数据分析项目文件夹还生成有流程运行依赖的配置文件、样本信息表和流程脚本;导入待分析的RNA

Seq测序数据,根据其填充所述样本信息表,根据需要可选的修改所述配置文件;启动分析自动化流程,开展运行前检测、模块化分析以及分析报告自动生成;所述模块化分析的分析模块至少包括质控、比对、计数、差异表达分析、分组比较、富集分析中的一个。2.如权利要求1所述的RNA

Seq测序数据分析方法,其特征在于,调用所述流程容器中封装的全局脚本时,还传入一个位置参数,用于定义数据分析项目工作区的存放位置。3.如权利要求1所述的RNA

Seq测序数据分析方法,其特征在于,运行全局脚本,创建一个数据分析项目文件夹时,所述全局脚本需要提供数据分析项目名称和分析数据类型,所述分析数据类型是双端测序或单端测序。4.如权利要求1所述的RNA

Seq测序数据分析方法,其特征在于,所述样本信息表的第一列为对应输入的RNA

Seq测序数据的样本名,第二列为每个样本对应的分组名。5.如权利要求1所述的RNA

Seq测序数据分析方法,其特征在于,修改所述配置文件包括更换不同的比对方法和/或差异表达分析方法,和/或指定运行的至少一个所述分析模块。6.如权利要求4所述的RNA

Seq测序数据分析方法,其特征在于,所述运行前检查包括步骤:根据自定义检查所述全局脚本,检查...

【专利技术属性】
技术研发人员:叶本晨昝明辉王东安帅刘莹吴再辉李潇亮刘树然
申请(专利权)人:郑州中科生物医学工程技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1