基于临床样本的染色质可及性数据分析方法技术

技术编号:26381361 阅读:28 留言:0更新日期:2020-11-19 23:50
本申请涉及一种基于临床样本的染色质可及性数据分析方法,以ATAC‑seq测序数据的研究作为出发点,以临床样本的应用为着眼点,构建了一个整合多种功能的ATAC‑seq测序数据分析流程。该流程既包含对单个临床样本的ATAC‑seq测序数据进行初步分析,也可对多组临床样本的ATAC‑seq测序数据进行全面分析,更包含了临床研究所需的转录因子分析及拷贝数变异分析等。本发明专利技术为临床多组间的染色质可及性数据分析,为寻找对应的临床生物标记物,以及针对临床病症用药具有积极作用。

【技术实现步骤摘要】
基于临床样本的染色质可及性数据分析方法
本申请涉及ATAC-seq
,特别是涉及一种基于临床样本的染色质可及性数据分析方法。
技术介绍
染色质可及性直接提供了RNA聚合酶、转录因子与DNA的结合,增强子和其他多种调节基因转录进程的信息。近年来,ATAC-seq在生物学或临床学的研究中的应用越来越多,如研究正常人和病人个性化的染色质开放状态的动态调控,细胞分化和发育等领域。ATAC-seq方法可以在使用较少的细胞量下,达到较高的坚持灵敏度,因此成为了当下染色质可及性最广泛使用的试验方法然而,随着ATAC-seq技术的推广,针对经ATAC-seq测序后输出的数据却乏数据分析方法。现有一些传统的ATAC-seq测序数据的分析方法,只是简单的对经ATAC-seq测序后输出的数据进行预处理与整合,缺少对这些数据的后续的分析方法,尤其是缺少可用于临床样本的全面分析多样品组之间的ATAC-seq测序数据的分析方法。
技术实现思路
基于此,有必要针对缺少可用于临床样本的全面分析多样品组之间的ATAC-seq测序数据的分析方法的问题,提供一种基于临床样本的染色质可及性数据分析方法。本申请提供一种基于临床样本的染色质可及性数据分析方法,包括:设定多个样本组,每个样本组包括多个临床样本;获取每一个临床样本经ATAC-seq测序后输出的原始测序文件;对所述原始测序文件进行数据处理,并对经数据处理后的原始测序文件进行质量控制分析,生成测序质量控制分析结果,并将所述测序质量控制分析结果可视化;获取每一个样本组的开放区域,并对每一个样本组的染色质开放区域进行信息注释;依据每一个样本组的开放区域,对多个样本组之间进行差异性分析、聚类分析、以及多组间相似性分析;依据前一步骤的分析结果,进行转录因子的富集分析,寻找富集的转录因子;选取与预设研究方向相关的转录因子,并对其进行结合印记分析;对每一个临床样本的原始测序文件进行去卷积化,获取每一个临床样本中,不同种类细胞的细胞数量占细胞总数的百分比;对每一个临床样本的原始测序文件进行CNV分析,获取不同临床样本之间的DNA片段差异信息,并将不同临床样本之间的DNA片段差异信息可视化。本申请涉及一种基于临床样本的染色质可及性数据分析方法,以ATAC-seq测序数据的研究作为出发点,以临床样本的应用为着眼点,构建了一个整合多种功能的ATAC-seq测序数据分析流程。该流程既包含对单个临床样本的ATAC-seq测序数据进行初步分析,也可对多组临床样本的ATAC-seq测序数据进行全面分析,更包含了临床研究所需的转录因子分析及拷贝数变异分析等。本专利技术为临床多组间的染色质可及性数据分析,为寻找对应的临床生物标记物,以及针对临床病症用药具有积极作用。附图说明图1为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法的方法流程图;图2为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法中的转录起始位点富集分析图;图3为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法中的测序片段分布分析图;图4为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法中的染色质比对结果可视化图;图5为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法中的染色质开放区域注释图;图6为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法中的组间差异性区域展示图;图7为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法中的组间差异性开放区域聚类分析图;图8为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法中的样本间聚类分析图;图9为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法中的组间相似性检验图;图10为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法中的转录因子富集分析图;图11为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法中的转录因子富集分数聚类分析图;图12为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法中的选定转录因子模体区域测序片段热图;图13为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法中的细胞种类比例去卷积分析图;图14为本申请一实施例提供的基于临床样本的染色质可及性数据分析方法中的拷贝数变异分析图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供一种基于临床样本的染色质可及性数据分析方法。本申请提供的基于临床样本的染色质可及性数据分析方法,应用于对经ATAC-seq测序后输出的数据的分析。此外,本申请提供的基于临床样本的染色质可及性数据分析方法,不限制其执行主体。可选地,本申请提供的基于临床样本的染色质可及性数据分析方法的执行主体,可以为一种染色质可及性数据分析终端。如图1所示,在本申请的一实施例中,所述基于临床样本的染色质可及性数据分析方法,包括如下步骤S100至步骤S900:S100,设定多个样本组。每个样本组包括多个临床样本。S200,获取每一个临床样本经ATAC-seq测序后输出的原始测序文件。S300,对所述原始测序文件进行数据处理。进一步地,对经数据处理后的原始测序文件进行质量控制分析,生成测序质量控制分析结果,并将所述测序质量控制分析结果可视化。可视化的结果请参见图4。S400,获取每一个样本组的开放区域,并对每一个样本组的染色质开放区域进行信息注释。S500,依据每一个样本组的开放区域,对多个样本组之间进行差异性分析、聚类分析、以及多组间相似性分析。S600,依据所述步骤S500的分析结果,进行转录因子的富集分析,寻找富集的转录因子。S700,选取与预设研究方向相关的转录因子,并对其进行结合印记分析。S800,对每一个临床样本的原始测序文件进行去卷积化,获取每一个临床样本中,不同种类细胞的细胞数量占细胞总数的百分比。S900,对每一个临床样本的原始测序文件进行CNV分析,获取不同临床样本之间的DNA片段差异信息,并将不同临床样本之间的DNA片段差异信息可视化。具体地,所述样本组的数量不做限制。每一个样本组包括的临床样本数量不做限制。可选地,可以设定一个样本组作为对照组,其他样本组作为实验组。在所述步骤S900中,CNV分析的原理是利用原始测序文件中的背景噪音,去定义染色质不同DNA片段位置上的平均覆盖率,并通过该平均覆盖率评估不同染色质的拷贝数变异,以及不同染色质的不同DNA片段的拷贝数变异。通过步骤S900中的CNV分析,可以探究不同样本之间的DNA片段差异,为临床的一些病症的诊断提供参考,间接的从原始测本文档来自技高网...

【技术保护点】
1.一种基于临床样本的染色质可及性数据分析方法,其特征在于,包括:/nS100,设定多个样本组,每个样本组包括多个临床样本;/nS200,获取每一个临床样本经ATAC-seq测序后输出的原始测序文件;/nS300,对所述原始测序文件进行数据处理,并对经数据处理后的原始测序文件进行质量控制分析,生成测序质量控制分析结果,并将所述测序质量控制分析结果可视化;/nS400,获取每一个样本组的开放区域,并对每一个样本组的染色质开放区域进行信息注释;/nS500,依据每一个样本组的开放区域,对多个样本组之间进行差异性分析、聚类分析、以及多组间相似性分析;/nS600,依据所述步骤S500的分析结果,进行转录因子的富集分析,寻找富集的转录因子;/nS700,选取与预设研究方向相关的转录因子,并对其进行结合印记分析;/nS800,对每一个临床样本的原始测序文件进行去卷积化,获取每一个临床样本中,不同种类细胞的细胞数量占细胞总数的百分比;/nS900,对每一个临床样本的原始测序文件进行CNV分析,获取不同临床样本之间的DNA片段差异信息,并将不同临床样本之间的DNA片段差异信息可视化。/n

【技术特征摘要】
1.一种基于临床样本的染色质可及性数据分析方法,其特征在于,包括:
S100,设定多个样本组,每个样本组包括多个临床样本;
S200,获取每一个临床样本经ATAC-seq测序后输出的原始测序文件;
S300,对所述原始测序文件进行数据处理,并对经数据处理后的原始测序文件进行质量控制分析,生成测序质量控制分析结果,并将所述测序质量控制分析结果可视化;
S400,获取每一个样本组的开放区域,并对每一个样本组的染色质开放区域进行信息注释;
S500,依据每一个样本组的开放区域,对多个样本组之间进行差异性分析、聚类分析、以及多组间相似性分析;
S600,依据所述步骤S500的分析结果,进行转录因子的富集分析,寻找富集的转录因子;
S700,选取与预设研究方向相关的转录因子,并对其进行结合印记分析;
S800,对每一个临床样本的原始测序文件进行去卷积化,获取每一个临床样本中,不同种类细胞的细胞数量占细胞总数的百分比;
S900,对每一个临床样本的原始测序文件进行CNV分析,获取不同临床样本之间的DNA片段差异信息,并将不同临床样本之间的DNA片段差异信息可视化。


2.根据权利要求1所述的基于临床样本的染色质可及性数据分析方法,其特征在于,所述步骤S300包括:
S310,选取一个临床样本的原始测序文件,去除该原始测序文件中adapter序列,并对去除adapter序列后的原始测序文件进行染色质比对和格式转换,生成测序信息文件;
S320,对所述测序信息文件进行转录起始位点富集分析和测序片段分布分析,生成所述临床样本的转录起始位点富集分析图和测序片段分布分析图;
S330,基于染色质比对的结果,生成染色质比对结果可视化图;
S340,反复执行所述步骤S310至步骤S330,生成每一个临床样本的测序信息文件、转录起始位点富集分析图、测序片段分布分析图和染色质比对结果可视化图;
S350,将一个样本组中的多个临床样本的测序信息文件合并为一个组测序信息文件,对所述组测序信息文件进行转录起始位点富集分析和测序片段分布分析,生成所述样本组的转录起始位点富集分析图和测序片段分布分析图;
S360,反复执行所述步骤S350,生成每一个样本组的组测序信息文件、转录起始位点富集分析图和测序片段分布分析图。


3.根据权利要求2所述的基于临床样本的染色质可及性数据分析方法,其特征在于,所述步骤S400包括:
S410,基于每一个样品组的组测序信息文件,利用MACS2算法,获取每一个样本组的多个潜在染色质开放区域;
S420,基于倍数差异参数、染色质开放区域P_value和FDR中的一种或多种参数,从多个潜在染色质开放区域中筛选出染色质开放区域;
S430,将所有样本组的染色质开放区域合并,生成开放区域列表;
S440,计算每一个临床样本在每一个染色质开放区域上的测序读长数目,生成第一读长数目矩阵;



其中,H为第一读长数目矩阵,M为染色质开放区域的序号,N为样本的序号,XMN为第N个样本在第M个染色质开放区域上的测序读长数据;
S450,对每一个样本组的染色质开放区域进行位置注释和基因组功能注释,生成染色质开放区域注释图;所述位置注释包括启动增强子注释、异染色质区域注释和功能注释注释中的一种或多种;所述基因组功能注释通过GREAT算法注释基因功能。


4.根据权利要求3所述的基于临床样本的染色质可及性数据分析方法,其特征在于,所述步骤S500包括:
S511,对所述第一读长数目矩阵进行归一化分析;
S512,依据归一化分析后的第一读长数目矩阵,在多个样本组之间两两进行差异性分析,得到组间差异性开放区域,生成组间差异性区域展示图;所述组间差异性开放区域为两个样本组之间有显著性差异的染色质开放性区域;
S513,计算每一个临床样本在每一个组间差异性开放区域上的测序读长数目,生成第二读长数目矩阵;



其中,M为第二读长数目矩阵,K为组间差异性开放区域的序号,N为临床样本的序号,YKN为第N个样本在第K个组间差异性开放区域上的测序读长数据。


5.根据权利要求4所述的基于临床样本的染色质可及性数据...

【专利技术属性】
技术研发人员:方靖文瞿昆李杨朱连邦
申请(专利权)人:杭州瀚因生命科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1