【技术实现步骤摘要】
基于临床样本的染色质可及性数据分析方法
本申请涉及ATAC-seq
,特别是涉及一种基于临床样本的染色质可及性数据分析方法。
技术介绍
染色质可及性直接提供了RNA聚合酶、转录因子与DNA的结合,增强子和其他多种调节基因转录进程的信息。近年来,ATAC-seq在生物学或临床学的研究中的应用越来越多,如研究正常人和病人个性化的染色质开放状态的动态调控,细胞分化和发育等领域。ATAC-seq方法可以在使用较少的细胞量下,达到较高的坚持灵敏度,因此成为了当下染色质可及性最广泛使用的试验方法然而,随着ATAC-seq技术的推广,针对经ATAC-seq测序后输出的数据却乏数据分析方法。现有一些传统的ATAC-seq测序数据的分析方法,只是简单的对经ATAC-seq测序后输出的数据进行预处理与整合,缺少对这些数据的后续的分析方法,尤其是缺少可用于临床样本的全面分析多样品组之间的ATAC-seq测序数据的分析方法。
技术实现思路
基于此,有必要针对缺少可用于临床样本的全面分析多样品组之间的ATAC-seq测序数据的分析方法的问题,提供一种基于临床样本的染色质可及性数据分析方法。本申请提供一种基于临床样本的染色质可及性数据分析方法,包括:设定多个样本组,每个样本组包括多个临床样本;获取每一个临床样本经ATAC-seq测序后输出的原始测序文件;对所述原始测序文件进行数据处理,并对经数据处理后的原始测序文件进行质量控制分析,生成测序质量控制分析结果,并将所述测序质量控制分 ...
【技术保护点】
1.一种基于临床样本的染色质可及性数据分析方法,其特征在于,包括:/nS100,设定多个样本组,每个样本组包括多个临床样本;/nS200,获取每一个临床样本经ATAC-seq测序后输出的原始测序文件;/nS300,对所述原始测序文件进行数据处理,并对经数据处理后的原始测序文件进行质量控制分析,生成测序质量控制分析结果,并将所述测序质量控制分析结果可视化;/nS400,获取每一个样本组的开放区域,并对每一个样本组的染色质开放区域进行信息注释;/nS500,依据每一个样本组的开放区域,对多个样本组之间进行差异性分析、聚类分析、以及多组间相似性分析;/nS600,依据所述步骤S500的分析结果,进行转录因子的富集分析,寻找富集的转录因子;/nS700,选取与预设研究方向相关的转录因子,并对其进行结合印记分析;/nS800,对每一个临床样本的原始测序文件进行去卷积化,获取每一个临床样本中,不同种类细胞的细胞数量占细胞总数的百分比;/nS900,对每一个临床样本的原始测序文件进行CNV分析,获取不同临床样本之间的DNA片段差异信息,并将不同临床样本之间的DNA片段差异信息可视化。/n
【技术特征摘要】
1.一种基于临床样本的染色质可及性数据分析方法,其特征在于,包括:
S100,设定多个样本组,每个样本组包括多个临床样本;
S200,获取每一个临床样本经ATAC-seq测序后输出的原始测序文件;
S300,对所述原始测序文件进行数据处理,并对经数据处理后的原始测序文件进行质量控制分析,生成测序质量控制分析结果,并将所述测序质量控制分析结果可视化;
S400,获取每一个样本组的开放区域,并对每一个样本组的染色质开放区域进行信息注释;
S500,依据每一个样本组的开放区域,对多个样本组之间进行差异性分析、聚类分析、以及多组间相似性分析;
S600,依据所述步骤S500的分析结果,进行转录因子的富集分析,寻找富集的转录因子;
S700,选取与预设研究方向相关的转录因子,并对其进行结合印记分析;
S800,对每一个临床样本的原始测序文件进行去卷积化,获取每一个临床样本中,不同种类细胞的细胞数量占细胞总数的百分比;
S900,对每一个临床样本的原始测序文件进行CNV分析,获取不同临床样本之间的DNA片段差异信息,并将不同临床样本之间的DNA片段差异信息可视化。
2.根据权利要求1所述的基于临床样本的染色质可及性数据分析方法,其特征在于,所述步骤S300包括:
S310,选取一个临床样本的原始测序文件,去除该原始测序文件中adapter序列,并对去除adapter序列后的原始测序文件进行染色质比对和格式转换,生成测序信息文件;
S320,对所述测序信息文件进行转录起始位点富集分析和测序片段分布分析,生成所述临床样本的转录起始位点富集分析图和测序片段分布分析图;
S330,基于染色质比对的结果,生成染色质比对结果可视化图;
S340,反复执行所述步骤S310至步骤S330,生成每一个临床样本的测序信息文件、转录起始位点富集分析图、测序片段分布分析图和染色质比对结果可视化图;
S350,将一个样本组中的多个临床样本的测序信息文件合并为一个组测序信息文件,对所述组测序信息文件进行转录起始位点富集分析和测序片段分布分析,生成所述样本组的转录起始位点富集分析图和测序片段分布分析图;
S360,反复执行所述步骤S350,生成每一个样本组的组测序信息文件、转录起始位点富集分析图和测序片段分布分析图。
3.根据权利要求2所述的基于临床样本的染色质可及性数据分析方法,其特征在于,所述步骤S400包括:
S410,基于每一个样品组的组测序信息文件,利用MACS2算法,获取每一个样本组的多个潜在染色质开放区域;
S420,基于倍数差异参数、染色质开放区域P_value和FDR中的一种或多种参数,从多个潜在染色质开放区域中筛选出染色质开放区域;
S430,将所有样本组的染色质开放区域合并,生成开放区域列表;
S440,计算每一个临床样本在每一个染色质开放区域上的测序读长数目,生成第一读长数目矩阵;
其中,H为第一读长数目矩阵,M为染色质开放区域的序号,N为样本的序号,XMN为第N个样本在第M个染色质开放区域上的测序读长数据;
S450,对每一个样本组的染色质开放区域进行位置注释和基因组功能注释,生成染色质开放区域注释图;所述位置注释包括启动增强子注释、异染色质区域注释和功能注释注释中的一种或多种;所述基因组功能注释通过GREAT算法注释基因功能。
4.根据权利要求3所述的基于临床样本的染色质可及性数据分析方法,其特征在于,所述步骤S500包括:
S511,对所述第一读长数目矩阵进行归一化分析;
S512,依据归一化分析后的第一读长数目矩阵,在多个样本组之间两两进行差异性分析,得到组间差异性开放区域,生成组间差异性区域展示图;所述组间差异性开放区域为两个样本组之间有显著性差异的染色质开放性区域;
S513,计算每一个临床样本在每一个组间差异性开放区域上的测序读长数目,生成第二读长数目矩阵;
其中,M为第二读长数目矩阵,K为组间差异性开放区域的序号,N为临床样本的序号,YKN为第N个样本在第K个组间差异性开放区域上的测序读长数据。
5.根据权利要求4所述的基于临床样本的染色质可及性数据...
【专利技术属性】
技术研发人员:方靖文,瞿昆,李杨,朱连邦,
申请(专利权)人:杭州瀚因生命科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。