基于目标区域捕获测序的ctDNA甲基化水平预测装置及方法制造方法及图纸

技术编号:27462453 阅读:31 留言:0更新日期:2021-02-25 05:26
本发明专利技术提供了一种基于目标区域捕获测序的ctDNA甲基化水平预测装置及方法,装置中包括:FASTQ文件处理模块,用于获取待测ctDNA样本捕获测序的FASTQ文件,并处理得到过滤后的FASTQ文件;待测样本比对模块,用于将得到的FASTQ文件中的基因序列与参考基因组进行比对并去重,得到对应的Bam文件;reads水平过滤模块,用于根据预先设定的C

【技术实现步骤摘要】
基于目标区域捕获测序的ctDNA甲基化水平预测装置及方法


[0001]本专利技术涉及生物医学
,尤其涉及一种ctDNA甲基化水平预测装置及方法。

技术介绍

[0002]循环肿瘤DNA(circulating tumor,ctDNA)是一类来源于肿瘤细胞凋亡、坏死的DNA小片段,由肿瘤细胞释放到外周血循环后形成内源性单链或者双链DNA,携带有与原发肿瘤组织相一致的分子突变信息。因此,ctDNA样本检测可作为临床上组织样本基因检测的替代样本。
[0003]研究表明,表观遗传学变化是肿瘤形成最常见的分子变化之一。DNA甲基化是一种被广泛研究的表观遗传修饰方式,在调控基因表达等方面发挥了重要作用。通常地,DNA甲基化是指5-甲基胞嘧啶(5mC)在DNA甲基转移酶(DNMT)的作用下将甲基基团添加到胞嘧啶的5

C上形成的结构。研究表明,DNA甲基化参与细胞分化、组织特异性基因表达等细胞活动,异常的DNA甲基化会导致发育异常和肿瘤等疾病的发生。因此,DNA甲基化对个体发育和肿瘤的发生发展机制都具有重要意义。
[0004]随着二代测序技术的不断发展,其在人类遗传病和癌症诊断领域的应用越来越普遍,ctDNA的甲基化测序已经成为研究肿瘤发生发展机制的重要手段。然而,人类参考基因组大小为3G,进行全基因组甲基化测序成本过高,数据量较大。因此,目标区域捕获测序已成为科学研究中较为理想的方法。
[0005]当前传统的DNA甲基化捕获数据的质量检测过程一般为:将FASTQ格式的数据与人类参考基因组进行比对,保留高质量的唯一比对reads,并去除重复的reads,之后评估保留下的reads的碱基含量比例、捕获效率和测序深度,得到待测ctDNA样本的Bam文件,最后利用第三方软件对Bam文件进行分析得到待测ctDNA样本于CpG位点(胞嘧啶-磷酸-鸟嘌呤位点,即DNA序列中胞嘧啶后紧连鸟嘌呤的位点)的甲基化水平数据,直接用于后续的科学研究分析中。
[0006]在上述目标区域DNA甲基化捕获测序过程中需要进行重亚硫酸盐处理,将所有未甲基化的胞嘧啶(C)转化为尿嘧啶(U)及将尿嘧啶经过PCR(聚合酶链式反应,一种用于放大扩增特定的DNA片段的技术)扩增转变成胸腺嘧啶(T),但是发生甲基化的胞嘧啶在这个过程中不会发生改变。可知,这一过程中很可能出现未甲基化的胞嘧啶转化不完全的现象,进而导致待测ctDNA样本甲基化水平出现预测偏差。且由于ctDNA的含量很低,ctDNA样本的甲基化水平更容易受到C-T转化率的影响,进而影响检测结果的准确性。

技术实现思路

[0007]针对上述问题,本专利技术提供了一种基于目标区域捕获测序的ctDNA甲基化水平预测装置及方法,有效解决现有ctDNA甲基化水平预测中存在的准确性低、数据质量偏差大等缺陷。
[0008]本专利技术提供的技术方案如下:
一方面,本专利技术提供了一种基于目标区域捕获测序的ctDNA甲基化水平预测装置,包括:FASTQ文件处理模块,用于获取待测ctDNA样本捕获测序的FASTQ文件,并对其进行预处理操作得到过滤后的FASTQ文件;待测样本比对模块,用于将所述FASTQ文件处理模块得到的FASTQ文件中的基因序列与参考基因组进行比对并去重,得到对应的Bam文件;reads水平过滤模块,用于根据预先设定的C-T转化率对所述待测样本比对模块生成的Bam文件中的reads进行逐条过滤,得到过滤后的Bam文件;甲基化水平预测模块,用于根据目标区域Bed文件及预先设定的各reads中覆盖CpG位点的数量进一步对所述reads水平过滤模块输出的Bam文件进行过滤,并根据剩余reads对CpG位点的甲基化水平进行预测。
[0009]在本技术方案中,FASTQ为一种常见的高通量测序文件类型。reads为测序读长,测序仪测到的基因组或转录组序列片段。根据甲基化的C碱基所处的上下文环境,分为三种类型CpG、CHG和CHH,H代表除了G碱基之外的其他碱基,即A、C、T中的任意一种;CpG为甲基化的C的下游是1个G碱基,CHG代表甲基化的C下游的2个碱基是H和G,CHH表示甲基化的C下游的两个碱基都是H,CHG和CHH可以合称为non CpG context。Bam文件用来存储测序序列回贴到参考基因组的结果。C-T转化率为原始序列非CpG位点的C碱基转化为T碱基的比例。
[0010]进一步优选地,在所述FASTQ文件处理模块中,对获取的FASTQ文件进行的预处理操作包括:去除接头和低质量reads;和/或,在所述待测样本比对模块中,将所述FASTQ文件处理模块得到的FASTQ文件中的基因序列分别与人类参考基因组和内参lambda DNA参考基因组进行比对并去重,生成人类参考基因组的Bam文件、去重前的比对报告和去重后的比对报告,及内参lambda DNA参考基因组Bam文件、去重前的比对报告和去重后的比对报告。
[0011]进一步优选地,在所述reads水平过滤模块中,包括:甲基化数量统计单元,用于逐行读取所述待测样本比对模块生成的Bam文件中的reads,并对其non-CpG context模式下甲基化和非甲基化的碱基数量进行统计;C-T转化率计算单元,用于根据发生甲基化的non-CpG context的碱基数及non-CpG context碱基数总和对每条reads的C-T转化率进行计算;第一过滤单元,用于将Bam文件中C-T转化率小于预先设定的C-T转化率的reads滤除,得到滤后的Bam文件。
[0012]进一步优选地,在所述甲基化水平预测模块中,包括:第二过滤单元,用于根据目标区域Bed文件对dbSNP数据库中已知的SNP位点及因特定变异原因产生的SNP位点进行过滤得到待测ctDNA样本的CpG位点;及用于根据过滤得到的CpG位点及预先设定的各reads中覆盖CpG位点的数量进一步对所述reads水平过滤模块输出的Bam文件进行过滤;甲基化水平计算单元,用于根据第二过滤单元过滤后Bam文件剩余的reads计算CpG位点的甲基化水平。
[0013]另一方面,本专利技术提供了一种基于目标区域捕获测序的ctDNA甲基化水平预测方法,包括:
获取待测ctDNA样本捕获测序的FASTQ文件,并对其进行预处理操作得到过滤后的FASTQ文件;将得到的FASTQ文件中的基因序列与参考基因组进行比对并去重,得到对应的Bam文件;根据预先设定的C-T转化率对生成的Bam文件中的reads进行逐条过滤,得到过滤后的Bam文件;根据目标区域Bed文件及预先设定的各reads中覆盖CpG位点的数量对过滤后的Bam文件进一步过滤,并根据剩余reads对CpG位点的甲基化水平进行预测。
[0014]进一步优选地,在所述获取待测ctDNA样本捕获测序的FASTQ文件,并对其进行预处理操作得到过滤后的FASTQ文件中,包括:对获取的FASTQ文件进行去除接头和低质量reads操作;和/或,在将得到的FASTQ文件中的基因序列与参考基因组进行比对并去重,得到对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于目标区域捕获测序的ctDNA甲基化水平预测装置,其特征在于,包括:FASTQ文件处理模块,用于获取待测ctDNA样本捕获测序的FASTQ文件,并对其进行预处理操作得到过滤后的FASTQ文件;待测样本比对模块,用于将所述FASTQ文件处理模块得到的FASTQ文件中的基因序列与参考基因组进行比对并去重,得到对应的Bam文件;reads水平过滤模块,用于根据预先设定的C-T转化率对所述待测样本比对模块生成的Bam文件中的reads进行逐条过滤,得到过滤后的Bam文件;甲基化水平预测模块,用于根据目标区域Bed文件及预先设定的各reads中覆盖CpG位点的数量进一步对所述reads水平过滤模块输出的Bam文件进行过滤,并根据剩余reads对CpG位点的甲基化水平进行预测。2.如权利要求1所述的ctDNA甲基化水平预测装置,其特征在于,在所述FASTQ文件处理模块中,对获取的FASTQ文件进行的预处理操作包括:去除接头和低质量reads;和/或,在所述待测样本比对模块中,将所述FASTQ文件处理模块得到的FASTQ文件中的基因序列分别与人类参考基因组和内参lambda DNA参考基因组进行比对并去重,生成人类参考基因组的Bam文件、去重前的比对报告和去重后的比对报告,及内参lambda DNA参考基因组Bam文件、去重前的比对报告和去重后的比对报告。3.如权利要求1或2或所述的ctDNA甲基化水平预测装置,其特征在于,在所述reads水平过滤模块中,包括:甲基化数量统计单元,用于逐行读取所述待测样本比对模块生成的Bam文件中的reads,并对其non-CpG context模式下甲基化和非甲基化的碱基数量进行统计;C-T转化率计算单元,用于根据发生甲基化的non-CpG context的碱基数及non-CpG context碱基数总和对每条reads的C-T转化率进行计算;第一过滤单元,用于将Bam文件中C-T转化率小于预先设定的C-T转化率的reads滤除,得到滤后的Bam文件。4.如权利要求1或2或所述的ctDNA甲基化水平预测装置,其特征在于,在所述甲基化水平预测模块中,包括:第二过滤单元,用于根据目标区域Bed文件对dbSNP数据库中已知的SNP位点及因特定变异原因产生的SNP位点进行过滤得到待测ctDNA样本的CpG位点;及用于根据过滤得到的CpG位点及预先设定的各reads中覆盖CpG位点的数量进一步对所述reads水平过滤模块输出的Bam文件进行过滤;甲基化水平计算单元,用于根据第二过滤单元过滤后Bam文件剩余的reads计算CpG位点的甲基化水平。5.一种基于目标区域捕获测序的ctDNA甲基化水平预测方法,其特征在于,包括:获取待测ctDNA样本捕获测序的FASTQ文件,并对其进行预处理操作得到过滤后的FASTQ文件;将得到的FASTQ文件中的基因序列与...

【专利技术属性】
技术研发人员:韩天澄宋小凤于佳宁洪媛媛裴志华陈维之何骥杜波
申请(专利权)人:无锡臻和生物科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1