用于确定DNA样本甲基化水平的方法、设备和存储介质技术

技术编号:26767881 阅读:31 留言:0更新日期:2020-12-18 23:45
本公开涉及一种用于确定DNA样本的甲基化水平的方法、计算设备和存储介质。该方法包括:将经过滤所留下的测序数据分别与DNA样本参考基因组和质控序列基因组比对,生成第一和第二比对结果数据;基于预定标识符合第一预定阈值的预定位点的reads生成第一提取信息,基于预定标识符合第二预定阈值的预定位点的reads生成第二提取信息;基于参考基因组正链和负链各预定位点,分别统计第一提取信息和第二提取信息中的碱基计算参考基因组各预定位点的甲基化水平;基于第二比对结果数据确定转化效率和/或错误率,以确定DNA样本的甲基化水平。本公开能够快速准确计算得到DNA样本的甲基化水平。

【技术实现步骤摘要】
用于确定DNA样本甲基化水平的方法、设备和存储介质
本公开总体上涉及生物信息处理,并且具体地,涉及确定DNA样本的甲基化水平的方法、计算设备和计算机存储介质。
技术介绍
DNA甲基化是最早被发现、也是目前研究最深入的表观遗传调控机制之一。所谓的表观遗传是指在基因的DNA序列不发生改变的情况下,基因的表达水平与功能发生改变,并可遗传给后代的现象。所谓的DNA甲基化,一般是指在DNA甲基化转移酶的作用下,在基因组CpG(即,胞嘧啶C-磷酸p-鸟嘌呤G的二核苷酸结构)二核苷酸的C碱基第五位碳原子(胞嘧啶C为一个六原子环状结构,环上含2个N原子和4个C原子,并按固定顺序标记为编号1-6,第五位碳原子即为编号为5的C原子)的位置以共价键的形式结合一个甲基基团的化学修饰过程。人类基因组含有大约1%的已甲基化的胞嘧啶,因此其是最丰富、最广泛的DNA修饰方式。基因区域内的CpG位点通过甲基化的方式影响基因转录活性,从而调控基因表达。在肿瘤细胞中,普遍存在着与正常细胞不同的DNA甲基化水平的改变,主要特点是总体甲基化水平的降低与局部甲基化水平的升高。在肿瘤细胞中,原癌基因(即,细胞内与细胞增殖相关的基因)处于低甲基化水平而被激活,抑癌基因(即,肿瘤抑制基因,其是一类存在于正常细胞内可抑制细胞生长并具有潜在抑癌作用的基因)处于高甲基化水平而被抑制,从而导致肿瘤细胞的过度增殖。因此,准确测量和计算DNA甲基化水平至关重要。目前检测样本甲基化水平最常用的建库技术是重亚硫酸盐转化技术。即用重亚硫酸盐处理样本DNA,所有未发生甲基化的胞嘧啶C被转化为尿嘧啶U,而已甲基化的胞嘧啶C则保持不变;然后经PCR扩增过后,尿嘧啶U会转换为胸腺嘧啶T,已甲基化的胞嘧啶C依然保持不变,从而将原始DNA中未甲基化的胞嘧啶C和已甲基化的胞嘧啶C区分开来,进而统计各CpG位点的胞嘧啶C的甲基化水平。传统的确定DNA样本甲基化水平的方案例如是焦磷酸甲基化测序技术,焦磷酸测序技术是由4种酶(DNA聚合酶、ATP硫酸化酶、荧光素酶和三磷酸腺苷双磷酸酶)催化的同一反应体系中的酶级联化学发光反应,可准确测量每个位点的甲基化水平,同时可评估一段区域内的整体甲基化水平。焦磷酸甲基化测序技术能够快速地检测CpG位点甲基化的频率,对样品中的甲基化位点进行定性及定量检测。不过,焦磷酸甲基化测序及后期生信处理技术所存在的不足之处例如包括:测试周期长,正常情况下,焦磷酸甲基化确定技术例如需要针对比对结果中参考基因组所有位点逐一统计其碱基数量以用于甲基化水平计算,因此需要耗费较多时间用于数据统计与计算,例如从实验开始需要至少一周的时间才能拿到关于甲基化水平的计算结果。另外,焦磷酸甲基化测序及后期生信处理技术的稳定性不太理想,例如,同一样本、不同公司检测得出的结果会有所不同,有时甚至差异很大,而且同一公司、同一样本在不同时间检测得出的结果有时也会有所差异。此外,焦磷酸甲基化测序技术还存在长度限制和DNA用量大的不足之处,例如,待检测序列的长度一般为几十个碱基,最多不超过一百个碱基。若需检测较长序列则需要多次实验或平行实验(即,同一样本同时进行多组实验,每一组的条件均有所差异;这里是指每一组检测的序列位置不同,从而达到同时检测较长序列的目的)。在DNA用量方面,一般需至少1ug的DNA片段才可用于实验。综上,在传统的确定DNA样本甲基化水平的方案中,存在确定周期长、结果的稳定性欠佳,长度限制和DNA用量大的不足之处。
技术实现思路
本公开提供一种确定DNA样本的甲基化水平的方法、计算设备和计算机存储介质,能够快速准确计算得到DNA样本的甲基化水平。根据本公开的第一方面,提供了一种确定DNA样本的甲基化水平的方法。该方法包括:过滤所接收的关于DNA样本的测序数据,以便留下符合预定条件的测序数据;将所留下的测序数据分别与DNA样本相对应的参考基因组和质控序列的基因组进行比对,以便生成比对到参考基因组的正链和负链的第一比对结果数据,以及比对到质控序列的基因组的正链和负链的第二比对结果数据;提取第一比对结果数据中预定标识符合第一预定阈值的预定位点的reads,以便生成第一提取信息;提取第一比对结果数据中预定标识符合第二预定阈值的预定位点的reads,以便生成第二提取信息;基于参考基因组的正链和负链的各预定位点,分别统计第一提取信息中的碱基的数量和第二提取信息中的碱基的数量,预定位点属于预定的位点集合;基于第一提取信息中的碱基的数量和第二提取信息中的碱基的数量,计算关于参考基因组的各预定位点的甲基化水平;以及基于第二比对结果数据,确定关于DNA样本的甲基化的转化效率和错误率中的至少一个,以用于确定DNA样本的甲基化水平。根据本专利技术的第二方面,还提供了一种计算设备,该设备包括:存储器,被配置为存储一个或多个计算机程序;以及处理器,耦合至存储器并且被配置为执行一个或多个程序使装置执行本公开的第一方面的方法。根据本公开的第三方面,还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令,该机器可执行指令在被执行时使机器执行本公开的第一方面的方法。在一些实施例中,确定DNA样本的甲基化水平的方法还包括:基于第二比对结果数据,统计质控序列的基因组的正链和负链的各预定位点的A、C、G、T四种碱基的数量,以便计算与质控序列的基因组相关联的各预定位点的甲基化水平。在一些实施例中,统计质控序列的基因组的正链和负链的各预定位点的A、C、G、T四种碱基的数量包括:提取第二比对结果数据中预定标识符合第一预定阈值的预定位点的reads,以便生成第三提取信息;提取第二比对结果数据中预定标识符合第二预定阈值的预定位点的reads,以便生成第四提取信息;基于质控序列的基因组的正链和负链的各预定位点,分别统计第三提取信息中的A、C、G、T四种碱基的数量和第四提取信息中的A、C、G、T四种碱基的数量,以用于计算与质控序列的基因组相关联的各预定位点的甲基化水平。在一些实施例中,分别统计第一提取信息中的碱基的数量和第二提取信息中的碱基的数量包括:统计第一提取信息中的A、C、G、T四种碱基的数量;以及统计第二提取信息中的A、C、G、T四种碱基的数量。在一些实施例中,基于第一提取信息中的碱基的数量和第二提取信息中的碱基的数量,计算关于参考基因组的各预定位点的甲基化水平包括:计算第二提取信息中的对应位点的C、T两种碱基的总数量;计算第一提取信息中的对应位点的G、A两种碱基的总数量;基于第二提取信息中的对应位点的C碱基的数量,第一提取信息中的对应位点的G碱基的数量,第二提取信息中的对应位点的C、T两种碱基的总数量,以及第一提取信息中的对应位点的G、A两种碱基的总数量,计算对应位点的甲基化水平,以便获得关于参考基因组的各预定位点的甲基化水平。在一些实施例中,计算与质控序列的基因组相关联的各位点的甲基化水平包括:计算第四提取信息中的对应位点的C、T两种碱基的总数量;计算第三提取信息中的对应位点的G、A两种碱基的总数量;基于第四提取信息中的对应本文档来自技高网
...

【技术保护点】
1.一种用于确定DNA样本的甲基化水平的方法,包括:/n过滤所接收的关于DNA样本的测序数据,以便留下符合预定条件的测序数据;/n将所留下的测序数据分别与所述DNA样本相对应的参考基因组和质控序列的基因组进行比对,以便生成比对到所述参考基因组的正链和负链的第一比对结果数据,以及比对到所述质控序列的基因组的正链和负链的第二比对结果数据;/n提取所述第一比对结果数据中预定标识符合第一预定阈值的预定位点的reads,以便生成第一提取信息;/n提取所述第一比对结果数据中预定标识符合第二预定阈值的所述预定位点的reads,以便生成第二提取信息;/n基于所述参考基因组的正链和负链的各所述预定位点,分别统计所述第一提取信息中的碱基的数量和所述第二提取信息中的碱基的数量,所述预定位点属于预定的位点集合;/n基于所述第一提取信息中的碱基的数量和所述第二提取信息中的碱基的数量,计算关于所述参考基因组的各预定位点的甲基化水平;以及/n基于所述第二比对结果数据,确定关于所述DNA样本的甲基化的转化效率和错误率中的至少一个,以用于确定所述DNA样本的甲基化水平。/n

【技术特征摘要】
1.一种用于确定DNA样本的甲基化水平的方法,包括:
过滤所接收的关于DNA样本的测序数据,以便留下符合预定条件的测序数据;
将所留下的测序数据分别与所述DNA样本相对应的参考基因组和质控序列的基因组进行比对,以便生成比对到所述参考基因组的正链和负链的第一比对结果数据,以及比对到所述质控序列的基因组的正链和负链的第二比对结果数据;
提取所述第一比对结果数据中预定标识符合第一预定阈值的预定位点的reads,以便生成第一提取信息;
提取所述第一比对结果数据中预定标识符合第二预定阈值的所述预定位点的reads,以便生成第二提取信息;
基于所述参考基因组的正链和负链的各所述预定位点,分别统计所述第一提取信息中的碱基的数量和所述第二提取信息中的碱基的数量,所述预定位点属于预定的位点集合;
基于所述第一提取信息中的碱基的数量和所述第二提取信息中的碱基的数量,计算关于所述参考基因组的各预定位点的甲基化水平;以及
基于所述第二比对结果数据,确定关于所述DNA样本的甲基化的转化效率和错误率中的至少一个,以用于确定所述DNA样本的甲基化水平。


2.根据权利要求1所述的方法,还包括:
基于所述第二比对结果数据,统计所述质控序列的基因组的正链和负链的各所述预定位点的A、C、G、T四种碱基的数量,以便计算与所述质控序列的基因组相关联的各预定位点的甲基化水平。


3.根据权利要求2所述的方法,其中统计所述质控序列的基因组的正链和负链的各所述预定位点的A、C、G、T四种碱基的数量包括:
提取所述第二比对结果数据中预定标识符合所述第一预定阈值的预定位点的reads,以便生成第三提取信息;
提取所述第二比对结果数据中预定标识符合所述第二预定阈值的所述预定位点的reads,以便生成第四提取信息;以及
基于所述质控序列的基因组的正链和负链的各所述预定位点,分别统计所述第三提取信息中的A、C、G、T四种碱基的数量和所述第四提取信息中的A、C、G、T四种碱基的数量,以用于计算与所述质控序列的基因组相关联的各预定位点的甲基化水平。


4.根据权利要求1中任一所述的方法,其中分别统计所述第一提取信息中的碱基的数量和所述第二提取信息中的碱基的数量包括:
统计所述第一提取信息中的A、C、G、T四种碱基的数量;以及
统计所述第二提取信息中的A、C、G、T四种碱基的数量。


5.根据权利要求4所述的方法,其中基于所述第一提取信息中的碱基的数量和所述第二提取信息中的碱基的数量,计算关于所述参考基因组的各预定位点的甲基化水平包括:
计算第二提取信息中的对应位点的C、T两种碱基的总数量;
计算第一提取信息中的对应位点的G、A两种碱基的总数量;以及
基于第二提取信息中的对应位点的C碱基的数量,第一提取信息中的对应位点的G碱基的数量,第二提取信息中的对应位点的C、T两种碱基的总数量,以及第一提取信息中的对应位点的G、A两种碱基的总数量,计算所述对应位点的甲基化水平,以便获得关于所述参考基因组的各预定位点的甲基化水平。

【专利技术属性】
技术研发人员:石教春燕嘉慧姚继成王维锋
申请(专利权)人:至本医疗科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1