【技术实现步骤摘要】
用于确定DNA样本甲基化水平的方法、设备和存储介质
本公开总体上涉及生物信息处理,并且具体地,涉及确定DNA样本的甲基化水平的方法、计算设备和计算机存储介质。
技术介绍
DNA甲基化是最早被发现、也是目前研究最深入的表观遗传调控机制之一。所谓的表观遗传是指在基因的DNA序列不发生改变的情况下,基因的表达水平与功能发生改变,并可遗传给后代的现象。所谓的DNA甲基化,一般是指在DNA甲基化转移酶的作用下,在基因组CpG(即,胞嘧啶C-磷酸p-鸟嘌呤G的二核苷酸结构)二核苷酸的C碱基第五位碳原子(胞嘧啶C为一个六原子环状结构,环上含2个N原子和4个C原子,并按固定顺序标记为编号1-6,第五位碳原子即为编号为5的C原子)的位置以共价键的形式结合一个甲基基团的化学修饰过程。人类基因组含有大约1%的已甲基化的胞嘧啶,因此其是最丰富、最广泛的DNA修饰方式。基因区域内的CpG位点通过甲基化的方式影响基因转录活性,从而调控基因表达。在肿瘤细胞中,普遍存在着与正常细胞不同的DNA甲基化水平的改变,主要特点是总体甲基化水平的降低与局部甲基化水平的升高。在肿瘤细胞中,原癌基因(即,细胞内与细胞增殖相关的基因)处于低甲基化水平而被激活,抑癌基因(即,肿瘤抑制基因,其是一类存在于正常细胞内可抑制细胞生长并具有潜在抑癌作用的基因)处于高甲基化水平而被抑制,从而导致肿瘤细胞的过度增殖。因此,准确测量和计算DNA甲基化水平至关重要。目前检测样本甲基化水平最常用的建库技术是重亚硫酸盐转化技术。即用重亚硫酸盐处理样本DNA,所有未发生甲 ...
【技术保护点】
1.一种用于确定DNA样本的甲基化水平的方法,包括:/n过滤所接收的关于DNA样本的测序数据,以便留下符合预定条件的测序数据;/n将所留下的测序数据分别与所述DNA样本相对应的参考基因组和质控序列的基因组进行比对,以便生成比对到所述参考基因组的正链和负链的第一比对结果数据,以及比对到所述质控序列的基因组的正链和负链的第二比对结果数据;/n提取所述第一比对结果数据中预定标识符合第一预定阈值的预定位点的reads,以便生成第一提取信息;/n提取所述第一比对结果数据中预定标识符合第二预定阈值的所述预定位点的reads,以便生成第二提取信息;/n基于所述参考基因组的正链和负链的各所述预定位点,分别统计所述第一提取信息中的碱基的数量和所述第二提取信息中的碱基的数量,所述预定位点属于预定的位点集合;/n基于所述第一提取信息中的碱基的数量和所述第二提取信息中的碱基的数量,计算关于所述参考基因组的各预定位点的甲基化水平;以及/n基于所述第二比对结果数据,确定关于所述DNA样本的甲基化的转化效率和错误率中的至少一个,以用于确定所述DNA样本的甲基化水平。/n
【技术特征摘要】 【专利技术属性】
1.一种用于确定DNA样本的甲基化水平的方法,包括:
过滤所接收的关于DNA样本的测序数据,以便留下符合预定条件的测序数据;
将所留下的测序数据分别与所述DNA样本相对应的参考基因组和质控序列的基因组进行比对,以便生成比对到所述参考基因组的正链和负链的第一比对结果数据,以及比对到所述质控序列的基因组的正链和负链的第二比对结果数据;
提取所述第一比对结果数据中预定标识符合第一预定阈值的预定位点的reads,以便生成第一提取信息;
提取所述第一比对结果数据中预定标识符合第二预定阈值的所述预定位点的reads,以便生成第二提取信息;
基于所述参考基因组的正链和负链的各所述预定位点,分别统计所述第一提取信息中的碱基的数量和所述第二提取信息中的碱基的数量,所述预定位点属于预定的位点集合;
基于所述第一提取信息中的碱基的数量和所述第二提取信息中的碱基的数量,计算关于所述参考基因组的各预定位点的甲基化水平;以及
基于所述第二比对结果数据,确定关于所述DNA样本的甲基化的转化效率和错误率中的至少一个,以用于确定所述DNA样本的甲基化水平。
2.根据权利要求1所述的方法,还包括:
基于所述第二比对结果数据,统计所述质控序列的基因组的正链和负链的各所述预定位点的A、C、G、T四种碱基的数量,以便计算与所述质控序列的基因组相关联的各预定位点的甲基化水平。
3.根据权利要求2所述的方法,其中统计所述质控序列的基因组的正链和负链的各所述预定位点的A、C、G、T四种碱基的数量包括:
提取所述第二比对结果数据中预定标识符合所述第一预定阈值的预定位点的reads,以便生成第三提取信息;
提取所述第二比对结果数据中预定标识符合所述第二预定阈值的所述预定位点的reads,以便生成第四提取信息;以及
基于所述质控序列的基因组的正链和负链的各所述预定位点,分别统计所述第三提取信息中的A、C、G、T四种碱基的数量和所述第四提取信息中的A、C、G、T四种碱基的数量,以用于计算与所述质控序列的基因组相关联的各预定位点的甲基化水平。
4.根据权利要求1中任一所述的方法,其中分别统计所述第一提取信息中的碱基的数量和所述第二提取信息中的碱基的数量包括:
统计所述第一提取信息中的A、C、G、T四种碱基的数量;以及
统计所述第二提取信息中的A、C、G、T四种碱基的数量。
5.根据权利要求4所述的方法,其中基于所述第一提取信息中的碱基的数量和所述第二提取信息中的碱基的数量,计算关于所述参考基因组的各预定位点的甲基化水平包括:
计算第二提取信息中的对应位点的C、T两种碱基的总数量;
计算第一提取信息中的对应位点的G、A两种碱基的总数量;以及
基于第二提取信息中的对应位点的C碱基的数量,第一提取信息中的对应位点的G碱基的数量,第二提取信息中的对应位点的C、T两种碱基的总数量,以及第一提取信息中的对应位点的G、A两种碱基的总数量,计算所述对应位点的甲基化水平,以便获得关于所述参考基因组的各预定位点的甲基化水平。
技术研发人员:石教春,燕嘉慧,姚继成,王维锋,
申请(专利权)人:至本医疗科技上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。