【技术实现步骤摘要】
一种检测样本污染率的方法及装置
[0001]本专利技术涉及生物信息学领域,具体涉及一种检测样本污染率的方法及装置。
技术介绍
[0002]DNA甲基化是最早发现的基因表观修饰方式之一,可能存在于所有高等生物中,能够在不改变基因序列的前提下,改变遗传现象。它是基因调控的手段之一,即通过对位于启动子及第一外显子区的CpG岛的甲基化而抑制基因的表达,对生命活动非常重要。相比于普通的测序技术,甲基化测序会导致DNA上面的碱基信息改变。主流的甲基化测序方法是使用重亚硫酸盐处理,会导致非甲基化的C碱基变换成T。而新的甲基化测序方法,TET酶和吡啶硼烷结合处理的方法(TAPS)会导致甲基化的C碱基变换成T。
[0003]目前,甲基化测序在肿瘤基因组中的应用越来越多,因此对于甲基化测序污染率的探索极其重要。甲基化测序样本污染主要存在三种情况,即个体内、不同个体间以及跨物种间的污染。跨物种间的污染比较容易解决,因为可以通过评估样本比对到物种参考基因组的情况,推测污染率的占比。但是同一物种不同个体间的污染则难以发现,因为污染可能发生在许多意想不到的场合,比如:样品存储过程中,收集样本的容器被污染;样品运输过程中,容器密封不严导致样本外溢;以及实验室人为操作制备过程中,不同样本移液时忘记更换枪尖或未使用带滤芯枪尖。
[0004]在现有的甲基化测序过程中,检测和计算样本间污染率对于甲基化测序的下游分析非常重要,即使只是少量的污染,也会导致分析结果出现许多假阳性或者假阴性,特别是在肿瘤与正常甲基化测序样本的比对研究中。因此,甲 ...
【技术保护点】
【技术特征摘要】
1.一种检测样本污染率的方法,其特征在于,包括:位点MAF提取步骤,包括提取待测样本的测序数据中的SNP位点在数据库中的最小等位基因频率;过滤步骤,包括过滤去除不符合条件的SNP位点;错误率计算步骤,包括计算不同碱基替换的错误率;似然值计算步骤,包括计算待测样本在不同污染率下的似然值;候选污染率计算步骤,包括根据每个SNP位点计算的似然值对数与位点深度计算加权平均值,选择加权平均值最大的似然值对应的污染率为候选污染率;优化步骤,包括根据优化函数优化所述候选污染率,获得最终的样本污染率。2.如权利要求1所述的方法,其特征在于,所述位点MAF提取步骤中,将SNP位点映射到数据库的文件中,如果该位点存在,则保留该位点,并提取数据库中该位点的等位基因信息;如果该位点不存在,则删除该位点;或,所述位点MAF提取步骤中,如果该位点存在,则提取其在数据库中的等位基因信息以及人群频率;或,所述位点MAF提取步骤中,如果该位点存在,则提取其在数据库中的最小等位基因频率;或,所述位点MAF提取步骤中,所述数据库包括dbSNP数据库、HapMap数据库中的至少一种。3.如权利要求1所述的方法,其特征在于,所述过滤步骤中,包括过滤并确定SNP位点深度、基因型、位点先验污染概率和背景噪音读段数;或,所述过滤步骤中,如果SNP位点的等位基因不是T、C、G、A或者N,则过滤去除该位点;或,所述过滤步骤中,计算该位点主要等位基因的读段数占该位点主要等位基因的读段数与该位点次要等位基因的读段数的加和的比例,记为主要占比;计算该位点的次要等位基因的读段数占该位点主要等位基因的读段数与该位点次要等位基因的读段数的加和的比例,记为次要占比;根据所述主/次要占比判断样本基因型;或,如果主要占比小于杂合子位点的限制阈值,则将相应基因型判定为“1/1”;如果次要占比小于杂合子位点的限制阈值,则将相应基因型判定为“0/0”;其他则为“0/1”;或,所述限制阈值为0.25。4.如权利要求3所述的方法,其特征在于,所述过滤步骤中,如果基因型为“0/0”,背景噪音读段计数为次要占比乘以位点深度,该位点的先验污染率为1
‑
[1
‑
(MAF)]2;如果基因型为“1/1”,背景噪音读段计数为主要占比乘以位点深度,该位点的先验污染率为1
‑
(MAF)2;如果基因型为“0/1”,背景噪音读段计数为主要占比、次要占比中的最小值乘以位点深度,该位点的先验污染率为1
‑
[2
×
(MAF)
×
(1
‑
MAF)]。5.如权利要求1所述的方法,其特征在于,所述错误率计算步骤中,对待测样本的测序数据中纯合子基因型进行分析,计算所述纯合子基因型中主等位基因的碱基为X、次等位基因的对应位置的碱...
【专利技术属性】
技术研发人员:陈华东,黄毅,林浩翔,杨玲,易鑫,
申请(专利权)人:深圳吉因加医学检验实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。