一种检测样本污染率的方法及装置制造方法及图纸

技术编号:34975279 阅读:23 留言:0更新日期:2022-09-21 14:16
一种检测样本污染率的方法及装置,该方法包括:位点MAF提取步骤,包括提取待测样本的测序数据中的位点在数据库中的MAF;过滤步骤,包括过滤去除不符合条件的SNP位点;错误率计算步骤,包括计算不同碱基替换的错误率;似然值计算步骤,包括计算待测样本在不同污染率下的似然值;候选污染率计算步骤,包括根据每个SNP位点计算的似然值对数与位点深度计算加权平均值,选择加权平均值最大的似然值对应的污染率为候选污染率;优化步骤,包括根据优化函数优化候选污染率,获得最终的样本污染率。该方法的分析结果可信度高。法的分析结果可信度高。

【技术实现步骤摘要】
一种检测样本污染率的方法及装置


[0001]本专利技术涉及生物信息学领域,具体涉及一种检测样本污染率的方法及装置。

技术介绍

[0002]DNA甲基化是最早发现的基因表观修饰方式之一,可能存在于所有高等生物中,能够在不改变基因序列的前提下,改变遗传现象。它是基因调控的手段之一,即通过对位于启动子及第一外显子区的CpG岛的甲基化而抑制基因的表达,对生命活动非常重要。相比于普通的测序技术,甲基化测序会导致DNA上面的碱基信息改变。主流的甲基化测序方法是使用重亚硫酸盐处理,会导致非甲基化的C碱基变换成T。而新的甲基化测序方法,TET酶和吡啶硼烷结合处理的方法(TAPS)会导致甲基化的C碱基变换成T。
[0003]目前,甲基化测序在肿瘤基因组中的应用越来越多,因此对于甲基化测序污染率的探索极其重要。甲基化测序样本污染主要存在三种情况,即个体内、不同个体间以及跨物种间的污染。跨物种间的污染比较容易解决,因为可以通过评估样本比对到物种参考基因组的情况,推测污染率的占比。但是同一物种不同个体间的污染则难以发现,因为污染可能发生在许多意想不到的场合,比如:样品存储过程中,收集样本的容器被污染;样品运输过程中,容器密封不严导致样本外溢;以及实验室人为操作制备过程中,不同样本移液时忘记更换枪尖或未使用带滤芯枪尖。
[0004]在现有的甲基化测序过程中,检测和计算样本间污染率对于甲基化测序的下游分析非常重要,即使只是少量的污染,也会导致分析结果出现许多假阳性或者假阴性,特别是在肿瘤与正常甲基化测序样本的比对研究中。因此,甲基化测序数据的样本间污染需要严格控制,但是遗憾的是,目前并没有相关软件或者流程能够实现对甲基化测序数据的污染率评估。如何实现对甲基化测序数据的污染率评估是目前亟待解决的问题。

技术实现思路

[0005]根据第一方面,在一实施例中,提供一种检测样本污染率的方法,包括:
[0006]位点MAF提取步骤,包括提取待测样本的测序数据中的SNP位点在数据库中的最小等位基因频率(MAF);
[0007]过滤步骤,包括过滤去除不符合条件的SNP位点;
[0008]错误率计算步骤,包括计算不同碱基替换的错误率;
[0009]似然值计算步骤,包括计算待测样本在不同污染率下的似然值;
[0010]候选污染率计算步骤,包括根据每个SNP位点计算的似然值对数与位点深度计算加权平均值,选择加权平均值最大的似然值对应的污染率为候选污染率;
[0011]优化步骤,包括根据优化函数优化所述候选污染率,获得最终的样本污染率。
[0012]根据第二方面,在一实施例中,提供一种检测样本污染率的装置,包括:
[0013]位点MAF提取模块,用于提取待测样本的测序数据中的位点在数据库中的最小等位基因频率(MAF);
[0014]过滤模块,用于过滤去除不符合条件的位点;
[0015]错误率计算模块,用于计算不同碱基替换的错误率;
[0016]似然值计算模块,用于计算待测样本在不同污染率下的似然值;
[0017]候选污染率计算模块,用于根据每个SNP位点计算的似然值对数与位点深度计算加权平均值,选择加权平均值最大的似然值对应的污染率为候选污染率;
[0018]优化模块,用于根据优化函数优化所述候选污染率,获得最终的样本污染率。
[0019]根据第三方面,在一实施例中,提供一种检测样本污染率的装置,包括:
[0020]存储器,用于存储程序;
[0021]处理器,用于通过执行所述存储器存储的程序以实现第一方面的方法。
[0022]根据第四方面,在一实施例中,提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现第一方面的方法。
[0023]依据上述实施例的一种检测样本污染率的方法及装置,该方法的分析结果可信度高。
[0024]在一实施例中,该方法在实际应用过程中,可通过总体评估甲基化测序样本在不同污染率下的评估污染率集合,在总体情况下,确定污染率阈值,能进一步增加下游分析结果的可靠性。
具体实施方式
[0025]下面通过具体实施方式对本专利技术作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
[0026]另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
[0027]本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
[0028]如本文所用,dbSNP是指NCBI于1998年建立的主要存储单核苷酸多态性(SNP)的免费公共数据库。该数据库包含多种模式生物。虽然其名称为dbSNP,但该数据库实际上包括多种分子变异,具体如下:
[0029]单核苷酸多态性SNP;
[0030]短缺失和插入多态性short deletion and insertion polymorphisms(indels/DIPs);
[0031]微卫星标记或短串联重复microsatellite markers or short tandem repeats(STRs);
[0032]多核苷酸多态性multinucleotide polymorphisms(MNPs);
[0033]杂合序列heterozygous sequences;
[0034]命名变体named variants。
[0035]如本文所用,“MAF”是指最小等位基因频率,通常是指在给定人群中的不常见的等位基因发生频率,例如TT、TC、CC三个基因型,在人群中C的频率=0.36,T的频率=0.64,则等位基因C就为最小等位基因频率,MAF=0.36。
[0036]如本文所用,“杂合子”是指同一位点上的两个等位基因不相同的基因型。
[0037]如本文所用,“纯合子”是指同一位点上的两个等位基因相同的基因型。
[0038]根据第一方面,在一实施例中,提供一种检测样本污染率的方法,包括:
[0039]位点MAF提取步骤,包括提取待测样本的测序数据中的SNP位点在数据库中的最小等位基因频率(MAF);
[0040本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测样本污染率的方法,其特征在于,包括:位点MAF提取步骤,包括提取待测样本的测序数据中的SNP位点在数据库中的最小等位基因频率;过滤步骤,包括过滤去除不符合条件的SNP位点;错误率计算步骤,包括计算不同碱基替换的错误率;似然值计算步骤,包括计算待测样本在不同污染率下的似然值;候选污染率计算步骤,包括根据每个SNP位点计算的似然值对数与位点深度计算加权平均值,选择加权平均值最大的似然值对应的污染率为候选污染率;优化步骤,包括根据优化函数优化所述候选污染率,获得最终的样本污染率。2.如权利要求1所述的方法,其特征在于,所述位点MAF提取步骤中,将SNP位点映射到数据库的文件中,如果该位点存在,则保留该位点,并提取数据库中该位点的等位基因信息;如果该位点不存在,则删除该位点;或,所述位点MAF提取步骤中,如果该位点存在,则提取其在数据库中的等位基因信息以及人群频率;或,所述位点MAF提取步骤中,如果该位点存在,则提取其在数据库中的最小等位基因频率;或,所述位点MAF提取步骤中,所述数据库包括dbSNP数据库、HapMap数据库中的至少一种。3.如权利要求1所述的方法,其特征在于,所述过滤步骤中,包括过滤并确定SNP位点深度、基因型、位点先验污染概率和背景噪音读段数;或,所述过滤步骤中,如果SNP位点的等位基因不是T、C、G、A或者N,则过滤去除该位点;或,所述过滤步骤中,计算该位点主要等位基因的读段数占该位点主要等位基因的读段数与该位点次要等位基因的读段数的加和的比例,记为主要占比;计算该位点的次要等位基因的读段数占该位点主要等位基因的读段数与该位点次要等位基因的读段数的加和的比例,记为次要占比;根据所述主/次要占比判断样本基因型;或,如果主要占比小于杂合子位点的限制阈值,则将相应基因型判定为“1/1”;如果次要占比小于杂合子位点的限制阈值,则将相应基因型判定为“0/0”;其他则为“0/1”;或,所述限制阈值为0.25。4.如权利要求3所述的方法,其特征在于,所述过滤步骤中,如果基因型为“0/0”,背景噪音读段计数为次要占比乘以位点深度,该位点的先验污染率为1

[1

(MAF)]2;如果基因型为“1/1”,背景噪音读段计数为主要占比乘以位点深度,该位点的先验污染率为1

(MAF)2;如果基因型为“0/1”,背景噪音读段计数为主要占比、次要占比中的最小值乘以位点深度,该位点的先验污染率为1

[2
×
(MAF)
×
(1

MAF)]。5.如权利要求1所述的方法,其特征在于,所述错误率计算步骤中,对待测样本的测序数据中纯合子基因型进行分析,计算所述纯合子基因型中主等位基因的碱基为X、次等位基因的对应位置的碱...

【专利技术属性】
技术研发人员:陈华东黄毅林浩翔杨玲易鑫
申请(专利权)人:深圳吉因加医学检验实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1