基于贝叶斯与泊松分布检验的已知变异检出方法和装置制造方法及图纸

技术编号:16819408 阅读:57 留言:0更新日期:2017-12-16 12:56
本发明专利技术公开了一种基于贝叶斯与泊松分布检验的已知变异检出方法和装置。该方法包括:提供测序读长碱基序列、参考基因组序列和假设已知变异位点存在时推算出的测序读长序列;将所述假设已知变异位点存在时推算出的测序读长序列与所述测序读长碱基序列进行比对检测;进行贝叶斯检验模型和泊松分布检验模型的判断。本发明专利技术的方法能够高特异性、高敏感性地实现SNV或InDel变异检出。

Detection method and device of known mutation based on Bayes and Poisson distribution test

The invention discloses a known mutation detection method and device based on the Bayes and Poisson distribution test. The method includes: providing sequencing read length base sequence and sequenced reference genome sequence and are assumed known sites when calculate the read length sequence; the assumption of known variable exists ectopic sequence calculated long read sequence and the sequence of detection than long read sequence; Bayesian model test the judgment of test model and Poisson distribution. The method of the present invention can detect SNV or InDel mutation with high specificity and Gao Min sensibility.

【技术实现步骤摘要】
基于贝叶斯与泊松分布检验的已知变异检出方法和装置
本专利技术涉及核苷酸序列的变异位点检测
,尤其涉及一种基于贝叶斯与泊松分布检验的已知变异检出方法和装置。
技术介绍
在科研及临床转化领域的技术中,对于体细胞基因突变的检测方法主要有PCR-Sanger法、PCR-Mass法、ARMS-PCR法和高通量捕获测序法等。这几种方法的样本均来源于癌症患者手术时所切除的病灶组织样本。PCR-Sanger测序法的灵敏度低,仅能检测突变率大于20%的高频突变,且难以胜任多基因多位点的检测;PCR-Mass法不能检测位置突变,也不能检测插入删除变异(InDel),灵敏度在5%左右,该技术局限性较大;ARMS-PCR法特异性好,灵敏度高,能检测1%-5%的低频突变,然而该方法只能检测特定的已知突变,且不能同时检测多个基因多个位点。BGISEQ-100平台的数据特点,导致传统的变异检出软件(如SOAPsnp、VarScan、GATK等)的检出效果不理想。BGISEQ-100平台数据在InDel附近的碱基比对质量会下降,尤其对EGFR基因c.2238_2248>GC这类常见的复杂变异,删除后插入本文档来自技高网...
基于贝叶斯与泊松分布检验的已知变异检出方法和装置

【技术保护点】
一种基于贝叶斯与泊松分布检验的已知变异检出方法,其特征在于,所述方法包括:提供测序读长碱基序列、参考基因组序列和假设已知变异位点存在时推算出的测序读长序列;将所述假设已知变异位点存在时推算出的测序读长序列与所述测序读长碱基序列进行比对检测,找到每一位点变异发生时的变异特征并找到能覆盖到该位点的所有测序读长碱基序列;针对所述变异特征对应的每一位点,在贝叶斯检验模型下,假设模型M0代表该位点不存在变异,与所述参考基因组序列不同的碱基是系统误差,假设模型

【技术特征摘要】
1.一种基于贝叶斯与泊松分布检验的已知变异检出方法,其特征在于,所述方法包括:提供测序读长碱基序列、参考基因组序列和假设已知变异位点存在时推算出的测序读长序列;将所述假设已知变异位点存在时推算出的测序读长序列与所述测序读长碱基序列进行比对检测,找到每一位点变异发生时的变异特征并找到能覆盖到该位点的所有测序读长碱基序列;针对所述变异特征对应的每一位点,在贝叶斯检验模型下,假设模型M0代表该位点不存在变异,与所述参考基因组序列不同的碱基是系统误差,假设模型代表该位点由所述参考基因组碱基r变异为m真实存在,并且等位基因突变频率为f,对于既不为r也不为m的碱基当作系统误差,判断所述模型的概率与模型M0的概率之比值与第一阈值的关系;针对所述变异特征对应的每一位点,在泊松分布检验模型下,假设当测序深度一定时已知变异位点发生测序错误的读长条数为λ,假设带有已知变异特征的读长是由测序错误导致的且读长条数为n,判断n服从参数为λ的泊松分布累计概率值与第二阈值的关系;若所述模型的概率与模型M0的概率之比值大于等于所述第一阈值,且所述泊松分布累计概率值大于所述第二阈值,判断该位点为强阳性变异;若所述模型的概率与模型M0的概率之比值大于等于所述第一阈值,或所述泊松分布累计概率值大于所述第二阈值,判断该位点为弱阳性变异;若所述模型的概率与模型M0的概率之比值小于所述第一阈值,且所述泊松分布累计概率值小于等于所述第二阈值,判断该位点为阴性无变异。2.根据权利要求1所述的方法,其特征在于,所述模型的概率与模型M0的概率之比值为LOD(m,f),其满足如下公式(1):其中,L(M0)和分别表示模型M0和模型的概率;对于任一位点,假设参考基因组对应的碱基为r∈{A,T,C,G};假设覆盖该位点的所有读长的对应碱基为bi,碱基质量值为qi,对应的碱基错误率为d表示该位点对应的测序深度;L(M0)和分别满足如下公式(2)~(3)和(4)~(5):其中,其中,3.根据权利要求2所述的方法,其特征在于,所述第一阈值为2。4.根据权利要求1所述的方法,其特征在于,假设当测序深度一定时已知变异位点发生测序错误的读长条数为λ,服从泊松分布,其对应的概...

【专利技术属性】
技术研发人员:刘继龙刘足程少敏郭凤明李世勇
申请(专利权)人:广州华大基因医学检验所有限公司广州华大基因科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1