The invention discloses a method, a fixed point detection includes: the variation of known information based on mutation, designated mutation and contains the variation of the reference sequence; sequencing data obtained nucleic acid sample, sequencing data includes a plurality of read; extraction sequencing data contained in the finger reading section positioning point, get the reading section; to specify the reading section of the finger positioning point as the center, the direction of extension of N to both ends of a BP, specify the fragment, 4 = N = 10; the specified fragments were compared with the reference sequence contains variation, support read, read read the support for the specified fragment, and reference the sequence contains variation; statistical support read section, support read amount of judging the existence of variation based on. The method of sequence variation after whether there should have attention to reading section based on the variation of fixed-point detection, to avoid falling near the point of comparison of ectopic variable quality problems, can fast and accurate detection of variation.
【技术实现步骤摘要】
定点检测变异的方法和装置
本专利技术涉及生物信息领域,具体的,本专利技术涉及定点检测变异的方法和装置,更具体的,本专利技术涉及一种定点检出变异的方法、一种定点检出变异的装置、一种检测融合基因突变的方法和一种检测融合基因突变的装置。
技术介绍
癌症由遗传基因的改变导致,不同癌症、不同患者具有不同类型的基因变异,找到癌症患者的基因突变类型是个体化的治疗的基础,同时能够帮助我们更清晰的认识癌症的机理。目前,临床上主要通过armsPCR方法来检测SNV、INDEL,通过FISH的方法来检测基因融合,这两种实验方法价格高,探针是针对特定突变设计的,难增加新的突变检测位点。随着基因组学和生物信息学的不断发展,NGS高通量方法逐渐在这个领域内得到应用。利用高通量方法同时对患者的癌症组织和正常血细胞对照进行测序,首先在癌症组织中检测变异,然后去掉在对照中存在的germline变异(生殖细胞变异),从而得到最终的somatic变异(体细胞变异)。在这种情况下,检测结果中会包含大量的临床意义未明的变异,这类变异对临床医生并没有有效的指导作用;检测过程中同时需要癌症组织和血细胞进行测序,增加了工作量;更重要的是INDEL附近的碱基的比对质量会下降,例如对EGFRc.2238_2248>GC这类肺癌中存在的复杂INDEL(complexINDEL)变异,缺失(deletion)后插入的GC碱基可能会比对到不同的位置,传统的变异检测方法对这种变异的检测很困难。
技术实现思路
依据本专利技术的一方面提供一种定点检出变异的方法,该方法包括:基于所述变异的已知信息,确定所述变异的指定位 ...
【技术保护点】
一种定点检出变异的方法,其特征在于,包括:基于所述变异的已知信息,确定所述变异的指定位点和包含所述变异的参考序列;获取待测样本的核酸的测序数据,所述测序数据包括多个读段;提取所述测序数据中包含所述指定位点的读段,获得指定读段;以所述指定读段上的指定位点为中心,往两端方向各延伸N个bp,获得指定片段,4≤N≤10;将所述指定片段与所述包含所述变异的参考序列进行比对,获得支持读段,所述支持读段为与所述参考序列匹配的指定片段所在的读段;统计所述支持读段的量,基于所述支持读段的量判断所述变异是否存在。
【技术特征摘要】
1.一种定点检出变异的方法,其特征在于,包括:基于所述变异的已知信息,确定所述变异的指定位点和包含所述变异的参考序列;获取待测样本的核酸的测序数据,所述测序数据包括多个读段;提取所述测序数据中包含所述指定位点的读段,获得指定读段;以所述指定读段上的指定位点为中心,往两端方向各延伸N个bp,获得指定片段,4≤N≤10;将所述指定片段与所述包含所述变异的参考序列进行比对,获得支持读段,所述支持读段为与所述参考序列匹配的指定片段所在的读段;统计所述支持读段的量,基于所述支持读段的量判断所述变异是否存在。2.权利要求1的方法,其特征在于,所述提取测序数据中包含所述指定位点的读段,获得指定读段,包括:将所述测序数据与包含所述变异的参考序列进行比对,比对到所述参考序列上对应的指定位点位置的读段为所述指定读段。3.权利要求2的方法,其特征在于,获得指定读段之后,对所述指定读段进行过滤,其中包括过滤掉指定位点位于读段的末端Nbp内的指定读段。4.权利要求1的方法,其特征在于,所述基于支持读段的量判断所述变异是否存在,包括:将所述支持读段的量代入到以下模型,获得参考值LOD(m,f),所述模型基于以下两点假设而建立:(1)对于任一位点,假设参考基因组对应的碱基为r∈{A,T,C,G},(2)对于任一位点,假设覆盖该位点的所有读段的对应碱基为bi,碱基质量值为qi,则对应的碱基错误率为i=1,2,...,d,d表示该位点对应的测序深度,其中M0表示所述位点的变异不存在,该位点与参考基因组碱基不同是由于系统误差导致的,表示所述位点的变异真实存在,所述变异为r突变为m,f为等位基因突变频率,既不为r、也不为m的碱基是系统误差造成的,L(M0)表示所述位点的测序数据的分布情况符合M0的概率,将所述支持读段的量代入式I以确定L(M0),表示该所述位点的测序数据的分布情况符合的概率,将所述支持读段的量代入式III以确定将所述参考值与阈值比较...
【专利技术属性】
技术研发人员:刘继龙,费凌娜,刘足,张纪斌,邵迪,
申请(专利权)人:广州华大基因医学检验所有限公司,深圳华大基因研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。