定点检测变异的方法和装置制造方法及图纸

技术编号:15747140 阅读:75 留言:0更新日期:2017-07-03 03:58
本发明专利技术公开了一种定点检出变异的方法,包括:基于变异的已知信息,确定变异的指定位点和包含该变异的参考序列;获取待测样本的核酸的测序数据,测序数据包括多个读段;提取测序数据中包含指定位点的读段,获得指定读段;以指定读段上的指定位点为中心,往两端方向各延伸N个bp,获得指定片段,4≤N≤10;将指定片段与包含变异的参考序列进行比对,获得支持读段,支持读段为与包含变异的参考序列匹配的指定片段所在的读段;统计支持读段的量,基于支持读段的量判断所述变异是否存在。该方法基于关注读段中是否存在发生变异后应当具有的序列特征来进行变异定点检测,能够规避变异位点附近比对质量下降的问题,能够快速精确的检出变异。

Method and apparatus for point detection variation

The invention discloses a method, a fixed point detection includes: the variation of known information based on mutation, designated mutation and contains the variation of the reference sequence; sequencing data obtained nucleic acid sample, sequencing data includes a plurality of read; extraction sequencing data contained in the finger reading section positioning point, get the reading section; to specify the reading section of the finger positioning point as the center, the direction of extension of N to both ends of a BP, specify the fragment, 4 = N = 10; the specified fragments were compared with the reference sequence contains variation, support read, read read the support for the specified fragment, and reference the sequence contains variation; statistical support read section, support read amount of judging the existence of variation based on. The method of sequence variation after whether there should have attention to reading section based on the variation of fixed-point detection, to avoid falling near the point of comparison of ectopic variable quality problems, can fast and accurate detection of variation.

【技术实现步骤摘要】
定点检测变异的方法和装置
本专利技术涉及生物信息领域,具体的,本专利技术涉及定点检测变异的方法和装置,更具体的,本专利技术涉及一种定点检出变异的方法、一种定点检出变异的装置、一种检测融合基因突变的方法和一种检测融合基因突变的装置。
技术介绍
癌症由遗传基因的改变导致,不同癌症、不同患者具有不同类型的基因变异,找到癌症患者的基因突变类型是个体化的治疗的基础,同时能够帮助我们更清晰的认识癌症的机理。目前,临床上主要通过armsPCR方法来检测SNV、INDEL,通过FISH的方法来检测基因融合,这两种实验方法价格高,探针是针对特定突变设计的,难增加新的突变检测位点。随着基因组学和生物信息学的不断发展,NGS高通量方法逐渐在这个领域内得到应用。利用高通量方法同时对患者的癌症组织和正常血细胞对照进行测序,首先在癌症组织中检测变异,然后去掉在对照中存在的germline变异(生殖细胞变异),从而得到最终的somatic变异(体细胞变异)。在这种情况下,检测结果中会包含大量的临床意义未明的变异,这类变异对临床医生并没有有效的指导作用;检测过程中同时需要癌症组织和血细胞进行测序,增加了工作量;更重要的是INDEL附近的碱基的比对质量会下降,例如对EGFRc.2238_2248>GC这类肺癌中存在的复杂INDEL(complexINDEL)变异,缺失(deletion)后插入的GC碱基可能会比对到不同的位置,传统的变异检测方法对这种变异的检测很困难。
技术实现思路
依据本专利技术的一方面提供一种定点检出变异的方法,该方法包括:基于所述变异的已知信息,确定所述变异的指定位点和包含所述变异的参考序列;获取待测样本的核酸的测序数据,所述测序数据包括多个读段;提取所述测序数据中包含所述指定位点的读段,获得指定读段;以所述指定读段上的指定位点为中心,往两端方向各延伸N个bp,获得指定片段,4≤N≤10;将所述指定片段与所述包含所述变异的参考序列进行比对,获得支持读段,所述支持读段为与所述参考序列匹配的指定片段所在的读段;统计所述支持读段的量,基于所述支持读段的量判断所述变异是否存在。依据本专利技术的另一方面提供一种计算机可读存储介质,用于存储供计算机执行的第一程序,本领域普通技术人员可以理解,在执行该第一程序时,通过指令相关硬件可完成上述定点检出变异的方法的全部或部分步骤。所称存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。依据本专利技术的再一方面提供一种定点检出变异的装置,该装置包括:数据输入单元,用于输入数据;数据输出单元,用于输出数据;处理器,用于执行第一计算机可执行程序,所述第一计算机可执行程序的执行包括完成上述本专利技术一方面的定点检出变异的方法;存储单元,与所述数据输入单元、数据输出单元和处理器相连,用于存储数据,其中包括所述第一计算机可执行程序。上述本专利技术一方面的方法、计算机可读存储介质和/或装置,基于关注读段中是否存在发生变异后应当具有的序列特征来进行定点变异检测,能够规避变异位点附近比对质量下降、变异位点周边比对存在干扰等问题,能够快速精确的检出变异。依据本专利技术的一方面提供一种检测融合基因突变的方法,该方法包括:获取待测样本的测序结果,所述测序结果包括多个读段;提取所述测序结果中的割裂读段,所述割裂读段为同一读段的两部分分别匹配到参考序列两个不同位置的读段;分析匹配到所述参考序列上相同位置的割裂读段的数量,确定候选断点;定义所述参考序列上候选断点相应位置为第一融合基因位置,截取匹配到所述第一融合基因位置的割裂读段的不匹配所述第一融合基因位置的部分,以获得第一割裂片段,将所述第一割裂片段进行组装,获得第一一致性序列;将所述第一一致性序列与所述参考序列进行比对,定义所述第一一致性序列与所述参考序列匹配的位置为第二融合基因位置;截取匹配到所述第二融合基因位置的割裂读段的不匹配所述第二融合基因位置的部分,获得第二割裂片段,将所述第二割裂片段进行组装,获得第二一致性序列;将所述第二一致性序列与所述参考序列进行比对,若所述第二一致性序列与所述参考序列匹配的位置为所述第一融合基因位置,确定存在所述融合基因突变。依据本专利技术的另一方面提供一种计算机可读存储介质,用于存储供计算机执行的第二程序,本领域普通技术人员可以理解,在执行该第二程序时,通过指令相关硬件可完成上述检测融合基因突变的方法的全部或部分步骤。所称存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。依据本专利技术的再一方面提供一种检测融合基因突变的装置,该装置包括:数据输入模块,用于输入数据;数据输出模块,用于输出数据;处理器,用于执行第二计算机可执行程序,所述第二计算机可执行程序的执行包括完成上述本专利技术一方面的检测融合基因突变的方法;存储模块,与所述数据输入模块、数据输出模块和处理器相连,用于存储数据,其中包括所述第二计算机可执行程序。利用上述本专利技术一方面的方法、计算机可读存储介质和/或装置,能够准确高效的检测融合基因突变。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:图1显示本专利技术的一个实施例中的定点检出变异的方法的流程。图2显示本专利技术的一个实施例中的定点检出变异的装置的示意图。图3显示本专利技术的一个实施例中的基于不同的测序深度、利用模型公式进行计算绘制的ROC曲线。图4显示本专利技术的一个实施例中的基于不同的等位基因频率、利用模型公式进行计算绘制的ROC曲线。图5显示本专利技术的一个实施例中的基于BGISEQ-100测序平台的单样本测序数据确定变异检出的流程。图6显示本专利技术的一个实施例中的变异检出部分结果。图7显示本专利技术的一个实施例中自动生成的样本检测报告的示意图。图8显示本专利技术的一个实施例中基于读段比对的SNV位点的检出图。具体实施方式参见图1,根据本专利技术的实施例提供的一种定点检出变异的方法,该方法包括以下步骤:S10确定变异的指定位点和包含该变异的参考序列。基于所述变异的已知信息,例如变异在参考基因组上的位置、类型、等位基因突变频率等,确定所述变异的指定位点和包含所述变异的参考序列,包括确定变异存在时应当出现的序列、序列的起始位置和序列的终止位置等。所述变异选自SNP和INDEL中的至少一种。所称变异的指定位点指,存在该变异时具有的特征序列的至少一部分,指定位点可以是单核苷酸,也可以是多个核苷酸。所称的参考序列指预先确定的序列,可以是预先获得的待测样本所属生物类别的任意参考模板,例如,若待测样本来源的为人类个体,参考序列可选择NCBI数据库提供的HG19,进一步地,也可以预先配置包含更多参考序列的资源库,例如依据待测样本来源个体的状态、地域等因素选择或是测定组装出更接近的序列作为参考序列。所称包含变异的参考序列为存在该变异的参考序列,例如参考基因组存在该变异后变成的序列。S12获取待测样本的核酸的测序数据。获取待测样本的核酸的测序数据,所述测序数据包括多个读段。所称的测序数据通过对核酸序列进行测序文库制备、上机测序获得。根据本专利技术的实施例,获取所述测序数据,包括:获取待测样本中的核酸,制备所述核酸的测序文库,对所述测序文库进行测序。测序文库的制备方法根据所选择的测序方法的要求进行,测序方法依据所选的测序平台的不同,本文档来自技高网...
定点检测变异的方法和装置

【技术保护点】
一种定点检出变异的方法,其特征在于,包括:基于所述变异的已知信息,确定所述变异的指定位点和包含所述变异的参考序列;获取待测样本的核酸的测序数据,所述测序数据包括多个读段;提取所述测序数据中包含所述指定位点的读段,获得指定读段;以所述指定读段上的指定位点为中心,往两端方向各延伸N个bp,获得指定片段,4≤N≤10;将所述指定片段与所述包含所述变异的参考序列进行比对,获得支持读段,所述支持读段为与所述参考序列匹配的指定片段所在的读段;统计所述支持读段的量,基于所述支持读段的量判断所述变异是否存在。

【技术特征摘要】
1.一种定点检出变异的方法,其特征在于,包括:基于所述变异的已知信息,确定所述变异的指定位点和包含所述变异的参考序列;获取待测样本的核酸的测序数据,所述测序数据包括多个读段;提取所述测序数据中包含所述指定位点的读段,获得指定读段;以所述指定读段上的指定位点为中心,往两端方向各延伸N个bp,获得指定片段,4≤N≤10;将所述指定片段与所述包含所述变异的参考序列进行比对,获得支持读段,所述支持读段为与所述参考序列匹配的指定片段所在的读段;统计所述支持读段的量,基于所述支持读段的量判断所述变异是否存在。2.权利要求1的方法,其特征在于,所述提取测序数据中包含所述指定位点的读段,获得指定读段,包括:将所述测序数据与包含所述变异的参考序列进行比对,比对到所述参考序列上对应的指定位点位置的读段为所述指定读段。3.权利要求2的方法,其特征在于,获得指定读段之后,对所述指定读段进行过滤,其中包括过滤掉指定位点位于读段的末端Nbp内的指定读段。4.权利要求1的方法,其特征在于,所述基于支持读段的量判断所述变异是否存在,包括:将所述支持读段的量代入到以下模型,获得参考值LOD(m,f),所述模型基于以下两点假设而建立:(1)对于任一位点,假设参考基因组对应的碱基为r∈{A,T,C,G},(2)对于任一位点,假设覆盖该位点的所有读段的对应碱基为bi,碱基质量值为qi,则对应的碱基错误率为i=1,2,...,d,d表示该位点对应的测序深度,其中M0表示所述位点的变异不存在,该位点与参考基因组碱基不同是由于系统误差导致的,表示所述位点的变异真实存在,所述变异为r突变为m,f为等位基因突变频率,既不为r、也不为m的碱基是系统误差造成的,L(M0)表示所述位点的测序数据的分布情况符合M0的概率,将所述支持读段的量代入式I以确定L(M0),表示该所述位点的测序数据的分布情况符合的概率,将所述支持读段的量代入式III以确定将所述参考值与阈值比较...

【专利技术属性】
技术研发人员:刘继龙费凌娜刘足张纪斌邵迪
申请(专利权)人:广州华大基因医学检验所有限公司深圳华大基因研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1