一种基因组变异检测方法及检测装置制造方法及图纸

技术编号：18138811 阅读：29 留言：0更新日期：2018-06-06 12:03

本发明专利技术公开了一种基因组变异检测方法及检测装置，涉及生物信息学研究领域，以解决现有基因组变异检测效率低下、且检测精度不高的问题。该方法包括：确定基因组的潜在变异区域，对落在潜在变异区域内的测序序列进行局部组装创建迭代DeBruijn图，根据迭代DeBruijn图得到单倍体；将测序序列与所有单倍体进行比对，将测序序列对应的最佳单倍体与潜在变异区域对应的参考序列进行比对后，得到一组比对结果，采用预设变换规则对该组比对结果中的两个比对结果进行变换，得到测序序列与潜在变异区域对应的参考序列的校正对齐结果，根据测序序列与潜在变异区域对应的参考序列的校正对齐结果，确定基因组的变异类型。

全部详细技术资料下载

【技术实现步骤摘要】
一种基因组变异检测方法及检测装置
本专利技术实施例涉及生物信息研究领域，尤其涉及一种基因组变异检测方法及检测装置。
技术介绍
随着基因组测序成本的持续下降，高通量测序仪(如：IlluminaHiseq系列测序仪)产生的基因组测序序列(read)呈现爆照式增长，尤其是人类基因组测序序列的积累速度更为明显，如何从大量基因组测序序列得到高质量的基因组变异结果，成为一项富有挑战性的工作。目前，人们通常利用短序列比对软件(如：BurrowsWheelerAligner，BWA)将每条测序序列比对到参考序列(referencesequence)上，得到每条测序序列与参考序列的双序列比对结果(包括测序序列相对于参考序列详细的匹配、错配、插入和删除等信息)，然后根据所有测序序列与参考序列的双序列比对结果，得到基因组变异结果。但由于BWA等短序列比对软件是把每个read单独比对到参考序列上，并不考虑测序序列之间整体上是否对齐，很容易把原本属于同一种变异类型的测序序列错误地比对成包含不同变异类型的测序序列，造成误判。为解决该问题，现有技术人员通常采用基因分析工具(英文：TheGenomeAnalysisToolkit，GATK)中的子模块HaplotypeCaller(简称：HC)来进行基因组变异检测，以消除测序序列间比对不齐造成的影响。其中，HC检测主要包括下述4个步骤：1)确定基因组中的潜在变异区域(ActiveRegion)；2)对每个潜在变异区域执行局部组装(localassemby)，根据组装后的序列以及kmer长度(Size)得到DeBruijn图(DeBruij...
一种基因组变异检测方法及检测装置

【技术保护点】
一种基因组变异检测方法，由检测装置执行，其特征在于，包括：将基因组的多条测序序列分别和参考序列进行双序列比对，得到双序列比对结果；根据所述双序列比对结果，确定所述基因组的潜在变异区域；对每个潜在变异区域，在所有测序序列中抽取出处于所述潜在变异区域内的所有测序序列片段，根据所述所有测序序列片段创建迭代DeBruijn图，根据所述迭代DeBruijn图得到N个单倍体；其中，所述N为大于等于1的整数；对于所述潜在变异区域内的任一测序序列片段，将所述测序序列片段与所述N个单倍体进行SW比对，将所述测序序列片段的最佳单倍体与参考序列片段进行SW比对，得到一组与该测序序列片段对应的SW比对结果；根据预设变换规则，对每个测序序列片段的SW比对结果进行转换，得到每个测序序列片段与所述参考序列片段的校正对齐结果；所述预设变换规则用于将所述每个测序序列片段与所述参考序列片段对齐；根据每个测序序列片段与所述参考序列片段的校正对齐结果，确定所述基因组的变异类型。

【技术特征摘要】
1.一种基因组变异检测方法，由检测装置执行，其特征在于，包括：将基因组的多条测序序列分别和参考序列进行双序列比对，得到双序列比对结果；根据所述双序列比对结果，确定所述基因组的潜在变异区域；对每个潜在变异区域，在所有测序序列中抽取出处于所述潜在变异区域内的所有测序序列片段，根据所述所有测序序列片段创建迭代DeBruijn图，根据所述迭代DeBruijn图得到N个单倍体；其中，所述N为大于等于1的整数；对于所述潜在变异区域内的任一测序序列片段，将所述测序序列片段与所述N个单倍体进行SW比对，将所述测序序列片段的最佳单倍体与参考序列片段进行SW比对，得到一组与该测序序列片段对应的SW比对结果；根据预设变换规则，对每个测序序列片段的SW比对结果进行转换，得到每个测序序列片段与所述参考序列片段的校正对齐结果；所述预设变换规则用于将所述每个测序序列片段与所述参考序列片段对齐；根据每个测序序列片段与所述参考序列片段的校正对齐结果，确定所述基因组的变异类型。2.根据权利要求1所述的方法，其特征在于，所述根据所述双序列比对结果，确定所述基因组的潜在变异区域，包括：根据所述基因组的编码顺序，将所述基因组划分为多个编码区间；根据所述双序列比对结果，确定所有测序序列的变异类型；统计每个编码区间内不同变异类型的测序序列的概率分布值；根据所述编码区间内不同变异类型的测序序列的概率分布值，计算所述编码区间的信息熵；判断每个编码区间的信息熵是否大于第一阈值，若存在第一编码区间，所述第一编码区间的信息熵大于第一阈值，则确定所述第一编码区间为潜在变异区域。3.根据权利要求1所述的方法，其特征在于，所述根据所述双序列比对结果，确定所述基因组的潜在变异区域，包括：根据所述基因组的编码顺序，将所述基因组划分为多个编码区间；统计每个编码区间内发生变异的测序序列的数量；判断每个编码区间内发生变异的测序序列的数量是否大于第二阈值；若存在第一编码区间，所述第一编码区间内发生变异的测序序列的数量大于第二阈值，则确定所述第一编码区间为潜在变异区域。4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述所有测序序列片段创建迭代DeBruijn图，包括：a)初始化kmer的值k；b)从所述所有测序序列当中过滤掉支持数低于设定阈值的kmer，并以所述kmer作为节点，所述过滤后的测序序列上的相邻kmer作为边，创建最初始的DeBruijn图；c)遍历当前DeBruijn图产生多个contig，过滤出长度大于测序仪读长的contig作为新扩充的测序序列，并删除掉所述所有测序序列中被所述新扩充的测序序列完全包含的测序序列，同时，将k值加1；d)以所述所有测序序列中剩下的测序序列和所述新扩充的测序序列按照新的k值，以所述kmer作为节点，所述所有测序序列上的相邻kmer作为边创建新的DeBruijn图；其中，所述k值为kmer长度，所述当前DeBruijn图根据所述k值创建；重复上述c)～d)过程，直至所述k值为预设的最大kmax值，将最大kmax值对应的当前DeBruijn图作为所述最终需要的迭代DeBruijn图。5.根据权利要求1-4任一项所述的方法，其特征在于，对于任一测序序列片段的SW比对结果，所述SW比对结果包括：该测序序列片段与最佳单倍体进行SW比对后的第一SW比对结果，最佳单倍体与参考序列片段进行SW比对后的第二SW比对结果；所述第一SW比对结果、所述第二SW比对结果由CIGAR表示，所述CIGAR由至少一个包含：系数和比对类型的操作连接而成，所述比对类型包括：匹配/误配M、删除D、插入I中的至少一种或多种；所述根据预设变换规则，对所述测序序列片段的SW比对结果进行转换，得到所述测序序列片段与所述参考序列片段的校正对齐结果，包括：获取所述第二SW比对结果中的第一操作、以及所述第一SW比对结果中的第一操作；根据所述预设变换规则，对所述第二SW比对结果中的第一操作、以及所述第一SW比对结果中的第一操作进行比较，得到所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取新的一对Operator，根据所述预设变换规则对这一对新的Operator进行循环迭代计算，得到所述测序序列片段与所述参考序列片段的校正对齐结果。6.根据权利要求5所述的方法，其特征在于，所述根据所述预设变换规则，对所述第二SW比对结果中的第一操作、以及所述第一SW比对结果中的第一操作进行比较，得到所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取新的一对Operator，根据所述预设变换规则对这一对新的Operator进行循环迭代计算，得到所述测序序列片段与所述参考序列片段的校正对齐结果，包括：若所述第二SW比对结果中的第一操作的比对类型为M，所述第一SW比对结果中的第一操作的比对类型为M，则比较所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数；若所述第二SW比对结果中的第一操作的系数比所述第一SW比对结果中的第一操作的系数大，则将所述第一SW比对结果中的第一操作作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取与所述第一SW比对结果中的第一操作相邻的下一操作、以及生成新的系数为所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数的差、且比对类型为M的第二操作作为第二SW比对结果当前新的操作，将所述第二操作与所述下一操作作为新的一对Operator，并根据所述预设变换规则对这一对新的Operator进行计算；若所述第二SW比对结果中的第一操作的系数比所述第一SW比对结果中的第一操作的系数小，则将所述第二SW比对结果中的第一操作作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果；并获取与所述第二SW比对结果中的第一操作相邻的下一操作、以及生成新的系数为所述第一SW比对结果中的第一操作的系数与所述第二SW比对结果中的第一操作的系数的差、比对类型为M的第三操作作为所述第一SW比对结果当前新的操作，将所述下一操作与所述第三操作作为新的一对操作Operator，并根据所述预设变换规则对这一对新的Operator进行计算；若所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数相等，则将所述第一操作作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取与所述第二比对结果SW中的第一操作相邻的下一操作、以及获取与所述第一SW比对结果中的第一操作相邻的下一操作，根据所述预设变换规则对这两个下一操作进行计算。7.根据权利要求5所述的方法，其特征在于，所述根据所述预设变换规则，对所述第二SW比对结果中的第一操作、以及所述第一SW比对结果中的第一操作进行比较，得到所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取新的一对Operator，根据所述预设变换规则对这一对新的Operator进行循环迭代计算，得到所述测序序列片段与所述参考序列片段的校正对齐结果，包括：若所述第二SW比对结果中的第一操作的比对类型为M，所述第一SW比对结果中的第一操作的比对类型为D，则比较所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数；若所述第二SW比对结果中的第一操作的系数比所述第一SW比对结果中的第一操作的系数大，则将所述第一SW比对结果中的第一操作作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并生成新的系数为所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数的差、比对类型为M的操作作为所述第二SW比对结果当前新的操作，将该新的操作与所述第一SW比对结果中的第一操作相邻的下一操作作为新的一对Operator，并根据所述预设变换规则对这一对新的Operator进行计算；若所述第二SW比对结果中的第一操作的系数比所述第一SW比对结果中的第一操作的系数小，则将系数为所述第二SW比对结果中的第一操作的系数、比对类型为D的操作作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取与所述第二SW比对结果中的第一操作相邻的下一操作、以及生成新的系数为所述第一SW比对结果中的第一操作的系数与所述第二SW比对结果中的第一操作的系数的差、比对类型为D的操作作为所述第一SW比对结果当前新的操作，将所述下一操作与所述新的操作作为新的一对Operator，并根据所述预设变换规则对这一对新的Operator进行计算；若所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数相等，则将所述第一SW比对结果中的第一操作作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取与所述第二比对结果SW中的第一操作相邻的下一操作、以及获取与所述第一SW比对结果中的第一操作相邻的下一操作，根据所述预设变换规则对这两个下一操作进行计算。8.根据权利要求5所述的方法，其特征在于，所述根据所述预设变换规则，对所述第二SW比对结果中的第一操作、以及所述第一SW比对结果中的第一操作进行比较，得到所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取新的一对Operator，根据所述预设变换规则对这一对新的Operator进行循环迭代计算，得到所述测序序列片段与所述参考序列片段的校正对齐结果，包括：若所述第二SW比对结果中的第一操作的比对类型为M，所述第一SW比对结果中的第一操作的比对类型为I，则将所述第一SW比对结果中的第一操作作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并将所述第二SW比对结果中的第一操作与所述第一SW比对结果中的第一操作相邻的下一操作作为新的一对操作Operator，并根据所述预设变换规则对这一对新的Operator进行计算。9.根据权利要求5所述的方法，其特征在于，所述根据所述预设变换规则，对所述第二SW比对结果中的第一操作、以及所述第一SW比对结果中的第一操作进行比较，得到所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取新的一对Operator，根据所述预设变换规则对这一对新的Operator进行循环迭代计算，得到所述测序序列片段与所述参考序列片段的校正对齐结果，包括：若所述第二SW比对结果中的第一操作的比对类型为D，所述第一SW比对结果中的第一操作的比对类型为M，则将所述第二SW比对结果中的第一操作作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并将与所述第二SW比对结果中的第一操作相邻的下一操作与所述第一SW比对结果中的第一操作作为新的一对操作Operator，并根据所述预设变换规则对这一对新的Operator进行计算。10.根据权利要求5所述的方法，其特征在于，所述根据所述预设变换规则，对所述第二SW比对结果中的第一操作、以及所述第一SW比对结果中的第一操作进行比较，得到所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取新的一对Operator，根据所述预设变换规则对这一对新的Operator进行循环迭代计算，得到所述测序序列片段与所述参考序列片段的校正对齐结果，包括：若所述第二SW比对结果中的第一操作的比对类型为D，所述第一SW比对结果中的第一操作的比对类型为D，则将所述第二SW比对结果中的第一操作作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并将与所述第二SW比对结果中的第一操作相邻的下一操作与所述第一SW比对结果中的第一操作作为新的一对操作Operator，并根据所述预设变换规则对这一对新的Operator进行计算。11.根据权利要求5所述的方法，其特征在于，所述根据所述预设变换规则，对所述第二SW比对结果中的第一操作、以及所述第一SW比对结果中的第一操作进行比较，得到所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取新的一对Operator，根据所述预设变换规则对这一对新的Operator进行循环迭代计算，得到所述测序序列片段与所述参考序列片段的校正对齐结果，包括：若所述第二SW比对结果中的第一操作的比对类型为D，所述第一SW比对结果中的第一操作的比对类型为I，则比较所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数；若所述第二SW比对结果中的第一操作的系数比所述第一SW比对结果中的第一操作的系数大，则将系数为所述第一SW比对结果中的第一操作的系数、比对类型为M的操作，以及系数为所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数的差、比对类型为D的操作顺序组合在一起作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取与所述第二比对结果SW中的第一操作相邻的下一操作、以及获取与所述第一SW比对结果中的第一操作相邻的下一操作，根据所述预设变换规则对这两个下一操作进行计算；若所述第二SW比对结果中的第一操作的系数比所述第一SW比对结果中的第一操作的系数小，则将系数为所述第二SW比对结果中的第一操作的系数、比对类型为M的操作，以及系数为所述第一SW比对结果中的第一操作的系数与所述第二SW比对结果中的第一操作的系数的差、比对类型为I的操作顺序组合在一起作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取与所述第二比对结果SW中的第一操作相邻的下一操作、以及获取与所述第一SW比对结果中的第一操作相邻的下一操作，根据所述预设变换规则对这两个下一操作进行计算；若所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数相等，则将系数为所述第二SW比对结果中的第一操作的系数、比对类型为M的操作作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取与所述第二比对结果SW中的第一操作相邻的下一操作、以及获取与所述第一SW比对结果中的第一操作相邻的下一操作，根据所述预设变换规则对这两个下一操作进行计算。12.根据权利要求5所述的方法，其特征在于，所述根据所述预设变换规则，对所述第二SW比对结果中的第一操作、以及所述第一SW比对结果中的第一操作进行比较，得到所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取新的一对Operator，根据所述预设变换规则对这一对新的Operator进行循环迭代计算，得到所述测序序列片段与所述参考序列片段的校正对齐结果，包括：若所述第二SW比对结果中的第一操作的比对类型为I，所述第一SW比对结果中的第一操作的比对类型为M，则比较所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数；若所述第二SW比对结果中的第一操作的系数比所述第一SW比对结果中的第一操作的系数大，则将系数为所述第一SW比对结果中的第一操作的系数、比对类型为I的操作作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并生成新的系数为所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数的差、比对类型为I的操作作为所述第二SW比对结果当前新的操作，将该新的操作与所述第一SW比对结果中的第一操作相邻的下一操作作为新的一对Operator，并根据所述预设变换规则对这一对新的Operator进行计算；若所述第二SW比对结果中的第一操作的系数比所述第一SW比对结果中的第一操作的系数小，则将所述第二SW比对结果中的第一操作作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取与所述第二SW比对结果中的第一操作相邻的下一操作、以及生成新的系数为所述第一SW比对结果中的第一操作的系数与所述第二SW比对结果中的第一操作的系数的差、比对类型为M的操作作为第一SW比对结果当前新的操作，将所述下一操作与该新的操作与作为新的一对Operator，并根据所述预设变换规则对这一对新的Operator进行计算；若所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数相等，则将所述第二SW比对结果中的第一操作作为所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取与所述第二比对结果SW中的第一操作相邻的下一操作、以及获取与所述第一SW比对结果中的第一操作相邻的下一操作，根据所述预设变换规则对这两个下一操作进行计算。13.根据权利要求5所述的方法，其特征在于，所述根据所述预设变换规则，对所述第二SW比对结果中的第一操作、以及所述第一SW比对结果中的第一操作进行比较，得到所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并获取新的一对Operator，根据所述预设变换规则对这一对新的Operator进行循环迭代计算，得到所述测序序列片段与所述参考序列片段的校正对齐结果，包括：若所述第二SW比对结果中的第一操作的比对类型为I，所述第一SW比对结果中的第一操作的比对类型为D，则比较所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数；若所述第二SW比对结果中的第一操作的系数比所述第一SW比对结果中的第一操作的系数大，则不输出所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并生成新的系数为所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数的差、且比对类型为I的操作作为第二SW比对结果当前新的操作，将该新的操作与所述第一SW比对结果中的第一操作相邻的下一操作作为新的一对Operator，并根据所述预设变换规则对这一对新的Operator进行计算；若所述第二SW比对结果中的第一操作的系数比所述第一SW比对结果中的第一操作的系数小，则不输出所述测序序列片段与所述参考序列片段在当前位置的校正对齐结果，并将所述第二SW比对结果中的第一操作与所述第一SW比对结果中的第一操作相邻的下一操作作为新的一对Operator，并根据所述预设变换规则对这一对新的Operator进行计算；若所述第二SW比对结果中的第一操作的系数与所述第一SW比对结果中的第一操作的系数相等，...

【专利技术属性】
技术研发人员：何俊，张旸，张洪波，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人