一种基因组多重扩增测序产物中突变信息的检测方法技术

技术编号:14153236 阅读:156 留言:0更新日期:2016-12-11 16:44
本发明专利技术公开了一种基因组多重扩增测序产物中突变信息的检测方法。步骤为,对测序数据进行质量评估和预处理;选择可识别的测序序列进行序列组装;将可识别的测序序列或组装得到的序列与参考基因序列进行序列比对,得到初步的变异信息;根据不同类型情况进行序列变异精校准;得到校准后的测序片段;根据最高丰度的测序片段类型计算得到目标片段的纯合或杂合状态;最终得到基因组多重扩增测序产物中的突变信息。本发明专利技术方法可快速、高效、准确的对扩增产物进行识别,节省计算资源;兼容序列组装过程,可有效改善测序过程中产生的碱基质量值衰减问题;可更有效、稳定的对变异信息的纯/杂合状态进行判定,消除PCR过程及测序过程中引入的随机错误。

【技术实现步骤摘要】

本专利技术涉及基因测序领域,尤其涉及一种基因组多重扩增测序产物中突变信息的检测方法
技术介绍
目前,对基因序列进行变异检测的方法有很多。其中,通过多重扩增将特定目标区域进行特异性扩增,并对扩增产物进行高通量测序是一种高效、经济、准确性高的优选方法。此类方法可以扩大传统单点PCR的检测通量,同时高通量测序技术可以得到目标区域准确的数字信号,可以更准确的对序列变异情况进行描述。然而,这类方法在检测过程中会产生大量的测序序列信息,需要使用专业的数据分析方法对测序结果进行解读。目前,对此类数据进行分析的方法有很多,主要过程都是将测序序列通过全基因组比对的方式定位到基因序列上,再通过对所有测序候选类型的碱基深度进行统计,从而计算出目标基因区域的变异信息。但是,这类方法由于需要将测序序列对全基因组区域进行比对,程序运行速度慢,需要的资源消耗高。而且,变异检测过程中,突变的统计是在单个位点的水平上进行,对于PCR或测序过程中产生的错误只能通过概率模型模型计算进行消除,容易受到干扰。再者,由于方法定位为全基因组比对,在每个基因位置的比对上采用了相同的处理方式,并没有考虑不同基因表达方式的差异,导致在后期的功能注释上无法与生物学意义直接相关联,对受试样品的遗传咨询产生潜在影响。综上可知,目前临床上针对此类数据并没有一种高效、快捷、准确的分析方法。本专利技术目的在于提供一种快速、全面准确、高效的检测多重扩增测序产物中基因突变的分析方法。
技术实现思路
本专利技术的目的在于提供一种基因组多重扩增测序产物中突变信息的检测方法。为实现上述目的,本专利技术提供一种基因组多重扩增测序产物中突变信息的检测方法,其特征在于,步骤为,(1)测序数据的质量评估和预处理,过滤掉不合适的测序数据,得到第一测序序列;优选的,所述不合适的测序数据指的是Q20低于80%,或N碱基比例大于20%;(2)引物识别:使用来源于覆盖所检测基因的测序引物,对上述第一测序序列进行来源识别,将可以识别的测序序列为第二测序序列;优选的,可以识别的测序序列指的是引物序列与测序序列的碱基差异在2个以内;(3)序列组装:对第二测序序列中可实现每条扩增子的完全覆盖的两端的测序数据,进行序列组装,将其两条片段的重合序列部分进行合并和质量值的重新计算;得到第三测序序列;(4)序列比对:根据来源于覆盖所检测基因的测序引物的序列位置,从标准参考基因组切取参考序列文件,进而将所述第二测序序列或第三测序序列与所述参考基因序列进行序列比对;得到第四测序序列;(5)变异检测:对所述第四测序序列,采用碱基比较的方式,统计每一个位置上测序序列与所述参考序列的异同,得到初步的变异信息;(6)序列变异精校准:对于相互靠近的突变,将其进行合并,重新计算碱基的突变位置和突变类型;尤其,如果存在其中一侧为插入或缺失的类型,需要对合并后的碱基定位进行调整;得到校准后的第五测序片段;对于插入类型,以基因的转录方向为准,如果插入片段的第一位碱基与插入位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;得到校准后的第五测序片段;对于缺失类型,以基因的转录方向为准,如果缺失片段的第一位碱基与缺失位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;得到校准后的第五测序片段;(7)序列变异统计输出:根据最高丰度的第五测序片段类型计算得到目标片段的纯合或杂合状态;最终得到基因组多重扩增测序产物中的突变信息。进一步,所述引物识别的具体算法为:(1)循环所有来源于覆盖所检测基因的测序引物组合;(2)每次截取测序序列两端和当前来源于覆盖所检测基因的测序引物组合相同的片段进行全局比对,并进行打分,同时记录比对过程中的碱基错配个数和插入缺失个数;(3)根据比对打分确定最佳引物来源,并根据最佳引物来源中的碱基错配个数和插入缺失个数判定测序序列是否为非特异扩增。进一步,所述序列组装为:(1)将测序序列的后端数据进行反向互补,使其与前端序列具有相同读取方向;(2)将后端序列与前端序列进行不同位置的对齐操作,进而在每种对齐条件下计算后续序列相同与不同的打分值,选取最高打分值作为前后两条序列的最佳组装起点;(3)从最佳比对起点开始,选取两条序列上重合位置测序质量最高的碱基作为最终组装序列的碱基;如果遇到两个不同碱基的质量值相同,则优选前段碱基序列的碱基类型;(4)输出组装后的序列片段,并根据如下原则重新计算碱基质量值打分:a.如果两个碱基相同,则质量值为两只相加,但不高于最高质量值上限;b.如果两个碱基不同,则质量值为两者中的较大者,如两者相同,则任取一个。进一步,所述序列比对的方式为全局比对算法,其具体算法原理如下:(1)参数设定:对比对过程中的打分值进行定义,可以采取两种方式:c.定义碱基相同、碱基错配、碱基插入缺失、碱基插入缺失延伸的分值;d.定义打分矩阵,即每种碱基间的相互错配可以具有各自不同的分值,以考虑生物过程中碱基突变的实际概率值。(2)打分矩阵初始化:a.将参考序列的每一个碱基作为打分矩阵的一列,首列留空;b.将测序序列的每一个碱基作为打分矩阵的一行,首行留空;c.将打分矩阵的第二行和第二列根据碱基插入缺失、碱基插入缺失延伸的分值进行填充,以定义在序列首端存在插入缺失的情况。(3)打分矩阵填充:将打分矩阵从左向右、自上而下进行填充。填充过程中遵循以下原则:a.每个空位分别计算由左侧、上方、左上方延伸而来的得分;b.在计算过程中,来自于左上方的情况需要计算当前位置对应的参考序列碱基和测序序列碱基是否相同,相同则加上“碱基相同”对应的分值,不相同则加上“碱基错配”对应的分值;如果来自于上方或左侧,需要考虑前一步碱基是否为插入缺失,如果是插入缺失,则加上“碱基插入缺失延伸”的分值,如果不是则加上“碱基插入缺失”的分值。c.将3种情况下计算得到的最高分作为此处的比对分值;并记录此处的路径来源。(4)最优路径回溯:从打分矩阵的右下角开始回溯,选取每一个位点的路径来源,得到最优比对结果,即测序序列与参考序列的位置对应关系。注意,此处的比对算法为全局比对,如采用局部比对的方式,在(4)中的路径回溯阶段,起点选取打分矩阵右下角的最大分值作为起点即可。进一步,所述变异检测的判定方法为:如果测序序列与参考序列相同,此处没有变异;如果测序序列与参考序列不同,此处存在碱基替换类型的序列变异;如果测序序列对应参考序列上的空位,此处存在序列插入类型的序列变异;如果测序序列的空位对应参考序列上的碱基,此处存在序列缺失类型的序列变异。进一步,所述序列变异统计输出的实施过程为:(1)将所有测序序列的片段根据引物序列进行分类;(2)在每一个引物序列内部统计出现次数最多和次多的序列类型,得到最佳序列与次佳序列;(3)计算最佳序列与次佳序列中次佳序列所占的比例;(4)根据设定的阈值和染色体倍数判定此目标片段为纯合区域或杂合区域。在二倍体中,若高于阈值则为纯合,输出最佳序列所得到的变异信息;反之为杂合,输出最佳序列与次佳序列所得到的变异信息;而在单倍体中,如人类的性染色体,则直接判定为纯合,输出最佳序列所得到的变异信息。进一步,所述基因组是二倍体基因组。进一步,所述基因组是人类基因组本专利技术的技术方案为:1、测序数据的质量评估和预本文档来自技高网...
一种基因组多重扩增测序产物中突变信息的检测方法

【技术保护点】
一种基因组多重扩增测序产物中突变信息的检测方法,其特征在于,步骤为,(1)测序数据的质量评估和预处理,过滤掉不合适的测序数据,得到第一测序序列;优选的,所述不合适的测序数据指的是Q20低于80%,或N碱基比例大于20%;(2)引物识别:使用来源于覆盖所检测基因的测序引物,对上述第一测序序列进行来源识别,将可以识别的测序序列为第二测序序列;优选的,可以识别的测序序列指的是引物序列与测序序列的碱基差异在2个以内;(3)序列组装:对第二测序序列中可实现每条扩增子的完全覆盖的两端的测序数据,进行序列组装,将其两条片段的重合序列部分进行合并和质量值的重新计算;得到第三测序序列;(4)序列比对:根据来源于覆盖所检测基因的测序引物的序列位置,从标准参考基因组切取参考序列文件,进而将所述第二测序序列或第三测序序列与所述参考基因序列进行序列比对;得到第四测序序列;(5)变异检测:对所述第四测序序列,采用碱基比较的方式,统计每一个位置上测序序列与所述参考序列的异同,得到初步的变异信息;(6)序列变异精校准:对于相互靠近的突变,将其进行合并,重新计算碱基的突变位置和突变类型;尤其,如果存在其中一侧为插入或缺失的类型,需要对合并后的碱基定位进行调整;得到校准后的第五测序片段;对于插入类型,以基因的转录方向为准,如果插入片段的第一位碱基与插入位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;得到校准后的第五测序片段;对于缺失类型,以基因的转录方向为准,如果缺失片段的第一位碱基与缺失位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;得到校准后的第五测序片段;(7)序列变异统计输出:根据最高丰度的第五测序片段类型计算得到目标片段的纯合或杂合状态;最终得到基因组多重扩增测序产物中的突变信息。...

【技术特征摘要】
1.一种基因组多重扩增测序产物中突变信息的检测方法,其特征在于,步骤为,(1)测序数据的质量评估和预处理,过滤掉不合适的测序数据,得到第一测序序列;优选的,所述不合适的测序数据指的是Q20低于80%,或N碱基比例大于20%;(2)引物识别:使用来源于覆盖所检测基因的测序引物,对上述第一测序序列进行来源识别,将可以识别的测序序列为第二测序序列;优选的,可以识别的测序序列指的是引物序列与测序序列的碱基差异在2个以内;(3)序列组装:对第二测序序列中可实现每条扩增子的完全覆盖的两端的测序数据,进行序列组装,将其两条片段的重合序列部分进行合并和质量值的重新计算;得到第三测序序列;(4)序列比对:根据来源于覆盖所检测基因的测序引物的序列位置,从标准参考基因组切取参考序列文件,进而将所述第二测序序列或第三测序序列与所述参考基因序列进行序列比对;得到第四测序序列;(5)变异检测:对所述第四测序序列,采用碱基比较的方式,统计每一个位置上测序序列与所述参考序列的异同,得到初步的变异信息;(6)序列变异精校准:对于相互靠近的突变,将其进行合并,重新计算碱基的突变位置和突变类型;尤其,如果存在其中一侧为插入或缺失的类型,需要对合并后的碱基定位进行调整;得到校准后的第五测序片段;对于插入类型,以基因的转录方向为准,如果插入片段的第一位碱基与插入位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;得到校准后的第五测序片段;对于缺失类型,以基因的转录方向为准,如果缺失片段的第一位碱基与缺失位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;得到校准后的第五测序片段;(7)序列变异统计输出:根据最高丰度的第五测序片段类型计算得到目标片段的纯合或杂合状态;最终得到基因组多重扩增测序产物中的突变信息。2.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述引物识别的具体算法为:(1)循环所有来源于覆盖所检测基因的测序引物组合;(2)每次截取测序序列两端和当前来源于覆盖所检测基因的测序引物组合相同的片段进行全局比对,并进行打分,同时记录比对过程中的碱基错配个数和插入缺失个数;(3)根据比对打分确定最佳引物来源,并根据最佳引物来源中的碱基错配个数和插入缺失个数判定测序序列是否为非特异扩增。3.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述序列组装为:(1)将测序序列的后端数据进行反向互补,使其与前端序列具有相同读取方向;(2)将后端序列与前端序列进行不同位置的对齐操作,进而在每种对齐条件下计算后续序列相同与不同的打分值,选取最高打分值作为前后两条序列的最佳组装起点;(3)从最佳比对起点开始,选取两条序列上重合位置测序质量最高的碱基作为最终组装序列的碱基;如果遇到两个不同碱基的质量值相同,则优选前段碱基序列的碱基类型;(4)输出组装后的序列片段,并根据如下原则重新计算碱基质量值打分:a.如...

【专利技术属性】
技术研发人员:李旭超黄可君林清华王伟东葛会娟张霞张林华阮力郑立谋
申请(专利权)人:厦门艾德生物医药科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1