一种基因组多重扩增测序产物中突变信息的检测方法技术

技术编号：14153236 阅读：156 留言：0更新日期：2016-12-11 16:44

本发明专利技术公开了一种基因组多重扩增测序产物中突变信息的检测方法。步骤为，对测序数据进行质量评估和预处理；选择可识别的测序序列进行序列组装；将可识别的测序序列或组装得到的序列与参考基因序列进行序列比对，得到初步的变异信息；根据不同类型情况进行序列变异精校准；得到校准后的测序片段；根据最高丰度的测序片段类型计算得到目标片段的纯合或杂合状态；最终得到基因组多重扩增测序产物中的突变信息。本发明专利技术方法可快速、高效、准确的对扩增产物进行识别，节省计算资源；兼容序列组装过程，可有效改善测序过程中产生的碱基质量值衰减问题；可更有效、稳定的对变异信息的纯/杂合状态进行判定，消除PCR过程及测序过程中引入的随机错误。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及基因测序领域，尤其涉及一种基因组多重扩增测序产物中突变信息的检测方法。
技术介绍
目前，对基因序列进行变异检测的方法有很多。其中，通过多重扩增将特定目标区域进行特异性扩增，并对扩增产物进行高通量测序是一种高效、经济、准确性高的优选方法。此类方法可以扩大传统单点PCR的检测通量，同时高通量测序技术可以得到目标区域准确的数字信号，可以更准确的对序列变异情况进行描述。然而，这类方法在检测过程中会产生大量的测序序列信息，需要使用专业的数据分析方法对测序结果进行解读。目前，对此类数据进行分析的方法有很多，主要过程都是将测序序列通过全基因组比对的方式定位到基因序列上，再通过对所有测序候选类型的碱基深度进行统计，从而计算出目标基因区域的变异信息。但是，这类方法由于需要将测序序列对全基因组区域进行比对，程序运行速度慢，需要的资源消耗高。而且，变异检测过程中，突变的统计是在单个位点的水平上进行，对于PCR或测序过程中产生的错误只能通过概率模型模型计算进行消除，容易受到干扰。再者，由于方法定位为全基因组比对，在每个基因位置的比对上采用了相同的处理方式，并没有考虑不同基因表达方式的差异，导致在后期的功能注释上无法与生物学意义直接相关联，对受试样品的遗传咨询产生潜在影响。综上可知，目前临床上针对此类数据并没有一种高效、快捷、准确的分析方法。本专利技术目的在于提供一种快速、全面准确、高效的检测多重扩增测序产物中基因突变的分析方法。
技术实现思路
本专利技术的目的在于提供一种基因组多重扩增测序产物中突变信息的检测方法。为实现上述目的，本专利技术提供一种基因组多重扩增测序产...

【技术保护点】
一种基因组多重扩增测序产物中突变信息的检测方法，其特征在于，步骤为，(1)测序数据的质量评估和预处理，过滤掉不合适的测序数据，得到第一测序序列；优选的，所述不合适的测序数据指的是Q20低于80％，或N碱基比例大于20％；(2)引物识别：使用来源于覆盖所检测基因的测序引物，对上述第一测序序列进行来源识别，将可以识别的测序序列为第二测序序列；优选的，可以识别的测序序列指的是引物序列与测序序列的碱基差异在2个以内；(3)序列组装：对第二测序序列中可实现每条扩增子的完全覆盖的两端的测序数据，进行序列组装，将其两条片段的重合序列部分进行合并和质量值的重新计算；得到第三测序序列；(4)序列比对：根据来源于覆盖所检测基因的测序引物的序列位置，从标准参考基因组切取参考序列文件，进而将所述第二测序序列或第三测序序列与所述参考基因序列进行序列比对；得到第四测序序列；(5)变异检测：对所述第四测序序列，采用碱基比较的方式，统计每一个位置上测序序列与所述参考序列的异同，得到初步的变异信息；(6)序列变异精校准：对于相互靠近的突变，将其进行合并，重新计算碱基的突变位置和突变类型；尤其，如果存在其中一侧为插入或缺...

【技术特征摘要】
1.一种基因组多重扩增测序产物中突变信息的检测方法，其特征在于，步骤为，(1)测序数据的质量评估和预处理，过滤掉不合适的测序数据，得到第一测序序列；优选的，所述不合适的测序数据指的是Q20低于80％，或N碱基比例大于20％；(2)引物识别：使用来源于覆盖所检测基因的测序引物，对上述第一测序序列进行来源识别，将可以识别的测序序列为第二测序序列；优选的，可以识别的测序序列指的是引物序列与测序序列的碱基差异在2个以内；(3)序列组装：对第二测序序列中可实现每条扩增子的完全覆盖的两端的测序数据，进行序列组装，将其两条片段的重合序列部分进行合并和质量值的重新计算；得到第三测序序列；(4)序列比对：根据来源于覆盖所检测基因的测序引物的序列位置，从标准参考基因组切取参考序列文件，进而将所述第二测序序列或第三测序序列与所述参考基因序列进行序列比对；得到第四测序序列；(5)变异检测：对所述第四测序序列，采用碱基比较的方式，统计每一个位置上测序序列与所述参考序列的异同，得到初步的变异信息；(6)序列变异精校准：对于相互靠近的突变，将其进行合并，重新计算碱基的突变位置和突变类型；尤其，如果存在其中一侧为插入或缺失的类型，需要对合并后的碱基定位进行调整；得到校准后的第五测序片段；对于插入类型，以基因的转录方向为准，如果插入片段的第一位碱基与插入位置的右侧第一位碱基相同，则将其向转录方向移动，直至不满足此条件为止；得到校准后的第五测序片段；对于缺失类型，以基因的转录方向为准，如果缺失片段的第一位碱基与缺失位置的右侧第一位碱基相同，则将其向转录方向移动，直至不满足此条件为止；得到校准后的第五测序片段；(7)序列变异统计输出：根据最高丰度的第五测序片段类型计算得到目标片段的纯合或杂合状态；最终得到基因组多重扩增测序产物中的突变信息。2.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法，其特征在于，所述引物识别的具体算法为：(1)循环所有来源于覆盖所检测基因的测序引物组合；(2)每次截取测序序列两端和当前来源于覆盖所检测基因的测序引物组合相同的片段进行全局比对，并进行打分，同时记录比对过程中的碱基错配个数和插入缺失个数；(3)根据比对打分确定最佳引物来源，并根据最佳引物来源中的碱基错配个数和插入缺失个数判定测序序列是否为非特异扩增。3.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法，其特征在于，所述序列组装为：(1)将测序序列的后端数据进行反向互补，使其与前端序列具有相同读取方向；(2)将后端序列与前端序列进行不同位置的对齐操作，进而在每种对齐条件下计算后续序列相同与不同的打分值，选取最高打分值作为前后两条序列的最佳组装起点；(3)从最佳比对起点开始，选取两条序列上重合位置测序质量最高的碱基作为最终组装序列的碱基；如果遇到两个不同碱基的质量值相同，则优选前段碱基序列的碱基类型；(4)输出组装后的序列片段，并根据如下原则重新计算碱基质量值打分：a.如...

【专利技术属性】
技术研发人员：李旭超，黄可君，林清华，王伟东，葛会娟，张霞，张林华，阮力，郑立谋，
申请(专利权)人：厦门艾德生物医药科技股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人