一种校正线粒体基因组测序突变的方法、装置和存储介质制造方法及图纸

技术编号:39009120 阅读:11 留言:0更新日期:2023-10-07 10:40
本申请公开了一种校正线粒体基因组测序突变的方法、装置和存储介质。本申请的线粒体基因组测序突变校正方法包括,先通过已知突变白名单保留可能致病的突变,再使用突变所在读段的位置的平均值、突变的链分布偏差、突变的平均碱基质量值等11个过滤指标,去除由于实验错误和测序错误导致的假阳性,从而得到可信度高的突变集合。本申请的校正方法在减少突变解读工作量的同时,提高了分析结果的准确性。并且,本申请的校正方法不受样本数量的限制,能够对单样本或数量较少的样本进行校正。够对单样本或数量较少的样本进行校正。够对单样本或数量较少的样本进行校正。

【技术实现步骤摘要】
一种校正线粒体基因组测序突变的方法、装置和存储介质


[0001]本申请涉及线粒体基因组突变检测
,特别是涉及一种校正线粒体基因组测序突变的方法、装置和存储介质。

技术介绍

[0002]通过对人类血液或其他组织样本,采用探针杂交捕获技术进行线粒体基因组DNA捕获和富集,然后进行高通量测序,即可得到线粒体基因组序列。通过对测序数据进行质控,去除重复序列,使用比对软件进行序列比对后,使用突变检测软件对线粒体基因组进行突变检测,即可得到线粒体基因组的突变数据,即线粒体基因组测序突变数据。但是,研究显示,这些突变数据有相当一部分是由于测序错误、实验方法不当或比对算法的系统误差导致;也就是说,这些突变有相当部分并非人类线粒体基因组中真实存在的突变;这部分突变会给下游的分析加重负担,并且干扰线粒体基因组测序突变数据检测结果。因此需要对这些突变进行校正和过滤,才能减少下游分析的工作量,提高分析结果的准确性。
[0003]目前点突变校正和过滤的方法主要使用机器学习训练模型或者使用硬指标来过滤。其中,硬指标过滤,例如突变质量值、突变的链分布偏差等。而主要应用机器学习模型的方法是VQSR(Variant Quality Score Recalibration突变质量值重校正)。
[0004]VQSR的核心原理是利用GMM(Gaussian Mixture Model高斯混合模型)模型构造一个区分真变异和假变异的分类器,在构造该模型的时候使用和已知突变数据集一致的位点,并分配相应的可信度权重来进行训练。这些已知且被严格验证的变异被当作真实的变异,来训练区分真变异的GMM,接着对输入的数据进行打分,然后把评分最低的突变作为假变异的集合,来构造区分假变异的GMM。最后用构造好的两个GMM模型,即真变异GMM和假变异GMM,同时对变异进行打分,判定输入的突变属于真变异的分类还是假变异的分类。
[0005]为了保证分类结果可靠,VQSR在进行模型训练的时候有最低可用位点数目的要求,例如真和假变异可供训练的数目须超过5000个,否则无法训练出可用的模型。一般人类的全基因组测序能满足最低可用位点数目要求,但对于单个样本的人类外显子组测序、线粒体基因组测序或其他小型基因组测序,则无法满足以上要求。所以单个样本的线粒体基因组测序无法使用VQSR进行突变校正和过滤,即使采取多样本进行突变校正和过滤的方法,所需的样本数量也是极大的,这使得VQSR突变校正和过滤的效率极大受限。
[0006]另外,也有研究显示,可以使用突变质量值或突变的链分布偏差等指标进行过滤;但是,现有的基于这些硬指标进行过滤的校正方法普遍存在准确性较差、假阳性多等不足。
[0007]因此,如何更有效和准确的去除由于实验错误和测序错误导致的假阳性,得到更可靠的突变合集,仍然是线粒体基因组测序突变数据分析的重要难题。

技术实现思路

[0008]本申请的目的是提供一种新的校正线粒体基因组测序突变的方法、装置和存储介质。
[0009]为了实现上述目的,本申请采用了以下技术方案:
[0010]本申请的第一方面公开了一种校正线粒体基因组测序突变的方法,其包括,将待校正的线粒体基因组测序突变与已知突变白名单进行比较,保留出现在已知突变白名单中的待校正的线粒体基因组测序突变,作为第一突变集;对没有出现在已知突变白名单中的待校正的线粒体基因组测序突变,根据1)突变频率、2)突变所在读段的位置的平均值、3)突变是否都位于同一位置、4)突变的平均碱基质量值、5)读段比对质量值的均方根、6)突变的单位深度质量值、7)读段平均比对错配数量、8)信噪比、9)杂合位点读段的碱基质量值秩和检验、10)杂合位点突变位置的秩和检验以及11)突变的链分布偏差对突变进行过滤,将过滤后剩余的突变作为第二突变集;合并第一突变集和第二突变集,即获得校正后的线粒体基因组测序突变;已知突变白名单为经过验证的已知为致病、可能致病或意义不明的突变集合。
[0011]其中,经过验证的已知突变集合,可以是数据库中的突变集合,例如,线粒体相关疾病数据库MSeqDR、临床疾病和表型相关突变数据库ClinVar,也可以是其他经过严格验证的已知突变的集合。
[0012]需要说明的是,本申请的校正方法,先通过已知突变白名单过滤部分突变,仅仅对没有出现在已知突变白名单中的突变进行进一步的分析和过滤,减小了后续分析的数据量和成本;并且,本申请综合各方面因素,采用11个过滤指标,去除由于实验错误和测序错误导致的假阳性,得到最终真实的突变合集。并且,本申请的校正方法,突变的过滤不需要考虑位点数量的多少,不需要同时对多样本进行过滤,单个样本即可进行突变过滤和校正;本申请的突变过滤指标更多,且构建的已知突变白名单保证了不会遗漏有意义的突变,从而使结果更可靠。可以理解,本申请的校正方法,不仅仅能够用于人类线粒体基因组突变数据的过滤校正,也可应用于白鼠、斑马鱼等其他物种的线粒体基因组或果蝇基因组等小型基因组的突变数据校正。此外,本申请的校正方法虽然能够很好的适用于单样本的过滤和校正,自然也能够用于多样本的突变过滤和校正,尤其是数量较少的情况下的多样本校正。
[0013]还需要说明的是,对于人类全基因组或全外显子组测序突变数据,白名单的构建作用不显著,因为突变数量过大,白名单无法包含海量的突变;但是,对于线粒体基因组这种小型的基因组,白名单突变能保证不会遗漏绝大多数已发现的可能致病突变,使得整体结果更准确可信;并且,还能够减少下游分析的工作量,提高分析结果的准确性。因此,本申请的校正方法,更适合用于线粒体基因组等小型的基因组的测序突变校正;而现有的其他校正方法更适用于较大型的基因组。
[0014]本申请的一种实现方式中,根据1)突变频率对突变进行过滤包括,计算所有突变的突变频率,对于同一突变位点,只保留同一突变位点中突变频率最高的突变。
[0015]本申请的一种实现方式中,根据2)突变所在读段的位置的平均值对突变进行过滤包括,统计同一突变位点在不同读段中的位置,计算这些位置的平均值,过滤去除突变频率小于突变频率阈值,且位置的平均值小于位置阈值的突变。
[0016]本申请的一种实现方式中,根据3)突变是否都位于同一位置对突变进行过滤包括,对于同一突变位点,过滤去除突变位点在不同的读段中的位置都相同的突变。
[0017]本申请的一种实现方式中,根据4)突变的平均碱基质量值对突变进行过滤包括,计算突变的平均碱基质量值,过滤去除平均碱基质量值低于碱基质量值阈值的突变。
[0018]本申请的一种实现方式中,根据5)读段比对质量值的均方根对突变进行过滤包括,计算突变所在的所有读段的对比质量值的均方根,过滤去除对比质量值均方根小于均方根阈值的突变。
[0019]本申请的一种实现方式中,根据6)突变的单位深度质量值对突变进行过滤包括,计算突变的单位深度质量值,过滤去除单位深度质量值小于单位深度质量值阈值的突变。
[0020]本申请的一种实现方式中,根据7)读段平均比对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种校正线粒体基因组测序突变的方法,其特征在于:包括以下步骤,将待校正的线粒体基因组测序突变与已知突变白名单进行比较,保留出现在已知突变白名单中的待校正的线粒体基因组测序突变,作为第一突变集;对没有出现在已知突变白名单中的待校正的线粒体基因组测序突变,根据1)突变频率、2)突变所在读段的位置的平均值、3)突变是否都位于同一位置、4)突变的平均碱基质量值、5)读段比对质量值的均方根、6)突变的单位深度质量值、7)读段平均比对错配数量、8)信噪比、9)杂合位点读段的碱基质量值秩和检验、10)杂合位点突变位置的秩和检验以及11)突变的链分布偏差对突变进行过滤,将过滤后剩余的突变作为第二突变集;合并第一突变集和第二突变集,即获得校正后的线粒体基因组测序突变;所述已知突变白名单为经过验证的已知为致病、可能致病或意义不明的突变集合。2.根据权利要求1所述的方法,其特征在于:根据1)突变频率对突变进行过滤包括,计算所有突变的突变频率,对于同一突变位点,只保留同一突变位点中突变频率最高的突变;优选的,根据2)突变所在读段的位置的平均值对突变进行过滤包括,统计同一突变位点在不同读段中的位置,计算这些位置的平均值,过滤去除突变频率小于突变频率阈值,且位置的平均值小于位置阈值的突变;优选的,根据3)突变是否都位于同一位置对突变进行过滤包括,对于同一突变位点,过滤去除突变位点在不同的读段中的位置都相同的突变;优选的,根据4)突变的平均碱基质量值对突变进行过滤包括,计算突变的平均碱基质量值,过滤去除平均碱基质量值低于碱基质量值阈值的突变;优选的,根据5)读段比对质量值的均方根对突变进行过滤包括,计算突变所在的所有读段的对比质量值的均方根,过滤去除对比质量值均方根小于均方根阈值的突变;优选的,根据6)突变的单位深度质量值对突变进行过滤包括,计算突变的单位深度质量值,过滤去除单位深度质量值小于单位深度质量值阈值的突变;优选的,根据7)读段平均比对错配数量对突变进行过滤包括,计算突变所在读段的平均比对错配数量,过滤去除平均比对错配数量大于比对错配数量阈值的突变;优选的,根据8)信噪比对突变进行过滤包括,统计突变所在的读段中,碱基质量值大于碱基质量值阈值的读段数量,碱基质量值小于碱基质量值阈值的读段数量,将碱基质量值大于碱基质量值阈值的读段数量除以碱基质量值小于碱基质量值阈值的读段数量的商作为信噪比,过滤去除信噪比值小于信噪比阈值的突变;优选的,根据9)杂合位点读段的碱基质量值秩和检验对突变进行过滤包括,对突变碱基所在读段的碱基质量值和参考碱基所在读段的碱基质量值作秩和检验,过滤去除秩和小于质量值秩和阈值的突变;优选的,根据10)杂合位点突变位置的秩和检验对突变进行过滤包括,对突变碱基所在读段中的位置和参考碱基所在读段中的位置作秩和检验,过滤去除秩和小于位置秩和阈值的突变。3.根据权利要求2所述的方法,其特征在于:所述突变频率的计算公式为,AF=ALT/覆盖该位点的读段总数,或者,AF=ALT/(REF+所有ALT)
其中,AF为突变频率,ALT为同一位点突变碱基的数量,REF同一位点参考碱基的数量,所有ALT是指在同一位置有多个突变的情况下所有突变的ALT。4.根据权利要求2所述的方法,其特征在于:所述突变频率阈值为0.35,所述位置阈值为8;优选的,所述碱基质量值阈值为22.5;优选的,所述均方根阈值为40;优选的,所述突变的单位深度质量值的计算方式为,将突变的质量值除以所有含有突变的样本的深度之和的商作为单位深度质量值;优选的,所述单位深度质量值阈值为2;优选的,所述比对错配数量阈值为5.25;优选的,根据8)信噪比对突变进行过滤时,如果碱基质量值小于碱基质量值阈值的读段数量为0,则将其赋值为0.5;优选的,所述信噪比阈值为1.5;优选的,所述质量值秩和阈值为

12.5;优选的,所述位置秩和阈值为

8。5.根据权利要求1

4任一项所述的方法,其特征在于:根据11)突变的链分布偏差对突变进行过滤包括,只使用平均碱基质量值大于22.5的读段,计算突变的频率,标记为HiAF;分别计算在正链的参考碱基数量,标记为SRF,在负链的参考碱基数量,标记为SRR,在正链的突变碱基数量,标记为SAF,在负链的突变碱基数量,标记为SAR;对于参考碱基,当SRF和SRR任意一个为0,且SRF+SRR<=12时,参考碱基偏差值RefBias为0;计算SRF/(SRF+SRR),SRR/(SRF+SRR),当以上值都大于0.05,且SRF和SRR都大于2,参考碱基偏差值RefBias为2,否则为1;对于突变碱基,当SAF和SAR任意一个为0,且SAF+SAR<=12时,突变碱基偏差值AltBias等于0;计算SAF/(SAF+SAR),SAR/(SAF+SAR),当以上值都大于0.05,且SAF和SAR都大于2,突变碱基偏差值AltBias为2,否则为1;对SRF、SRR、SAF和SAR进行Fisher精确检验,得到p值和优势比值odd ratio;当HiAF小于0.25,RefBias为2,且AltBias为1,p值小于等于0.01,odd ratio大于5或等于0,且突变长度小于100bp时,过滤去除该突变。6.根据权利要求1

4任一项所述的方法,其特征在于:由线粒体相关疾病数据库MSeqDR和临床疾病和表型相关突变数据库ClinVar的线粒体突变数据,保留致病、可能致病或意义不明的突变,进行合并和去除重复,构成所述已知突变白名单。7.一种校正线粒体基因组测序突变的装置,其特征在于:包括白名单比对模块、突变过滤模块、校正后数据获取模块;所述白名单比对模块,包括用于将待校正的线粒体基因组测序突变与已知突变白名单进行比...

【专利技术属性】
技术研发人员:黄凯窦浩宇刘永初燕攀刘阳李阳
申请(专利权)人:深圳雅济科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1