一种校正线粒体基因组测序突变的方法、装置和存储介质制造方法及图纸

技术编号：39009120 阅读：11 留言：0更新日期：2023-10-07 10:40

本申请公开了一种校正线粒体基因组测序突变的方法、装置和存储介质。本申请的线粒体基因组测序突变校正方法包括，先通过已知突变白名单保留可能致病的突变，再使用突变所在读段的位置的平均值、突变的链分布偏差、突变的平均碱基质量值等11个过滤指标，去除由于实验错误和测序错误导致的假阳性，从而得到可信度高的突变集合。本申请的校正方法在减少突变解读工作量的同时，提高了分析结果的准确性。并且，本申请的校正方法不受样本数量的限制，能够对单样本或数量较少的样本进行校正。够对单样本或数量较少的样本进行校正。够对单样本或数量较少的样本进行校正。

全部详细技术资料下载

【技术实现步骤摘要】
一种校正线粒体基因组测序突变的方法、装置和存储介质

[0001]本申请涉及线粒体基因组突变检测
，特别是涉及一种校正线粒体基因组测序突变的方法、装置和存储介质。

技术介绍

[0002]通过对人类血液或其他组织样本，采用探针杂交捕获技术进行线粒体基因组DNA捕获和富集，然后进行高通量测序，即可得到线粒体基因组序列。通过对测序数据进行质控，去除重复序列，使用比对软件进行序列比对后，使用突变检测软件对线粒体基因组进行突变检测，即可得到线粒体基因组的突变数据，即线粒体基因组测序突变数据。但是，研究显示，这些突变数据有相当一部分是由于测序错误、实验方法不当或比对算法的系统误差导致；也就是说，这些突变有相当部分并非人类线粒体基因组中真实存在的突变；这部分突变会给下游的分析加重负担，并且干扰线粒体基因组测序突变数据检测结果。因此需要对这些突变进行校正和过滤，才能减少下游分析的工作量，提高分析结果的准确性。
[0003]目前点突变校正和过滤的方法主要使用机器学习训练模型或者使用硬指标来过滤。其中，硬指标过滤，例如突变质量值、突变的链分布偏差等。而主要应用机器学习模型的方法是VQSR(Variant Quality Score Recalibration突变质量值重校正)。
[0004]VQSR的核心原理是利用GMM(Gaussian Mixture Model高斯混合模型)模型构造一个区分真变异和假变异的分类器，在构造该模型的时候使用和已知突变数据集一致的位点，并分配相应的可信度权重来进行训练。这些已知且被严格...

【技术保护点】

【技术特征摘要】
1.一种校正线粒体基因组测序突变的方法，其特征在于：包括以下步骤，将待校正的线粒体基因组测序突变与已知突变白名单进行比较，保留出现在已知突变白名单中的待校正的线粒体基因组测序突变，作为第一突变集；对没有出现在已知突变白名单中的待校正的线粒体基因组测序突变，根据1)突变频率、2)突变所在读段的位置的平均值、3)突变是否都位于同一位置、4)突变的平均碱基质量值、5)读段比对质量值的均方根、6)突变的单位深度质量值、7)读段平均比对错配数量、8)信噪比、9)杂合位点读段的碱基质量值秩和检验、10)杂合位点突变位置的秩和检验以及11)突变的链分布偏差对突变进行过滤，将过滤后剩余的突变作为第二突变集；合并第一突变集和第二突变集，即获得校正后的线粒体基因组测序突变；所述已知突变白名单为经过验证的已知为致病、可能致病或意义不明的突变集合。2.根据权利要求1所述的方法，其特征在于：根据1)突变频率对突变进行过滤包括，计算所有突变的突变频率，对于同一突变位点，只保留同一突变位点中突变频率最高的突变；优选的，根据2)突变所在读段的位置的平均值对突变进行过滤包括，统计同一突变位点在不同读段中的位置，计算这些位置的平均值，过滤去除突变频率小于突变频率阈值，且位置的平均值小于位置阈值的突变；优选的，根据3)突变是否都位于同一位置对突变进行过滤包括，对于同一突变位点，过滤去除突变位点在不同的读段中的位置都相同的突变；优选的，根据4)突变的平均碱基质量值对突变进行过滤包括，计算突变的平均碱基质量值，过滤去除平均碱基质量值低于碱基质量值阈值的突变；优选的，根据5)读段比对质量值的均方根对突变进行过滤包括，计算突变所在的所有读段的对比质量值的均方根，过滤去除对比质量值均方根小于均方根阈值的突变；优选的，根据6)突变的单位深度质量值对突变进行过滤包括，计算突变的单位深度质量值，过滤去除单位深度质量值小于单位深度质量值阈值的突变；优选的，根据7)读段平均比对错配数量对突变进行过滤包括，计算突变所在读段的平均比对错配数量，过滤去除平均比对错配数量大于比对错配数量阈值的突变；优选的，根据8)信噪比对突变进行过滤包括，统计突变所在的读段中，碱基质量值大于碱基质量值阈值的读段数量，碱基质量值小于碱基质量值阈值的读段数量，将碱基质量值大于碱基质量值阈值的读段数量除以碱基质量值小于碱基质量值阈值的读段数量的商作为信噪比，过滤去除信噪比值小于信噪比阈值的突变；优选的，根据9)杂合位点读段的碱基质量值秩和检验对突变进行过滤包括，对突变碱基所在读段的碱基质量值和参考碱基所在读段的碱基质量值作秩和检验，过滤去除秩和小于质量值秩和阈值的突变；优选的，根据10)杂合位点突变位置的秩和检验对突变进行过滤包括，对突变碱基所在读段中的位置和参考碱基所在读段中的位置作秩和检验，过滤去除秩和小于位置秩和阈值的突变。3.根据权利要求2所述的方法，其特征在于：所述突变频率的计算公式为，AF＝ALT/覆盖该位点的读段总数，或者，AF＝ALT/(REF+所有ALT)
其中，AF为突变频率，ALT为同一位点突变碱基的数量，REF同一位点参考碱基的数量，所有ALT是指在同一位置有多个突变的情况下所有突变的ALT。4.根据权利要求2所述的方法，其特征在于：所述突变频率阈值为0.35，所述位置阈值为8；优选的，所述碱基质量值阈值为22.5；优选的，所述均方根阈值为40；优选的，所述突变的单位深度质量值的计算方式为，将突变的质量值除以所有含有突变的样本的深度之和的商作为单位深度质量值；优选的，所述单位深度质量值阈值为2；优选的，所述比对错配数量阈值为5.25；优选的，根据8)信噪比对突变进行过滤时，如果碱基质量值小于碱基质量值阈值的读段数量为0，则将其赋值为0.5；优选的，所述信噪比阈值为1.5；优选的，所述质量值秩和阈值为
‑
12.5；优选的，所述位置秩和阈值为
‑
8。5.根据权利要求1
‑
4任一项所述的方法，其特征在于：根据11)突变的链分布偏差对突变进行过滤包括，只使用平均碱基质量值大于22.5的读段，计算突变的频率，标记为HiAF；分别计算在正链的参考碱基数量，标记为SRF，在负链的参考碱基数量，标记为SRR，在正链的突变碱基数量，标记为SAF，在负链的突变碱基数量，标记为SAR；对于参考碱基，当SRF和SRR任意一个为0，且SRF+SRR<＝12时，参考碱基偏差值RefBias为0；计算SRF/(SRF+SRR)，SRR/(SRF+SRR)，当以上值都大于0.05，且SRF和SRR都大于2，参考碱基偏差值RefBias为2，否则为1；对于突变碱基，当SAF和SAR任意一个为0，且SAF+SAR<＝12时，突变碱基偏差值AltBias等于0；计算SAF/(SAF+SAR)，SAR/(SAF+SAR)，当以上值都大于0.05，且SAF和SAR都大于2，突变碱基偏差值AltBias为2，否则为1；对SRF、SRR、SAF和SAR进行Fisher精确检验，得到p值和优势比值odd ratio；当HiAF小于0.25，RefBias为2，且AltBias为1，p值小于等于0.01，odd ratio大于5或等于0，且突变长度小于100bp时，过滤去除该突变。6.根据权利要求1
‑
4任一项所述的方法，其特征在于：由线粒体相关疾病数据库MSeqDR和临床疾病和表型相关突变数据库ClinVar的线粒体突变数据，保留致病、可能致病或意义不明的突变，进行合并和去除重复，构成所述已知突变白名单。7.一种校正线粒体基因组测序突变的装置，其特征在于：包括白名单比对模块、突变过滤模块、校正后数据获取模块；所述白名单比对模块，包括用于将待校正的线粒体基因组测序突变与已知突变白名单进行比...

【专利技术属性】
技术研发人员：黄凯，窦浩宇，刘永初，燕攀，刘阳，李阳，
申请(专利权)人：深圳雅济科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人