一种假阳性核苷酸变异位点的过滤方法及计算设备技术

技术编号:33788188 阅读:15 留言:0更新日期:2022-06-12 14:44
本发明专利技术揭示了一种假阳性核苷酸变异位点的过滤方法及计算设备,方法包括以下步骤:获取测序原始数据;测序原始数据通过突变检测软件检测突变位点,判断位点结果并获取突变候选集;特征提取,对每一个突变位点,分别将VAF值、Ratio值、mVAF值列成表格,形成特征数据集矩阵;随机取总数据的10%作为训练集,其余作为测试集,对训练集支持向量机建模,训练得到的模型,使用测试集进行评估;继续优化返回上一步骤,停止优化选定最优模型。本发明专利技术实现了只根据非对照样本的突变位点的参数,通过机器学习的支持向量机方案构建预测模型,对由软件运行后的突变位点文件进行假阳性位点的过滤,进而得到真阳性变异位点,从而简化后续样本的识别问题。别问题。别问题。

【技术实现步骤摘要】
一种假阳性核苷酸变异位点的过滤方法及计算设备


[0001]本专利技术属于生物信息学
,尤其涉及一种假阳性核苷酸变异位点的过滤方法及计算设备。

技术介绍

[0002]伴随诊断是一种能够为有关患者提供针对特定治疗药物的治疗反应信息,有助于患者群体确定从某一治疗产品中获益,从而改善治疗愈后并降低保健开支的体外诊断技术。此外,伴随诊断还有助于确定最有可能针对治疗药物产生响应的患者群体。
[0003]从当前看,二代测序技术的出现为肿瘤的易感基因检测、伴随诊断、个性化用药等提供了更佳的技术支撑和选择,尤其是基于NGS的癌症panel检测使得该领域检测可以更加快速和低廉,达到了同时检测若干个基因和突变位点的目的。目前在中国的常用测序平台有Illumina平台和华大BGI平台。测序仪会对每个测得的碱基进行识别和打分,通过打分可以得到碱基正确性的可信度。
[0004]目前在科学研究中,使用的碱基变异识别软件包括但不限于GATK、Mutect2、Varscan、strelka、freebayes、Pindel等。其中Mutect2、Varscan、Strelka等需要配对的样本进行碱基识别,这样做的好处是通过对照中的胚系位点的识别,可以更好地将体系突变从样本中识别出来。但是在实际应用中,配对样本可能无法获取或者质量较差无法使用。针对这种情况,非强制配对的GATK、freebayes等软件可用,每种软件得到的结果虽然大部分相同,但或多或少因为参数的不同而有差异。即使得到的突变结果,其中也参杂着很多假阳性的位点,需要后期进一步的过滤或者人工判读。
[0005]在临床标本检测的应用中,往往还受到肿瘤样本纯度及其中克隆结构比例的影响。因为临床标本往往通过手术或者穿刺获取组织标本,在此过程中,或多或少会带有正常组织的残留,正常组织的残留会极大影响肿瘤样本中突变位点的识别;另一方面肿瘤由于其异质性,导致实体瘤中的癌细胞与癌细胞的性质极有可能也不相同,往往会形成细胞亚群,这些肿瘤细胞亚群的异质性往往会给治疗造成误判,需要精准地识别。这些影响会稀释低频的变异检测的准确率和精确度,虽然可以通过降低突变识别软件中的识别阈值来克服这一问题,但是降低的阈值往往会造成成千上万的假阳性位点,这些假阳性位点需要进一步过滤和识别。有研究表明,当样本纯度低于50%时,变异的精确度将迅速下降(甚至低于25%),样品纯度每降低2%,每兆碱基可引入166个假阳性。随着样本纯度由30%下降到5%,结构变异检测的假阳性率由19.375%上升到38.125%,假阳性将严重影响碱基变异检测的准确性。
[0006]现有的识别碱基突变假阳性的方案主要有两种:第一种方案是检测软件自带的参数过滤方案,该方案直接根据用户设定的参数,比如QD、FS、MQ、MQRankSum、ReadPosRankSum、SOR等参数,对位点进行过滤,效果很不好。参数阈值设定得宽泛,容易导致没有效果;设定得苛刻,容易丢失阳性位点。第二种方案是通过事先获取的对照或正常标本预先进行检测,通过软件构建一组PON(Panel of Normal)数据集,即所谓的“污染库”,在
PON数据集中,大部分位点都会有在对照或正常样本中的检出率。然后,在样本检测突变检测后,通过贝叶斯算法或机器学习的模型识别阳性位点,这个方法的好处是即使一个样本没有对照数据,因为有了一组PON数据集,可以认为有了集合对照,因此可以相对准确的对数据进行识别。其缺点也很明显,需要预先获取一定的对照数据集,在很多时候往往没有这个条件。

技术实现思路

[0007]本专利技术的目的是为了解决上述技术问题,而提供一种假阳性核苷酸变异位点的过滤方法及计算设备,从而实现只根据非对照样本的突变位点的参数,通过机器学习的支持向量机(SVM)方案构建预测模型,对由软件运行后的突变位点文件进行假阳性位点的过滤,进而得到真阳性变异位点,从而简化后续样本的识别问题。为了达到上述目的,本专利技术技术方案如下:
[0008]一种假阳性核苷酸变异位点的过滤方法,包括以下步骤:
[0009]获取测序原始数据;
[0010]测序原始数据通过突变检测软件检测突变位点,判断位点结果并获取突变候选集;
[0011]特征提取,对每一个突变位点,分别将VAF值、Ratio值、mVAF值列成表格,形成特征数据集矩阵;
[0012]随机取总数据的10%作为训练集,其余作为测试集,对训练集支持向量机建模,训练得到的模型,使用测试集进行评估;
[0013]继续优化返回上一步骤,停止优化选定最优模型。
[0014]进一步的,获取测序原始数据之前还包括步骤,
[0015]取基因组DNA进行建库、杂交并纯化、测序、修剪、质控。
[0016]进一步的,取基因组DNA进行建库包括具体步骤,对基因组DNA使用可匹配同一测序平台测序的建库试剂盒进行建库。
[0017]进一步的,杂交并纯化包括具体步骤,
[0018]对建库得到的DNA文库使用同一种杂交探针进行杂交实验,并纯化。
[0019]进一步的,修剪、质控包括具体步骤,
[0020]对测序得到的原始数据通过数据接头修剪和低质量数据去除,质控后的数据与数据库中的基因组数据进行比对,生成bam文件。
[0021]进一步的,获取突变候选集包括具体步骤,
[0022]对bam文件使用突变检测软件,进行检测并输出vcf文件;
[0023]特征提取包括具体步骤,
[0024]从vcf文件中提取由突变检测软件检测生成的VAF参数作为变异特征。
[0025]进一步的,对每一个突变位点,分别将VAF值、Ratio值、mVAF值列成表格之后还包括步骤,根据标准品的参考结果对每一个突变位点进行标记标签。
[0026]进一步的,对于表格中的VAF值、Ratio值、mVAF值和标签数据读入python程序。
[0027]进一步的,使用基于python的sklearn函数中的SVM函数对数据进行训练。
[0028]进一步的,选定最优模型包括具体步骤,
[0029]通过绘制ROC曲线,评估模型效果。
[0030]一种计算设备,包括至少一个处理器、存储器、及至少一个程序,其中程序存储在所述存储器中并被配置为所述处理器执行,所述程序包括用于执行所述的方法的指令。
[0031]与现有技术相比,本专利技术一种假阳性核苷酸变异位点的过滤方法及计算设备的有益效果主要体现在:
[0032]通过直接将样本经过传统突变软件,设定突变检测软件阈值为最低系数,检测得到的突变参数列表;根据突变参数列表提取VAF值,根据位点信息提取Ratio值和mVAF值制成表格;并通过支持向量机构建的过滤模型进行运算得到过滤后的阳性位点,实现尽可能少的人工干预,得到最优的阳性位点结果。从突变变异检测结果文件中提取初始特征,结合支持向量机测试得到的过滤模型,最终得到准确度和灵敏度更高的结果。
附图说明
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种假阳性核苷酸变异位点的过滤方法,其特征在于,包括以下步骤:获取测序原始数据;测序原始数据通过突变检测软件检测突变位点,判断位点结果并获取突变候选集;特征提取,对每一个突变位点,分别将VAF值、Ratio值、mVAF值列成表格,形成特征数据集矩阵;随机取总数据的10%作为训练集,其余作为测试集,对训练集支持向量机建模,训练得到的模型,使用测试集进行评估;继续优化返回上一步骤,停止优化选定最优模型。2.根据权利要求1所述的一种假阳性核苷酸变异位点的过滤方法,其特征在于:获取测序原始数据之前还包括步骤,取基因组DNA进行建库、杂交并纯化、测序、修剪、质控。3.根据权利要求2所述的一种假阳性核苷酸变异位点的过滤方法,其特征在于:取基因组DNA进行建库包括具体步骤,对基因组DNA使用可匹配同一测序平台测序的建库试剂盒进行建库。4.根据权利要求2所述的一种假阳性核苷酸变异位点的过滤方法,其特征在于:杂交并纯化包括具体步骤,对建库得到的DNA文库使用同一种杂交探针进行杂交实验,并纯化。5.根据权利要求2所述的一种假阳性核苷酸变异位点的过滤方法,其特征在于:修剪、质控包括具体步骤,对测序得到的原始数据通过数据接头修剪和低质量数据去除,质控后的数据与数据库中的基...

【专利技术属性】
技术研发人员:顾嘉琦崔杨网
申请(专利权)人:苏州清港泉生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1