一种假阳性核苷酸变异位点的过滤方法及计算设备技术

技术编号：33788188 阅读：15 留言：0更新日期：2022-06-12 14:44

本发明专利技术揭示了一种假阳性核苷酸变异位点的过滤方法及计算设备，方法包括以下步骤：获取测序原始数据；测序原始数据通过突变检测软件检测突变位点，判断位点结果并获取突变候选集；特征提取，对每一个突变位点，分别将VAF值、Ratio值、mVAF值列成表格，形成特征数据集矩阵；随机取总数据的10％作为训练集，其余作为测试集，对训练集支持向量机建模，训练得到的模型，使用测试集进行评估；继续优化返回上一步骤，停止优化选定最优模型。本发明专利技术实现了只根据非对照样本的突变位点的参数，通过机器学习的支持向量机方案构建预测模型，对由软件运行后的突变位点文件进行假阳性位点的过滤，进而得到真阳性变异位点，从而简化后续样本的识别问题。别问题。别问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种假阳性核苷酸变异位点的过滤方法及计算设备

[0001]本专利技术属于生物信息学
，尤其涉及一种假阳性核苷酸变异位点的过滤方法及计算设备。

技术介绍

[0002]伴随诊断是一种能够为有关患者提供针对特定治疗药物的治疗反应信息，有助于患者群体确定从某一治疗产品中获益，从而改善治疗愈后并降低保健开支的体外诊断技术。此外，伴随诊断还有助于确定最有可能针对治疗药物产生响应的患者群体。
[0003]从当前看，二代测序技术的出现为肿瘤的易感基因检测、伴随诊断、个性化用药等提供了更佳的技术支撑和选择，尤其是基于NGS的癌症panel检测使得该领域检测可以更加快速和低廉，达到了同时检测若干个基因和突变位点的目的。目前在中国的常用测序平台有Illumina平台和华大BGI平台。测序仪会对每个测得的碱基进行识别和打分，通过打分可以得到碱基正确性的可信度。
[0004]目前在科学研究中，使用的碱基变异识别软件包括但不限于GATK、Mutect2、Varscan、strelka、freebayes、Pindel等。其中Mutect2、Varscan、Strelka等需要配对的样本进行碱基识别，这样做的好处是通过对照中的胚系位点的识别，可以更好地将体系突变从样本中识别出来。但是在实际应用中，配对样本可能无法获取或者质量较差无法使用。针对这种情况，非强制配对的GATK、freebayes等软件可用，每种软件得到的结果虽然大部分相同，但或多或少因为参数的不同而有差异。即使得到的突变结果，其中也参杂着很多假阳性的位点，需要后...

【技术保护点】

【技术特征摘要】
1.一种假阳性核苷酸变异位点的过滤方法，其特征在于，包括以下步骤：获取测序原始数据；测序原始数据通过突变检测软件检测突变位点，判断位点结果并获取突变候选集；特征提取，对每一个突变位点，分别将VAF值、Ratio值、mVAF值列成表格，形成特征数据集矩阵；随机取总数据的10％作为训练集，其余作为测试集，对训练集支持向量机建模，训练得到的模型，使用测试集进行评估；继续优化返回上一步骤，停止优化选定最优模型。2.根据权利要求1所述的一种假阳性核苷酸变异位点的过滤方法，其特征在于：获取测序原始数据之前还包括步骤，取基因组DNA进行建库、杂交并纯化、测序、修剪、质控。3.根据权利要求2所述的一种假阳性核苷酸变异位点的过滤方法，其特征在于：取基因组DNA进行建库包括具体步骤，对基因组DNA使用可匹配同一测序平台测序的建库试剂盒进行建库。4.根据权利要求2所述的一种假阳性核苷酸变异位点的过滤方法，其特征在于：杂交并纯化包括具体步骤，对建库得到的DNA文库使用同一种杂交探针进行杂交实验，并纯化。5.根据权利要求2所述的一种假阳性核苷酸变异位点的过滤方法，其特征在于：修剪、质控包括具体步骤，对测序得到的原始数据通过数据接头修剪和低质量数据去除，质控后的数据与数据库中的基...

【专利技术属性】
技术研发人员：顾嘉琦，崔杨网，
申请(专利权)人：苏州清港泉生物科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人