一种识别和消除核酸变异检测中假阳性的方法和装置制造方法及图纸

技术编号：20922045 阅读：47 留言：0更新日期：2019-04-20 10:52

本申请公开了一种识别和消除核酸变异检测中假阳性的方法和装置。本申请的方法包括，读取待测样品的变异检测软件结果文件；读取去除PCR重复后测序read的比对文件，获得每一个变异位点覆盖的read pair比对结果；判断变异位点是否位于DNA分子read pair overlap区域，对每个突变覆盖的read pair进行分析和统计；对每一个支持突变的分子和read进行统计，标注出可以用于突变过滤的特征；基于以上特征值对变异位点进行过滤。本申请的方法，根据核酸变异假阳性位点和真阳性位点的分布特征，对核酸变异检测结果进行过滤，不仅能够有效的去除假阳性位点，而且提高了核酸变异检测结果的准确性。

A Method and Device for Identifying and Eliminating False Positive Nucleic Acid Variation Detection

This application discloses a method and device for identifying and eliminating false positives in nucleic acid mutation detection. The method of this application includes reading the result file of mutation detection software for the sample to be tested, reading the read pair comparison file after deleting the repetition of PCR, obtaining the result of read pair comparison covered by each mutation site, judging whether the mutation site is located in the read pair overlap region of DNA molecule, analyzing and counting the read pair covered by each mutation, and counting the score of each support mutation. Statistical analysis was carried out with read and the features that could be used for mutation filtering were labeled, and the mutation sites were filtered based on the above eigenvalues. According to the distribution characteristics of false positive sites and true positive sites of nucleic acid mutation, the application method filters the results of nucleic acid mutation detection, which can not only effectively remove false positive sites, but also improve the accuracy of nucleic acid mutation detection results.

全部详细技术资料下载

【技术实现步骤摘要】
一种识别和消除核酸变异检测中假阳性的方法和装置
本申请涉及核酸变异检测领域，特别是涉及一种识别和消除核酸变异检测中假阳性的方法和装置。
技术介绍
核酸变异或称基因突变，是指基因在结构上发生碱基对组成或排列顺序的改变，包括单核苷酸位点变异(缩写SNV)、插入缺失变异(缩写INDEL)、移码突变等。核酸变异是自然界普遍存在的现象，对人类基因组而言，核酸变异通常会引起生理性或病理性改变；因此，核酸变异检测及相关研究是人类基因组研究的重点。目前，核酸变异检测主要是通过高通量测序，将测序结果与参考基因组进行比对，从而获得核酸变异信息。但是，受现有的测序文库建库技术和测序技术的影响，测序过程中会引入的大量的测序错误；同时，序列比对软件也可能产生比对错误；从而导致变异检测软件检测出大量的假阳性变异位点，不仅增加了后期人工筛选假阳性位点的工作量，而且可能导致最终检测报告里的假阳性位点过高，影响准确性。
技术实现思路
本申请的目的是提供一种新的识别和消除核酸变异检测中假阳性的方法和装置。为了实现上述目的，本申请采用了以下技术方案：本申请的一方面公开了一种识别和消除核酸变异检测中假阳性的...

【技术保护点】
1.一种识别和消除核酸变异检测中假阳性的方法，其特征在于：包括以下步骤，变异信息读取步骤，包括读取变异检测软件生成的待测样品的结果文件，所述结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型；基因片段过滤步骤，包括读取待测样品的下机序列比对到人类参考基因上生成的去重后比对文件，筛选获得每一个变异位点覆盖的readpair比对结果，然后过滤去除与参考基因组比对错配超过2个的readpair，过滤去除突变碱基质量值均小于25的readpair，过滤去除在突变位置碱基不一致的readpair；变异位点判断步骤，包括判断变异位点是否位于DNA分子readpa...

【技术特征摘要】
1.一种识别和消除核酸变异检测中假阳性的方法，其特征在于：包括以下步骤，变异信息读取步骤，包括读取变异检测软件生成的待测样品的结果文件，所述结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型；基因片段过滤步骤，包括读取待测样品的下机序列比对到人类参考基因上生成的去重后比对文件，筛选获得每一个变异位点覆盖的readpair比对结果，然后过滤去除与参考基因组比对错配超过2个的readpair，过滤去除突变碱基质量值均小于25的readpair，过滤去除在突变位置碱基不一致的readpair；变异位点判断步骤，包括判断变异位点是否位于DNA分子readpairoverlap区域，统计变异位点位于DNA分子overlap区域的readpair数、位于非overlap区域的readpair数、位于非overlap区域的singlemapread数；变异位点信息统计步骤，包括统计支持变异的拷贝数大于或等于2的分子数、小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度；变异位点过滤步骤，包括基于所述变异位点判断步骤和所述变异位点信息统计步骤的特征值对变异位点进行过滤，去除假阳性位点。2.根据权利要求1所述的方法，其特征在于：所述变异位点过滤步骤，具体包括筛选符合以下条件的阳性位点，1)2个支持突变DNA分子位于readpairoverlap，且单端支持与overlap支持的分子数比值小于5；2)支持突变的read，多比对read比例小于等于20％，且数目不超过4条；3)支持突变的read中，末端突变read比例不超过50％；4)UMI建库的测序数据，去重后，UMI标签数量大于等于2；5)支持突变的read平均比对质量值大于等于30；6)血浆游离DNA测序样本中，支持突变的分子插入片段长度均值小于200；7)过滤去除在人类参考基因组重复区域的Indel，以及该Indel上下游10bp的SNV；8)支持突变的read数与支持突变的分子数之间比值小于3。3.根据权利要求1或2所述的方法，其特征在于：所述变异检测软件为输出文件格式为VCF的变异检测软件，优选为VanScan、Mutect、Lancet或GATK。4.根据权利要求1或2所述的方法，其特征在于：所述比对文件为BWA比对软件生成的去重后BAM文件。5.一种识别和消除核酸变异检测中假阳性的装置，其特征在于：包括变异信息读取模块、基因片段过滤模块、变异位点判断模块、变异位点信息统计模块和变异位点过滤模块；所述变异信息读取模块，包括用于读取变异检测软件生成的待测样...

【专利技术属性】
技术研发人员：周衍庆，汪周阳，方文，张实唯，
申请(专利权)人：深圳市海普洛斯生物科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人