一种基因组变异数据的计算方法技术

技术编号：17249055 阅读：20 留言：0更新日期：2018-02-11 07:22

本发明专利技术属于高通量测序的生物信息领域，尤其涉及到一种基因组变异数据的计算方法。选择Samtools、GATK、Varscan、Pindel和SOAPIndel软件对模拟数据进行Indel检测，生成原始Indel数据，计算每两个软件的联合的F值，通过最优的F值建立一个最优选择的规则；利用软件对待测数据进行Indel检测，根据DS,RT,SS,ST进行分组，根据最优化规则选择Indel。可以提高结果的正确率、回收率和F值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基因组变异数据的计算方法
本专利技术属于高通量测序的生物信息领域，尤其涉及到一种基因组变异数据的计算方法。
技术介绍
在重测序技术中变异检测是基因组功能分析的基础，因此检测结果是否准确直接影响分析结果的准确性。近些年在变异检测领域为了弥补单个软件检测结果的不足，发表了一些基于多个软件的整合算法。利用合并软件结果提高回收率，利用提取软件的一致检测结果提高正确率。
技术实现思路
本专利技术所要解决的技术问题是提供一种基因组变异数据的计算方法。本专利技术分析了Indel的大小和基因组序列特征对变异检测结果正确率和回收率的影响，提出了基于最优F值策略的优化算法。本专利技术提出的Indel检测算法是整合多个软件检测结果的优化筛选算法，选择Samtools、GATK(UnifidGenotyper)、Varscan、Pindel和SOAPIndel生成原始Indel数据。这五个软件分别采用了四种不同的算法检测Indel变异。(1)Samtools和GATK(UnifiedGenotyper)是基于测序数据与参考基因组的比对结果，利用贝叶斯统计模型计算每个位点基因型的后验概率检测Indel。(2)Pindel是基于比对结果中未匹配的读段(unmappedreads)数据，利用模式生长算法检测插入/删除变异。(3)Varscan是基于Samtools的pileup数据，利用稳定的启发式算法检测Indel变异，并且能够处理极端读段深度、混池测序数据和测序数据受污染等问题。(4)SOAPIndel是利用DeBruijngraph算法将所有未匹配的读段重组，通过和参考基因组比对...
一种基因组变异数据的计算方法

【技术保护点】
一种基因组变异数据的计算方法，其特征在于，过程如下：1)建立最优化规则选择Samtools、GATK、Varscan、Pindel和SOAPIndel软件对模拟数据进行Indel检测，生成原始Indel数据，计算每两个软件的联合的F值，通过最优的F值建立一个最优选择的规则；2)根据优化规则选择Indel利用软件Samtools、GATK、Varscan、Pindel和SOAPIndel对待测数据进行Indel检测，根据DS,RT,SS,ST进行分组，根据最优化规则选择Indel。

【技术特征摘要】
1.一种基因组变异数据的计算方法，其特征在于，过程如下：1)建立最优化规则选择Samtools、GATK、Varscan、Pindel和SOAPIndel软件对模拟数据进行Indel检测，生成原始Indel数据，计算每两个软件的联合的F值，通过最优的F值建立一个最优选择的规则；2)根据优化规则选...

【专利技术属性】
技术研发人员：袁晓辉，
申请(专利权)人：武汉古奥基因科技有限公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人