一种基因组变异数据的计算方法技术

技术编号:17249055 阅读:20 留言:0更新日期:2018-02-11 07:22
本发明专利技术属于高通量测序的生物信息领域,尤其涉及到一种基因组变异数据的计算方法。选择Samtools、GATK、Varscan、Pindel和SOAPIndel软件对模拟数据进行Indel检测,生成原始Indel数据,计算每两个软件的联合的F值,通过最优的F值建立一个最优选择的规则;利用软件对待测数据进行Indel检测,根据DS,RT,SS,ST进行分组,根据最优化规则选择Indel。可以提高结果的正确率、回收率和F值。

【技术实现步骤摘要】
一种基因组变异数据的计算方法
本专利技术属于高通量测序的生物信息领域,尤其涉及到一种基因组变异数据的计算方法。
技术介绍
在重测序技术中变异检测是基因组功能分析的基础,因此检测结果是否准确直接影响分析结果的准确性。近些年在变异检测领域为了弥补单个软件检测结果的不足,发表了一些基于多个软件的整合算法。利用合并软件结果提高回收率,利用提取软件的一致检测结果提高正确率。
技术实现思路
本专利技术所要解决的技术问题是提供一种基因组变异数据的计算方法。本专利技术分析了Indel的大小和基因组序列特征对变异检测结果正确率和回收率的影响,提出了基于最优F值策略的优化算法。本专利技术提出的Indel检测算法是整合多个软件检测结果的优化筛选算法,选择Samtools、GATK(UnifidGenotyper)、Varscan、Pindel和SOAPIndel生成原始Indel数据。这五个软件分别采用了四种不同的算法检测Indel变异。(1)Samtools和GATK(UnifiedGenotyper)是基于测序数据与参考基因组的比对结果,利用贝叶斯统计模型计算每个位点基因型的后验概率检测Indel。(2)Pindel是基于比对结果中未匹配的读段(unmappedreads)数据,利用模式生长算法检测插入/删除变异。(3)Varscan是基于Samtools的pileup数据,利用稳定的启发式算法检测Indel变异,并且能够处理极端读段深度、混池测序数据和测序数据受污染等问题。(4)SOAPIndel是利用DeBruijngraph算法将所有未匹配的读段重组,通过和参考基因组比对检测插入/删除变异。基于最优F值策略的优化算法如下:1)建立最优化规则选择Samtools、GATK(UnifidGenotyper)、Varscan、Pindel和SOAPIndel软件对模拟数据进行Indel检测,生成原始Indel数据,计算每两个软件的联合的F值,通过最优的F值建立一个最优选择的规则。2)根据优化规则选择Indel利用软件Samtools、GATK(UnifidGenotyper)、Varscan、Pindel和SOAPIndel对待测数据进行Indel检测,根据DS,RT,SS,ST进行分组。根据最优化规则选择Indel。本专利技术提出了Indel检测算法,可以提高结果的正确率、回收率和F值。附图说明图1,F值趋势图。图2,基因组变异数据获取流程示意图。具体实施方式本专利技术分析了Indel的大小和基因组序列特征对变异检测结果正确率和回收率的影响,提出了基于最优F值策略的优化算法。一.软件的选择本专利技术提出的Indel检测算法是整合多个软件检测结果的优化筛选算法,选择Samtools、GATK(UnifidGenotyper)、Varscan、Pindel和SOAPIndel生成原始Indel数据。这五个软件分别采用了四种不同的算法检测Indel变异。(1)Samtools和GATK(UnifiedGenotyper)是基于测序数据与参考基因组的比对结果,利用贝叶斯统计模型计算每个位点基因型的后验概率检测Indel。(2)Pindel是基于比对结果中未匹配的读段(unmappedreads)数据,利用模式生长算法检测插入/删除变异。(3)Varscan是基于Samtools的pileup数据,利用稳定的启发式算法检测Indel变异,并且能够处理极端读段深度、混池测序数据和测序数据受污染等问题。(4)SOAPIndel是利用DeBruijngraph算法将所有未匹配的读段重组,通过和参考基因组比对检测插入/删除变异。二.模拟数据为了详细的研究每个软件Indel检测结果的正确率、回收率以及基因组的序列特征对检测到结果的影响,需要已知所有变异的具体信息,包括变异的位置、大小以及所处基因组区域的特征。为此本专利技术利用计算机模拟技术将已知变异加入到参考基因组中生成新基因组序列,再利用模拟测序技术生成测序数据。模拟数据如表1所示。表1变异分布变异类型大小(bp)数量SNP11/1000比例Indel1-502792000Deletion/Insertion51-50020000Duplication100-5001000Inversion100-5001000Translocation100-5001000三.比对与检测利用BWA[LiandDurbin,2009]将测序数据和大豆参考基因组(William82)比对生成sam文件,用samtoolsview将sam文件转换为bam文件,用samtoolssort把bam文件按坐标排序并用samtoolsrmdup去重复并用samtoolsindex建立索引。然后用五个软件检测变异,将Varscan的参数“最小测序深度”设置为2,其余软件使用软件默认参数。最后抽取结果中1-50bp的Indel。四.一致结果的判定标准为了分析软件之间相互补足和相互验证的关系,需要明确两个软件一致性结果的判定标准。对于该问题有文献提出了两个标准,一个是相互重叠率超过50%,另一个是有一个以上的碱基重叠[Lametal.,2012]。这两个标准只考虑检测结果坐标重叠的情况。但是由于软件算法的不同会导致结果坐标的差异甚至大小的不同。本专利技术为了保证检测结果的准确性,规定只有大小相同才能判定为同一个Indel。另外本专利技术经过模拟实验发现,对于同一个Indel变异不同软件检测结果的坐标存在差异,导致该偏差的原因主要是序列相似性,例如序列ATATAT中删除AT,软件报告的结果可能是三个中的任何一个。我们利用下面公式计算软件结果之间的坐标偏差D:D=|P1-P2|其中P1是Indel1的起始坐标,P2是Indel2起始坐标。多次模拟实验的统计结果表明,在大豆基因组中非重复序列区域坐标偏差范围为[1,31],在重复序列区域坐标偏差值最大等于重复序列长度。五.四个重要Indel属性的分析Indel有四个重要属性——变异类型(ST)、变异大小(SS)、所处重复区域类型(RT)和检测软件(DS)。将检测结果按这四个属性分组,为了方便描述,本专利技术定义G(F,S)表示集合S按属性F分组的结果,例如G(ST,S)表示集合S按变异类型分组,G(SS,G(ST,S))表示集合S先按变异类型分组,然后再按变异大小分组以此类推。模拟实验数据表明在分组G(DS,G(RT,G(SS,G(ST,检测结果))))中,对处于相同类型重复序列和相同大小的Indel,不同的软件的正确率和回收率存在较大差异。五个软件对处于非重复序列的1bp删除变异的检测正确率和回收率的分布,其中GATK拥有最大的正确率(99.83%)而同时拥有最小的回收率(41.92%),Varscan拥有最大的回收率(88.42%)。这说明软件是影响检测精度的重要因素。同一个软件对处于不同类型重复序列和不同大小的Indel检测的正确率和回收率也存在较大差异。以上分析说明变异类型、变异大小、所处重复区域类型和检测软件四个属性是影响Indel检测正确率和回收率的重要因素。六.基于最优F值策略的优化筛选方法根据上文的分析可知,从宏观看提取多个软件的一致结果会提高正确率。然而模拟数据表明检测结果中,G(SS(S本文档来自技高网...
一种基因组变异数据的计算方法

【技术保护点】
一种基因组变异数据的计算方法,其特征在于,过程如下:1)建立最优化规则选择Samtools、GATK、Varscan、Pindel和SOAPIndel软件对模拟数据进行Indel检测,生成原始Indel数据,计算每两个软件的联合的F值,通过最优的F值建立一个最优选择的规则;2)根据优化规则选择Indel利用软件Samtools、GATK、Varscan、Pindel和SOAPIndel对待测数据进行Indel检测,根据DS,RT,SS,ST进行分组,根据最优化规则选择Indel。

【技术特征摘要】
1.一种基因组变异数据的计算方法,其特征在于,过程如下:1)建立最优化规则选择Samtools、GATK、Varscan、Pindel和SOAPIndel软件对模拟数据进行Indel检测,生成原始Indel数据,计算每两个软件的联合的F值,通过最优的F值建立一个最优选择的规则;2)根据优化规则选...

【专利技术属性】
技术研发人员:袁晓辉
申请(专利权)人:武汉古奥基因科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1