处理高通量测序数据的方法、装置、存储介质及处理器制造方法及图纸

技术编号:17994868 阅读:40 留言:0更新日期:2018-05-19 12:02
本发明专利技术提供了一种处理高通量测序数据的方法、装置、存储介质及处理器。其中,处理高通量测序数据的方法包括:利用目的区域扩增引物筛选高通量测序数据,获取完全覆盖目标区域的reads;以及将完全覆盖目标区域的reads与参考基因组进行比对,获得比对结果。通过用目的区域扩增引物筛选出完全覆盖目标区域的测序数据,而利用该部分测序数据能够使得目标区域的5'端和3'端覆盖深度的均一度大大提高,解决了3'端比5'端测序覆盖深度低而导致3'端检测结果不准确的问题。

Method, device, storage medium and processor for processing high throughput sequencing data

The invention provides a method, device, storage medium and processor for processing high-throughput sequencing data. Among them, the methods to deal with high throughput sequencing data include: using the target region amplification primers to screen high throughput sequencing data, to obtain the reads that fully covers the target area, and to compare the reads with the reference genome in the target area completely and obtain the comparison results. By using the amplified primers in the target area, the sequence data of the target area are completely covered, and the 5'end and the 3' end coverage depth of the target area can be greatly improved by using this part of the sequence data, which solves the problem that the 3'end detection results are inaccurate in the 3' end compared with the 5'end sequencing.

【技术实现步骤摘要】
处理高通量测序数据的方法、装置、存储介质及处理器
本专利技术涉及测序数据处理领域,具体而言,涉及一种处理高通量测序数据的方法、装置、存储介质及处理器。
技术介绍
二代测序基因突变检测,是利用高通量测序仪产生大量DNAread(读长)序列数据,对同一个位点多次覆盖,通过变异reads和未变异reads的数量比值计算位点变异频率的方法。在当前对基因突变的生物信息学分析方法中,当测序数据下机之后,对数据进行质量控制(质控),质控操作一般包括去除短read(≤25bp的read),修剪3'端测序质量不好的碱基,然后使用所有数据测序数据进行分析。使用以上方法进行统计分析时,往往存在检测结果不准确的问题。因此,急需对现有的测序数据分析方法进行改进,以提高检测结果的准确性。
技术实现思路
本专利技术的主要目的在于提供一种处理高通量测序数据的方法、装置、存储介质及处理器,以解决现有技术中的测序数据的处理结果存在不准确的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种处理高通量测序数据的方法,该方法包括:利用目的区域扩增引物筛选高通量测序数据,获取完全覆盖目标区域的reads;以及将完全覆盖目标区域的reads与参考基因组进行比对,获得比对结果。进一步地,将完全覆盖目标区域的reads与参考基因组进行比对,获得比对结果的步骤包括:将完全覆盖目标区域的reads与参考基因组进行初次比对,获得候选变异位点信息,候选变异位点信息包括候选变异位点的所在位置及变异类型;根据各候选变异位点的所在位置,从完全覆盖目标区域的reads中将5’端和/或3’端的目的区域扩增引物剪切掉,获得修正后reads;以及将修正后reads与参考基因组进行再次比对,获得比对结果。进一步地,候选变异位点为InDel,位于目标区域的reads内,且距离目标区域的reads的5’端<5bp,优选<8bp的位置,则从完全覆盖目标区域的reads中剪切掉3’端的目的区域扩增引物序列,获得修正后reads。进一步地,候选变异位点为单核苷酸变异,位于目标区域的reads内,且距离目标区域的reads的3’端或5’端≥5bp,优选≥8bp的位置,则从完全覆盖目标区域的reads中剪切掉5’端和3’端的目的区域扩增引物序列。进一步地,候选变异位点为单核苷酸变异,候选变异位点位于完全覆盖第一目标区域的reads中,而用于扩增第二目标区域的扩增引物序列同时也覆盖了候选变异位点,则从完全覆盖第二目标区域的reads中剪切掉5’端和3’端的第二目标区域的扩增引物序列。进一步地,利用目的区域扩增引物筛选高通量测序数据,获取完全覆盖目标区域的reads的步骤包括:将高通量测序数据进行质控处理,获得质控后reads;以及利用目的区域扩增引物筛选质控后reads,获取完全覆盖目标区域的reads。为了实现上述目的,根据本专利技术的一个方面,提供了一种处理高通量测序数据的装置,该装置包括:第一获取单元和第二获取单元,第一获取单元用于利用目的区域扩增引物筛选高通量测序数据,获取完全覆盖目标区域的reads;第二获取单元用于将完全覆盖目标区域的reads与参考基因组进行比对,获得比对结果。进一步地,第二获取单元包括:第一比对模块、修正模块以及第二比对模块,第一比对模块用于将完全覆盖目标区域的reads与参考基因组进行初次比对,获得候选变异位点信息,候选变异位点信息包括候选变异位点的所在位置及变异类型;修正模块用于根据各候选变异位点的所在位置,从完全覆盖目标区域的reads中将5’端和/或3’端的目的区域扩增引物剪切掉,获得修正后reads;第二比对模块用于将修正后reads与参考基因组进行再次比对,获得比对结果。进一步地,修正模块包括第一修正子模块,第一修正子模块用于当候选变异位点为InDel,且位于目标区域的reads内,并距离目标区域的reads的5’端<5bp,优选<8bp的位置时,从完全覆盖目标区域的reads中剪切掉3’端的目的区域扩增引物序列,获得修正后reads。进一步地,修正模块包括第二修正子模块,第二修正子模块用于当候选变异位点为单核苷酸变异,且位于目标区域的reads内,并距离目标区域的reads的3’端或5’端≥5bp,优选≥8bp的位置时,从完全覆盖目标区域的reads中剪切掉5’端和3’端的目的区域扩增引物序列。进一步地,修正模块包括第三修正子模块,第三修正子模块用于当候选变异位点为单核苷酸变异,且位于完全覆盖第一目标区域的reads中,而用于扩增第二目标区域的扩增引物序列同时也覆盖了候选变异位点时,从完全覆盖第二目标区域的reads中剪切掉5’端和3’端的第二目标区域的扩增引物序列。进一步地,第一获取单元包括质控模块和筛选模块,质控模块用于将高通量测序数据进行质控处理,获得质控后reads;筛选模块用于利用目的区域扩增引物筛选质控后reads,获取完全覆盖目标区域的reads。根据本专利技术的另一方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在的设备执行上述任一种方法。根据本专利技术的另一方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种方法。应用本专利技术的技术方案,通过用目的区域扩增引物筛选出完全覆盖目标区域的测序数据,而利用该部分测序数据能够使得目标区域的5'端和3'端覆盖深度的均一度大大提高,解决了3'端比5'端测序覆盖深度低而导致3'端检测结果不准确的问题。附图说明构成本申请的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1示出了现有的高通量测序结果中存在的5'端的测序质量高于3'端测序质量的示意图;图2示出了现有的测序处理方法在比对时,若与3'末端<5bp的位置存在InDel位点容易进行softclipped标记的示意图;图3示出了现有方法构建的文库的结构示意图;图4示出了现有的高通量测序所获得的reads的结构示意图;图5示出了本申请所提供的目标区域3'端的softclipped的解决原理示意图;图6a至图6d示出了本申请所提供的从目标区域中剪切扩增引物序列的各种情况的示意图;其中,图6a示出的是单核苷酸变异在目标区域中间,没有出现在目标区域两端5bp内,更优选8bp内时,剪切掉5'端和3'端两端的扩增引物序列的示意图;图6b示出的是目标区域2的扩增引物序列覆盖目标区域1的候选变异位点,则剪切掉目标区域2的5'端和3'端两端的扩增引物序列的示意图;图6c示出的是距离目标区域的3'末端<8bp的位置存在InDel位点,则剪切掉5'端的扩增引物序列,保留3'端的扩增引物序列的示意图;图6d示出的是:距离目标区域的5'末端<8bp的位置存在InDel位点,则剪切掉3'端的扩增引物序列,保留5'端的扩增引物序列的示意图;图7示出了本申请一种优选的实施例中利用本申请的方法与现有方法对测序数据进行处理后所得到的目标区域从5'到3'端的覆盖均一性的比较结果图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本专利技术。需要说明的是,本专利技术的说明书和权利要求书及上本文档来自技高网...
处理高通量测序数据的方法、装置、存储介质及处理器

【技术保护点】
一种处理高通量测序数据的方法,其特征在于,所述方法包括:利用目的区域扩增引物筛选高通量测序数据,获取完全覆盖目标区域的reads;将所述完全覆盖目标区域的reads与参考基因组进行比对,获得比对结果。

【技术特征摘要】
1.一种处理高通量测序数据的方法,其特征在于,所述方法包括:利用目的区域扩增引物筛选高通量测序数据,获取完全覆盖目标区域的reads;将所述完全覆盖目标区域的reads与参考基因组进行比对,获得比对结果。2.根据权利要求1所述的方法,其特征在于,将所述完全覆盖目标区域的reads与参考基因组进行比对,获得比对结果的步骤包括:将所述完全覆盖目标区域的reads与所述参考基因组进行初次比对,获得候选变异位点信息,所述候选变异位点信息包括候选变异位点的所在位置及变异类型;根据各所述候选变异位点的所在位置,从所述完全覆盖目标区域的reads中将5’端和/或3’端的目的区域扩增引物剪切掉,获得修正后reads;将所述修正后reads与所述参考基因组进行再次比对,获得所述比对结果。3.根据权利要求2所述的方法,其特征在于,所述候选变异位点为InDel,位于所述目标区域的reads内,且距离所述目标区域的reads的5’端<5bp,优选<8bp的位置,则从所述完全覆盖目标区域的reads中剪切掉3’端的目的区域扩增引物序列,获得所述修正后reads。4.根据权利要求2所述的方法,其特征在于,所述候选变异位点为单核苷酸变异,位于所述目标区域的reads内,且距离所述目标区域的reads的3’端或5’端≥5bp,优选≥8bp的位置,则从所述完全覆盖目标区域的reads中剪切掉5’端和3’端的目的区域扩增引物序列。5.根据权利要求2所述的方法,其特征在于,所述候选变异位点为单核苷酸变异,所述候选变异位点位于完全覆盖第一目标区域的reads中,而用于扩增第二目标区域的扩增引物序列同时也覆盖了所述候选变异位点,则从完全覆盖第二目标区域的reads中剪切掉5’端和3’端的第二目标区域的扩增引物序列。6.根据权利要求1至5中任一项所述的方法,其特征在于,利用目的区域扩增引物筛选高通量测序数据,获取完全覆盖目标区域的reads的步骤包括:将所述高通量测序数据进行质控处理,获得质控后reads;利用目的区域扩增引物筛选所述质控后reads,获取所述完全覆盖目标区域的reads。7.一种处理高通量测序数据的装置,其特征在于,所述装置包括:第一获取单元,用于利用目的区域扩增引物筛选高通量测序数据,获取完全覆盖目标区域的reads;第二获取单元,用于将所述完全覆...

【专利技术属性】
技术研发人员:陶炳忠
申请(专利权)人:辽宁科骏生物有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1