The invention provides a method, device, storage medium and processor for processing high-throughput sequencing data. Among them, the methods to deal with high throughput sequencing data include: using the target region amplification primers to screen high throughput sequencing data, to obtain the reads that fully covers the target area, and to compare the reads with the reference genome in the target area completely and obtain the comparison results. By using the amplified primers in the target area, the sequence data of the target area are completely covered, and the 5'end and the 3' end coverage depth of the target area can be greatly improved by using this part of the sequence data, which solves the problem that the 3'end detection results are inaccurate in the 3' end compared with the 5'end sequencing.
【技术实现步骤摘要】
处理高通量测序数据的方法、装置、存储介质及处理器
本专利技术涉及测序数据处理领域,具体而言,涉及一种处理高通量测序数据的方法、装置、存储介质及处理器。
技术介绍
二代测序基因突变检测,是利用高通量测序仪产生大量DNAread(读长)序列数据,对同一个位点多次覆盖,通过变异reads和未变异reads的数量比值计算位点变异频率的方法。在当前对基因突变的生物信息学分析方法中,当测序数据下机之后,对数据进行质量控制(质控),质控操作一般包括去除短read(≤25bp的read),修剪3'端测序质量不好的碱基,然后使用所有数据测序数据进行分析。使用以上方法进行统计分析时,往往存在检测结果不准确的问题。因此,急需对现有的测序数据分析方法进行改进,以提高检测结果的准确性。
技术实现思路
本专利技术的主要目的在于提供一种处理高通量测序数据的方法、装置、存储介质及处理器,以解决现有技术中的测序数据的处理结果存在不准确的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种处理高通量测序数据的方法,该方法包括:利用目的区域扩增引物筛选高通量测序数据,获取完全覆盖目标区域的reads;以及将完全覆盖目标区域的reads与参考基因组进行比对,获得比对结果。进一步地,将完全覆盖目标区域的reads与参考基因组进行比对,获得比对结果的步骤包括:将完全覆盖目标区域的reads与参考基因组进行初次比对,获得候选变异位点信息,候选变异位点信息包括候选变异位点的所在位置及变异类型;根据各候选变异位点的所在位置,从完全覆盖目标区域的reads中将5’端和/或3’端的目的区域扩增引物剪切掉, ...
【技术保护点】
一种处理高通量测序数据的方法,其特征在于,所述方法包括:利用目的区域扩增引物筛选高通量测序数据,获取完全覆盖目标区域的reads;将所述完全覆盖目标区域的reads与参考基因组进行比对,获得比对结果。
【技术特征摘要】
1.一种处理高通量测序数据的方法,其特征在于,所述方法包括:利用目的区域扩增引物筛选高通量测序数据,获取完全覆盖目标区域的reads;将所述完全覆盖目标区域的reads与参考基因组进行比对,获得比对结果。2.根据权利要求1所述的方法,其特征在于,将所述完全覆盖目标区域的reads与参考基因组进行比对,获得比对结果的步骤包括:将所述完全覆盖目标区域的reads与所述参考基因组进行初次比对,获得候选变异位点信息,所述候选变异位点信息包括候选变异位点的所在位置及变异类型;根据各所述候选变异位点的所在位置,从所述完全覆盖目标区域的reads中将5’端和/或3’端的目的区域扩增引物剪切掉,获得修正后reads;将所述修正后reads与所述参考基因组进行再次比对,获得所述比对结果。3.根据权利要求2所述的方法,其特征在于,所述候选变异位点为InDel,位于所述目标区域的reads内,且距离所述目标区域的reads的5’端<5bp,优选<8bp的位置,则从所述完全覆盖目标区域的reads中剪切掉3’端的目的区域扩增引物序列,获得所述修正后reads。4.根据权利要求2所述的方法,其特征在于,所述候选变异位点为单核苷酸变异,位于所述目标区域的reads内,且距离所述目标区域的reads的3’端或5’端≥5bp,优选≥8bp的位置,则从所述完全覆盖目标区域的reads中剪切掉5’端和3’端的目的区域扩增引物序列。5.根据权利要求2所述的方法,其特征在于,所述候选变异位点为单核苷酸变异,所述候选变异位点位于完全覆盖第一目标区域的reads中,而用于扩增第二目标区域的扩增引物序列同时也覆盖了所述候选变异位点,则从完全覆盖第二目标区域的reads中剪切掉5’端和3’端的第二目标区域的扩增引物序列。6.根据权利要求1至5中任一项所述的方法,其特征在于,利用目的区域扩增引物筛选高通量测序数据,获取完全覆盖目标区域的reads的步骤包括:将所述高通量测序数据进行质控处理,获得质控后reads;利用目的区域扩增引物筛选所述质控后reads,获取所述完全覆盖目标区域的reads。7.一种处理高通量测序数据的装置,其特征在于,所述装置包括:第一获取单元,用于利用目的区域扩增引物筛选高通量测序数据,获取完全覆盖目标区域的reads;第二获取单元,用于将所述完全覆...
【专利技术属性】
技术研发人员:陶炳忠,
申请(专利权)人:辽宁科骏生物有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。