复杂突变的检测方法及检测装置制造方法及图纸

技术编号:23769122 阅读:59 留言:0更新日期:2020-04-11 21:44
本发明专利技术提供了一种复杂突变的检测方法及检测装置。该检测方法包括将目标区域的外显子测序数据与参考基因组比对得到比对上的reads;根据cigar信息判断reads是否包含插入或缺失,若包含则提取reads的开始坐标,并根据开始坐标及cigar信息计算出reads的结束坐标;根据reads的开始坐标和结束坐标将reads对应的参考序列从参考基因组上截出;将reads分别与参考序列再次比对获得复杂突变的起始位置和终止位置。该方法将整条reads上的所有变异类型作为一个整体来检测,克服了现有技术对单一类型的变异分别单独检测,而导致同一位点被检测为两种不同变异类型,从而使得检测结果不准确的问题。

Detection method and device of complex mutation

【技术实现步骤摘要】
复杂突变的检测方法及检测装置
本专利技术涉及生物信息学分析领域,具体而言,涉及一种复杂突变的检测方法及检测装置。
技术介绍
复杂突变是包含碱基的插入、缺失及单碱基突变中至少两种变异类型的混合变异。以EGFR19号外显子为例,其上集中了多种这样的复杂突变。然而,目前的突变位点检测软件中,都是以位置信息为基础,只能检测单碱基突变或碱基的插入缺失,尚没有可以把复杂突变作为一个整体进行检测的软件。同时,目前主流的遗传变异信息注释软件如annovar、VEP、snpEFF,在注释变异造成的氨基酸变化的时候,也只能注释简单的单碱基变异或碱基的插入缺失引起的氨基酸的改变,无法针对此类复杂突变进行注释,这类变异信息的氨基酸变化的注释都由人工手动完成。以上两方面的问题对生物信息分析及遗传咨询相关人员的工作造成了不少困难。
技术实现思路
本专利技术的主要目的在于提供一种复杂突变的检测方法及检测装置,以解决现有技术中只能检测单碱基突变或碱基的插入缺失进而使得复杂突变的检测结果准确性低的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种复杂突变的检测方法,该检测方法包括:将目标区域的外显子测序数据与参考基因组比对,得到比对上的reads;根据reads的cigar信息,判断reads是否包含插入或缺失,若包含,则提取reads的开始坐标,并根据开始坐标及cigar信息计算出reads的结束坐标;根据reads的开始坐标和结束坐标,将reads对应的参考序列从参考基因组上截出;将reads分别与参考序列进行再次比对,获得复杂突变的起始位置和终止位置。进一步地,将reads与参考序列进行再次比对,获得复杂突变的起始位置和终止位置包括:根据各reads的cigar信息,将参考序列和reads划分为以下区域:插入区域、缺失区域、比对区域、soft-clip区域;在不同区域根据各区域的特征,将reads与参考序列进行再比对,获取reads中包含的插入缺失突变和单碱基突变;将插入缺失突变和单碱基突变进行整合处理,然后根据插入缺失突变及单碱基突变的坐标,获得复杂突变的起始位置和终止位置、复杂突变的参考序列及复杂突变序列,并根据复杂突变的参考序列和复杂突变序列的序列特征调整并确定复杂突变的起始位置和终止位置。进一步地,检测方法还包括对复杂突变进行注释的步骤;优选地,对复杂突变进行注释的步骤包括:根据复杂突变序列确定目标区域测得的cDNA的序列,根据测得的cDNA序列的长度能否被3整除,确定氨基酸是否发生了移码,如果移码,根据测得的cDNA的长度除以3之后的余数,删除测得的cDNA末尾的相应余数的碱基,用测得cDNA序列与参考的cDNA序列从头部开始比较,确定测得的cDNA开始发生变异的起始位置;将参考的cDNA序列与测得的cDNA序列从尾部开始比较,确定测得的cDNA发生变异的终止位置;将测得的cDNA开始发生变异的起始位置与测得的cDNA发生变异的终止位置整合,得到复杂突变在cDNA水平上发生变异的起止位置。进一步地,对复杂突变进行注释的步骤还包括:用reads对应的氨基酸序列与参考序列对应的氨基酸序列从头开始比较,确定氨基酸改变开始的位置,继续从尾部开始进行比较,记录氨基酸改变结束的位置,从而获得复杂突变在氨基酸水平上发生变异的起止位置。进一步地,reads对应的氨基酸序列为发生移码突变的氨基酸序列,则采用发生移码后的cDNA序列确定的氨基酸序列与参考序列对应的氨基酸序列从头开始比较;优选地,在从头开始比较的步骤中,如果reads的氨基序列发生移码,则标明氨基酸开始发生突变的位置和发生移码的标记“fs”。进一步地,在得到比对上的reads之后,以及根据reads的cigar信息,判断reads是否包含插入或缺失之前,检测方法还包括:从比对上的reads中去除比对到的重复序列和比对到多个位置上的序列,得到具有唯一比对位置的reads。根据本申请的第二个方面,提供了一种复杂突变的检测装置,该检测装置包括:第一比对模块,用于将目标区域的测序数据与参考基因组比对,得到具有唯一比对位置的reads;判断模块,用于根据reads的cigar信息,判断reads是否包含插入或缺失,若包含,则往下进行;坐标提取模块,用于提取reads的开始坐标,并根据开始坐标及cigar信息计算出reads的结束坐标;参考序列截出模块,用于根据reads的开始坐标和reads的结束坐标,将reads对应的参考序列从参考基因组上截出;第二比对模块,用于将reads与参考序列进行再次比对,获得reads的复杂突变的起始位置和终止位置。进一步地,第二比对模块包括:区域划分模块,用于根据reads的cigar信息,将参考序列和reads划分为以下区域:插入区域(I)、缺失区域(D)、比对区域(M)、soft-clip区域(S);第三比对模块,用于在不同区域根据各区域的特征,将reads与参考序列进行再比对,获取reads中包含的插入缺失突变和单碱基突变;突变起止位置模块,用于将插入缺失突变和单碱基突变进行整合处理,然后根据插入缺失突变及单碱基突变的坐标,获得复杂突变的起始位置和终止位置、复杂突变的参考序列及复杂突变序列,并根据复杂突变的参考序列和复杂突变序列的序列特征调整并确定复杂突变的起始位置和终止位置。进一步地,检测装置还包括复杂突变注释模块;优选地,复杂突变注释模块包括cDNA水平变异注释模块,cDNA水平变异注释模块包括:测得cDNA序列获取模块,用于根据复杂突变序列确定目标区域测得的cDNA的序列,根据测得的cDNA的长度能否被3整除,确定氨基酸是否发生了移码,如果移码,根据测得的cDNA的长度除以3之后的余数,删除测得的cDNA末尾的相应余数的碱基,cDNA从头比较模块,用于测得cDNA序列与参考的cDNA序列从头部开始比较,确定测得的cDNA开始发生变异的起始位置;cDNA从尾比较模块,用于将参考的cDNA序列与测得的cDNA序列从尾部开始比较,确定测得的cDNA发生变异的终止位置;cDNA起止位置整合模块,用于将测得的cDNA开始发生变异的起始位置与测得的cDNA发生变异的终止位置整合,获得复杂突变在cDNA水平上发生变异的起止位置。进一步地,复杂突变注释模块还包括氨基酸水平变异注释模块,氨基酸水平变异注释模块包括:氨基酸从头比较模块,用于将reads对应的氨基酸序列与参考序列对应的氨基酸序列从头开始比较,确定氨基酸改变开始发生的位置;氨基酸从尾比较模块,用于将reads对应的氨基酸序列与参考序列对应的氨基酸序列继续从尾部开始进行比较,记录氨基酸改变结束的位置;氨基酸起止位置整合模块,从而将氨基酸改变开始发生的位置与氨基酸改变结束的位置进行整合,获得复杂突变在氨基酸水平上发生变异的起止位置。进一步地,氨基酸水平变异注释模块还包括:移码氨基酸序列模块,用于将发生移码的cDNA序列确定的氨基酸序列作为reads对应的氨基酸序列;和/或标记模块,用于在从头开始比较的步骤中,如果read本文档来自技高网...

【技术保护点】
1.一种复杂突变的检测方法,其特征在于,所述检测方法包括:/n将目标区域的外显子测序数据与参考基因组比对,得到比对上的reads;/n根据所述reads的cigar信息,判断所述reads是否包含插入或缺失,若包含,则提取所述reads的开始坐标,并根据所述开始坐标及所述cigar信息计算出所述reads的结束坐标;/n根据所述reads的所述开始坐标和所述结束坐标,将所述reads对应的参考序列从所述参考基因组上截出;/n将所述reads分别与所述参考序列进行再次比对,获得所述复杂突变的起始位置和终止位置。/n

【技术特征摘要】
1.一种复杂突变的检测方法,其特征在于,所述检测方法包括:
将目标区域的外显子测序数据与参考基因组比对,得到比对上的reads;
根据所述reads的cigar信息,判断所述reads是否包含插入或缺失,若包含,则提取所述reads的开始坐标,并根据所述开始坐标及所述cigar信息计算出所述reads的结束坐标;
根据所述reads的所述开始坐标和所述结束坐标,将所述reads对应的参考序列从所述参考基因组上截出;
将所述reads分别与所述参考序列进行再次比对,获得所述复杂突变的起始位置和终止位置。


2.根据权利要求1所述的检测方法,其特征在于,将所述reads与所述参考序列进行再次比对,获得所述复杂突变的起始位置和终止位置包括:
根据各所述reads的所述cigar信息,将所述参考序列和所述reads划分为以下区域:插入区域、缺失区域、比对区域、soft-clip区域;
在不同区域根据各所述区域的特征,将所述reads与所述参考序列进行再比对,获取所述reads中包含的插入缺失突变和单碱基突变;
将所述插入缺失突变和所述单碱基突变进行整合处理,然后根据所述插入缺失突变及所述单碱基突变的坐标,获得所述复杂突变的所述起始位置和所述终止位置、所述复杂突变的参考序列及复杂突变序列,并根据所述复杂突变的参考序列和所述复杂突变序列的序列特征调整并确定所述复杂突变的起始位置和终止位置。


3.根据权利要求2所述的检测方法,其特征在于,所述检测方法还包括对所述复杂突变进行注释的步骤;
优选地,对所述复杂突变进行注释的步骤包括:
根据所述复杂突变序列确定所述目标区域测得的cDNA的序列,根据所述测得的cDNA序列的长度能否被3整除,确定氨基酸是否发生了移码,如果移码,根据所述测得的cDNA的长度除以3之后的余数,删除所述测得的cDNA末尾的相应余数的碱基,
用所述测得cDNA序列与参考的cDNA序列从头部开始比较,确定所述测得的cDNA开始发生变异的起始位置;
将所述参考的cDNA序列与所述测得的cDNA序列从尾部开始比较,确定所述测得的cDNA发生变异的终止位置;
将所述测得的cDNA开始发生变异的起始位置与所述测得的cDNA发生变异的终止位置整合,得到所述复杂突变在cDNA水平上发生变异的起止位置。


4.根据权利要求3所述的检测方法,其特征在于,对所述复杂突变进行注释的步骤还包括:
用所述reads对应的氨基酸序列与所述参考序列对应的氨基酸序列从头开始比较,确定氨基酸改变开始的位置,继续从尾部开始进行比较,记录氨基酸改变结束的位置,从而获得所述复杂突变在氨基酸水平上发生变异的起止位置。


5.根据权利要求4所述的检测方法,其特征在于,所述reads对应的氨基酸序列为发生移码突变的氨基酸序列,则采用发生移码后的cDNA序列确定的氨基酸序列与所述参考序列对应的氨基酸序列从头开始比较;
优选地,在所述从头开始比较的步骤中,如果所述reads的氨基序列发生移码,则标明氨基酸开始发生突变的位置和发生移码的标记“fs”。


6.根据权利要求1至5中任一项所述的检测方法,其特征在于,在得到比对上的reads之后,以及根据所述reads的cigar信息,判断所述reads是否包含插入或缺失之前,所述检测方法还包括:
从所述比对上的reads中去除比对到的重复序列和比对到多个位置上的序列,得到具有唯一比对位置的reads。


7.一种复杂突变的检测装置,其特征在于,所述检测装置包括:
第一比对模块,用于将目标区域的测序数据与参考基因组比对,得到具有唯一比对位置的reads;
判断模块,用于根据所述reads的cigar信息,判断所述reads是否包含插入或缺失,若包含,则往下进行;
坐标提取模块,用于提取所述reads的开始坐标,并根据所述开始坐标及所述cigar信息计算出所述re...

【专利技术属性】
技术研发人员:高司航张静波李孟键刘文伍启熹王建伟刘倩唐宇
申请(专利权)人:北京优迅医学检验实验室有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1