【技术实现步骤摘要】
复杂突变的检测方法及检测装置
本专利技术涉及生物信息学分析领域,具体而言,涉及一种复杂突变的检测方法及检测装置。
技术介绍
复杂突变是包含碱基的插入、缺失及单碱基突变中至少两种变异类型的混合变异。以EGFR19号外显子为例,其上集中了多种这样的复杂突变。然而,目前的突变位点检测软件中,都是以位置信息为基础,只能检测单碱基突变或碱基的插入缺失,尚没有可以把复杂突变作为一个整体进行检测的软件。同时,目前主流的遗传变异信息注释软件如annovar、VEP、snpEFF,在注释变异造成的氨基酸变化的时候,也只能注释简单的单碱基变异或碱基的插入缺失引起的氨基酸的改变,无法针对此类复杂突变进行注释,这类变异信息的氨基酸变化的注释都由人工手动完成。以上两方面的问题对生物信息分析及遗传咨询相关人员的工作造成了不少困难。
技术实现思路
本专利技术的主要目的在于提供一种复杂突变的检测方法及检测装置,以解决现有技术中只能检测单碱基突变或碱基的插入缺失进而使得复杂突变的检测结果准确性低的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种复杂突变的检测方法,该检测方法包括:将目标区域的外显子测序数据与参考基因组比对,得到比对上的reads;根据reads的cigar信息,判断reads是否包含插入或缺失,若包含,则提取reads的开始坐标,并根据开始坐标及cigar信息计算出reads的结束坐标;根据reads的开始坐标和结束坐标,将reads对应的参考序列从参考基因组上截出;将r ...
【技术保护点】
1.一种复杂突变的检测方法,其特征在于,所述检测方法包括:/n将目标区域的外显子测序数据与参考基因组比对,得到比对上的reads;/n根据所述reads的cigar信息,判断所述reads是否包含插入或缺失,若包含,则提取所述reads的开始坐标,并根据所述开始坐标及所述cigar信息计算出所述reads的结束坐标;/n根据所述reads的所述开始坐标和所述结束坐标,将所述reads对应的参考序列从所述参考基因组上截出;/n将所述reads分别与所述参考序列进行再次比对,获得所述复杂突变的起始位置和终止位置。/n
【技术特征摘要】
1.一种复杂突变的检测方法,其特征在于,所述检测方法包括:
将目标区域的外显子测序数据与参考基因组比对,得到比对上的reads;
根据所述reads的cigar信息,判断所述reads是否包含插入或缺失,若包含,则提取所述reads的开始坐标,并根据所述开始坐标及所述cigar信息计算出所述reads的结束坐标;
根据所述reads的所述开始坐标和所述结束坐标,将所述reads对应的参考序列从所述参考基因组上截出;
将所述reads分别与所述参考序列进行再次比对,获得所述复杂突变的起始位置和终止位置。
2.根据权利要求1所述的检测方法,其特征在于,将所述reads与所述参考序列进行再次比对,获得所述复杂突变的起始位置和终止位置包括:
根据各所述reads的所述cigar信息,将所述参考序列和所述reads划分为以下区域:插入区域、缺失区域、比对区域、soft-clip区域;
在不同区域根据各所述区域的特征,将所述reads与所述参考序列进行再比对,获取所述reads中包含的插入缺失突变和单碱基突变;
将所述插入缺失突变和所述单碱基突变进行整合处理,然后根据所述插入缺失突变及所述单碱基突变的坐标,获得所述复杂突变的所述起始位置和所述终止位置、所述复杂突变的参考序列及复杂突变序列,并根据所述复杂突变的参考序列和所述复杂突变序列的序列特征调整并确定所述复杂突变的起始位置和终止位置。
3.根据权利要求2所述的检测方法,其特征在于,所述检测方法还包括对所述复杂突变进行注释的步骤;
优选地,对所述复杂突变进行注释的步骤包括:
根据所述复杂突变序列确定所述目标区域测得的cDNA的序列,根据所述测得的cDNA序列的长度能否被3整除,确定氨基酸是否发生了移码,如果移码,根据所述测得的cDNA的长度除以3之后的余数,删除所述测得的cDNA末尾的相应余数的碱基,
用所述测得cDNA序列与参考的cDNA序列从头部开始比较,确定所述测得的cDNA开始发生变异的起始位置;
将所述参考的cDNA序列与所述测得的cDNA序列从尾部开始比较,确定所述测得的cDNA发生变异的终止位置;
将所述测得的cDNA开始发生变异的起始位置与所述测得的cDNA发生变异的终止位置整合,得到所述复杂突变在cDNA水平上发生变异的起止位置。
4.根据权利要求3所述的检测方法,其特征在于,对所述复杂突变进行注释的步骤还包括:
用所述reads对应的氨基酸序列与所述参考序列对应的氨基酸序列从头开始比较,确定氨基酸改变开始的位置,继续从尾部开始进行比较,记录氨基酸改变结束的位置,从而获得所述复杂突变在氨基酸水平上发生变异的起止位置。
5.根据权利要求4所述的检测方法,其特征在于,所述reads对应的氨基酸序列为发生移码突变的氨基酸序列,则采用发生移码后的cDNA序列确定的氨基酸序列与所述参考序列对应的氨基酸序列从头开始比较;
优选地,在所述从头开始比较的步骤中,如果所述reads的氨基序列发生移码,则标明氨基酸开始发生突变的位置和发生移码的标记“fs”。
6.根据权利要求1至5中任一项所述的检测方法,其特征在于,在得到比对上的reads之后,以及根据所述reads的cigar信息,判断所述reads是否包含插入或缺失之前,所述检测方法还包括:
从所述比对上的reads中去除比对到的重复序列和比对到多个位置上的序列,得到具有唯一比对位置的reads。
7.一种复杂突变的检测装置,其特征在于,所述检测装置包括:
第一比对模块,用于将目标区域的测序数据与参考基因组比对,得到具有唯一比对位置的reads;
判断模块,用于根据所述reads的cigar信息,判断所述reads是否包含插入或缺失,若包含,则往下进行;
坐标提取模块,用于提取所述reads的开始坐标,并根据所述开始坐标及所述cigar信息计算出所述re...
【专利技术属性】
技术研发人员:高司航,张静波,李孟键,刘文,伍启熹,王建伟,刘倩,唐宇,
申请(专利权)人:北京优迅医学检验实验室有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。