确定生物样本中是否存在融合基因的方法、设备及应用技术

技术编号:23053049 阅读:46 留言:0更新日期:2020-01-07 15:13
本发明专利技术涉及基因检测领域,具体涉及一种确定生物样本中是否存在融合基因的方法及系统和应用。确定生物样本中是否存在融合基因的方法,包括:将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;基于所述第一比对处理和所述第二比对处理的结果,确定生物样本中是否存在融合基因。并提供了相应的设备和计算机可读存储介质。本发明专利技术方法对于融合支持序列的识别能力更强,且可排除单端信号引入的错误信息,判定结果更加准确,检测限更低。

Method, equipment and application of determining whether there is fusion gene in biological samples

【技术实现步骤摘要】
确定生物样本中是否存在融合基因的方法、设备及应用
本专利技术涉及基因检测领域,具体涉及一种确定生物样本中是否存在融合基因的方法、设备及应用。
技术介绍
基因融合是两个基因的序列断裂后重构成一个新的嵌合基因的过程,新形成的两条DNA分子中都同时包含两个基因的部分序列。融合基因可能导致蛋白质表达水平、功能和活性位点的异常。在癌症中,当转录活性被抑制的促进生长的癌基因通过基因融合获得强启动子时(如ALK-EML4),转录活性会大大提高,进而引起细胞的异常增殖,促进肿瘤的发生发展。这类融合变异具有激酶活性,现有发现的例如克唑替尼对该类变异靶向抑制作用。因此,对癌症患者的融合变异进行检测,进而可以指导靶向药物的使用。然而并未有针对融合基因检测的方法还有待改进。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种确定生物样本中是否存在融合基因的方法及其系统,方便快速准确确定样本中是否存在融合基因,从而可以将其应用于癌症患者的融合变异进行检测,对于指导癌症靶向药物的使用具有重大的意义。为此,根据本专利技术的一方面,本专利技术提供了一种确定生物样本中是否存在融合基因的方法,包括:(1)将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;(2)基于所述第一比对处理和所述第二比对处理的结果,确定生物样本中是否存在融合基因。在本文中,强制左端匹配指的是将测序序列和参照序列在左端进行配对,保证测序序列的左端和参照序列的左端匹配上去,强制右端匹配指的是将测序序列和参照序列在右端进行配对,保证测序序列的右端和参照序列的右端匹配上去。通过将生物样本的全基因组的至少一部分的测序序列与参照序列强制左端匹配以及强制右端匹配,得到的匹配的reads数就会增多,而且分布在两个基因区域,这样融合的两个基因区域的融合信号都会提升至接近数据所包含的真实的融合信号,从而融合支持reads的识别能力更强,而且可以排除单端信号引入的错误信息,判定结果更加准确,检测限更低。其中,本专利技术中对于“左端”和“右端”的表述是根据核苷酸序列的方向来说的。对于一条核苷酸序列来说,核苷酸序列遵从始于序列的5’末端并朝向3’末端前行(即,在各行中从左到右)的标准惯例。左端匹配即将测序序列与参照序列靠近5’末端处匹配。右端匹配即将测序序列与参照序列靠近3’末端处匹配。在本文中,所述参照序列指的是与所述待检测的生物样本同种的未发生融合的基因组序列。当所述生物样本来自于人时,所述参考序列可以是人类基因组序列hg19。根据本专利技术的实施例,所述确定生物样本中是否存在融合基因的方法进一步包括如下附加技术特征:根据本专利技术的实施例,所述测序序列为DNA序列。当确定生物样本中是否存在融合基因时,将来自于该生物样本的全基因组的至少一部分的DNA序列与该生物样本的参照序列进行强制左端匹配以及强制右端匹配处理,以便确定该生物样本中是否存在融合基因。其中,该测序序列可以是单端测序得到的序列,也可以是基因双端测序得到的测序序列,可以是通过任何测序平台所获得的DNA序列,所述DNA序列的长度可以为150bp~200bp之间。根据本专利技术的实施例,所述第一比对处理和所述第二比对处理分别独立地采用tmap软件进行的。利用该软件的-g参数,可以实现测序序列和参照序列的快速比对,从而提高融合突变检测的灵敏性和准确性。根据本专利技术的实施例,在步骤(2)中,进一步包括:基于所述第一比对处理和所述第二比对处理的结果,确定疑似融合基因测序序列,所述疑似融合基因测序序列在所述第一比对处理和所述第二比对处理中均具有匹配末端和非匹配末端,其中,所述疑似融合基因测序序列的存在是在所述生物样本中存在融合基因的指示。在本文中,所述匹配末端指的是两个比对序列的一端可以进行配对,非匹配末端指的是两个比对序列的一端不能进行配对。非匹配末端的形成可能是由于序列是来自于其他的基因,所以可能是一个融合的信号。融合后的基因在与参照序列进行比对的过程中,会有一部分匹配到参照序列上,来自于另一个基因的部分序列与参照序列不能进行配对,会形成一端匹配,另一端非匹配,即形成一个开口的方式,从而可以用来指示融合基因的存在。根据本专利技术的实施例,所述非匹配末端的长度为20bp以上,优选为20bp~60bp。当所形成的非匹配末端的长度在20bp以下时,会存在很多同源性比对,影响检测结果,所以非匹配末端的长度最好在20bp以上。优选在20bp到60bp之间。根据本专利技术的实施例,进一步包括通过下列步骤确定阳性融合位点:(3)基于所述融合基因测序序列在所述参照序列上的匹配结果,确定至少一个疑似融合位点;(4)针对所述至少一个疑似融合位点的每一个,分别确定所述疑似融合位点的融合基因测序序列支持数;(5)选择所述融合基因测序序列支持数不低于预定阈值的所述疑似融合位点作为最终的阳性融合位点。根据本专利技术的实施例,在确定阳性融合位点的方法中可以进一步包括如下附加技术特征:根据本专利技术的实施例,在步骤(3)中包括针对每个所述融合基因测序序列,基于所述匹配末端和所述非匹配末端的交界处,确定所述疑似融合位点。根据本专利技术的实施例,选择所述匹配末端在所述交界处的最末碱基作为所述疑似融合位点。将所述匹配末端和所述非匹配末端的交界处的断点,即将开始发生不匹配的那个位点作为融合的位点,可以快速准确定位到疑似的融合位点。根据本专利技术的实施例,所述预定阈值为3~5,优选为3。通过对大量样本进行测定,选择阈值3~5这一经验性数值作为相应的预定阈值,可以有效保证数据的灵敏性和特异性。根据本专利技术的另一方面,本专利技术提供了一种确定生物样本中是否存在融合基因的设备,包括:比对处理模块,所述比对处理模块将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;融合基因确定模块,所述融合基因确定模块基于所述第一比对处理和所述第二比对处理的结果,确定生物样本中是否存在融合基因。根据本专利技术的实施例,所述确定生物样本中是否存在融合基因的设备可以进一步包括如下附加技术特征:根据本专利技术的实施例,所述设备中,所述测序序列为DNA序列。根据本专利技术的实施例,所述设备中,所述第一比对处理和所述第二比对处理分别独立地采用tmap软件进行的。根据本专利技术的实施例,所述融合基因确定模块进一步包括:疑似融合基因确定单元,所述疑似融合基因确定单元基于所述第一比对处理和所述第二比对处理的结果,确定疑似融合基因测序序列,所述疑似融合基因测序序列在所述本文档来自技高网...

【技术保护点】
1.一种确定生物样本中是否存在融合基因的方法,其特征在于,包括:/n(1)将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;/n(2)基于所述第一比对处理和所述第二比对处理的结果,确定生物样本中是否存在融合基因。/n

【技术特征摘要】
1.一种确定生物样本中是否存在融合基因的方法,其特征在于,包括:
(1)将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;
(2)基于所述第一比对处理和所述第二比对处理的结果,确定生物样本中是否存在融合基因。


2.根据权利要求1所述的方法,其特征在于,所述测序序列为DNA序列;
任选地,所述第一比对处理和所述第二比对处理分别独立地采用tmap软件进行的。


3.根据权利要求1或2所述的方法,其特征在于,在步骤(2)中,进一步包括:
基于所述第一比对处理和所述第二比对处理的结果,确定疑似融合基因测序序列,所述疑似融合基因测序序列在所述第一比对处理和所述第二比对处理中均具有匹配末端和非匹配末端,其中,所述疑似融合基因测序序列的存在是在所述生物样本中存在融合基因的指示;
任选地,所述非匹配末端的长度为20bp以上,优选为20bp~60bp。


4.根据权利要求1~3中任一项所述的方法,进一步包括通过下列步骤确定阳性融合位点:
(3)基于所述融合基因测序序列在所述参照序列上的匹配结果,确定至少一个疑似融合位点;
(4)针对所述至少一个疑似融合位点的每一个,分别确定所述疑似融合位点的融合基因测序序列支持数;
(5)选择所述融合基因测序序列支持数不低于预定阈值的所述疑似融合位点作为最终的阳性融合位点;
任选地,在步骤(3)中包括针对每个所述融合基因测序序列,基于所述匹配末端和所述非匹配末端的交界处,确定所述疑似融合位点;
任选地,选择所述匹配末端在所述交界处的最末碱基作为所述疑似融合位点。
任选地,所述预定阈值为3~5,优选为3。


5.一种确定生物样本中是否存在融合基因的设备,其特征在于,包括:
比对处理模块,所述比对处理模块将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;
融合基...

【专利技术属性】
技术研发人员:刘继龙刘足谭美华叶明芝茅矛
申请(专利权)人:广州华大基因医学检验所有限公司深圳华大临床检验中心深圳华大基因股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1