一种融合驱动基因单端锚定的DNA融合断点注释方法技术

技术编号:27940196 阅读:36 留言:0更新日期:2021-04-02 14:21
本发明专利技术涉及一种融合驱动基因单端锚定的DNA融合断点注释方法。具体而言,本发明专利技术涉及一种可由计算机实施的对DNA融合断点进行融合驱动基因单端锚定的融合断点注释方法。本发明专利技术还涉及用于实施所述方法的计算机系统、计算机可读介质、装置和设备。

【技术实现步骤摘要】
一种融合驱动基因单端锚定的DNA融合断点注释方法
本专利技术属于基因检测
,具体涉及一种基因例如DNA结构变异检测结果的注释方法及其相关的系统、装置、计算机可读存储介质、设备。更具体而言,本专利技术涉及一种融合驱动基因单端锚定的DNA融合断点注释方法及其相关的计算机系统、装置、计算机可读存储介质、设备。
技术介绍
基因融合现象是肿瘤发生的重要驱动因素,也是指导肿瘤治疗和用药的重要分子生物标志物。目前基于二代测序技术的RNA-seq以及DNA-seq是检测基因融合现象的重要手段。RNA-seq可以直接检测融合基因转录表达的序列,进行序列比对后可获得准确的转录本层面断点位置,一般可作为融合检测的金标准。而从DNA层面来看,如发生基因融合现象时,断点可以发生在基因组的任意位置,其可以在基因的内含子区域,也可以在基因的外显子区域,甚至可以在基因间区。基于DNA-seq的技术仅能检测到基因融合在DNA上的断点位置,因而需要进一步将断点注释到相应的基因上,进而推测可能的融合基因形式及其可转录序列以及潜在的融合蛋白序列以及功能等。由于DNA-seq与RNA-seq检测标的的差异,导致二者在检测结果上可能存在不一致的现象,而这种现象产生的来源主要是DNA断点的注释不准确导致。为了尽可能准确的在DNA层面检测基因融合现象,本专利技术提出了一种融合驱动基因单端锚定的融合断点注释方法,并利用RNA-seq技术进行了验证。因此,本专利技术要解决提高DNA-seq检测的准确性的技术问题。
技术实现思路
本专利技术通过以下两者的结合解决了大幅提高DNA-seq检测的融合与RNA-seq检测的融合结果的一致性的技术问题:融合断点落在外显子范围内的注释方法或步骤,以及非5’-3’形式融合的驱动基因锚定注释方法或步骤。在一个方面,本专利技术涉及一种可由计算机实施的对DNA融合断点进行融合驱动基因单端锚定的融合断点注释方法,所述方法按顺序包括以下步骤:(1)根据测序的DNA序列信息获得所述DNA融合断点的基因组位置及方向信息;(2)将融合断点注释到对应的基因组上,从而获得融合断点两端与基因的相关信息,其中通过将断点两端分别注释来判断断点是在基因范围内还是在基因间区(IR),和其中在断点是在基因范围内的情况下根据对应基因的转录本的信息判断断点是在内含子区域或是外显子区域,根据融合的方向与基因注释信息判断该基因在融合过程中提供基因的5'区域和3'区域,并且将融合两端分别注释从而获得初步注释结果;(3)根据步骤(2)的初步注释结果检测或判断融合两端断点是5’-3’形式融合还是非5’-3’形式融合,其中在5’-3’形式融合的情况下,输出第一最优的融合注释结果;和其中在非5’-3’形式融合的情况下,进行驱动基因单端锚定的二次注释,所述二次注释包括:-在融合断点注释为5’-5’形式融合的情况下,尝试以任一端为融合驱动基因锚定重新注释另一端断点,并最终选择第二最优的融合注释结果进行输出;-在融合断点注释为5’-IR形式融合的情况下,尝试以提供5’端的基因为融合驱动基因锚定重新注释另一端断点;并最终选择第二最优的融合注释结果进行输出;和-在融合断点注释为3’-3’、3’-IR或IR-IR形式融合的情况下,不再进行重新注释,直接输出初步注释结果,其中重新注释规则是:在断点及融合方向下游一定范围内搜索基因方向与融合方向一致的基因,如存在满足该条件的基因,且基因的外显子数目大于1,则将该断点注释到满足条件的该基因的第2个外显子处;如不存在满足条件的下游基因,则按第一最优的注释结果输出。在一个方面,在重新注释中,如存在满足该条件的基因,且基因的外显子数目大于1,则将该断点注释到满足条件的该基因的下一个外显子处。在一个方面,步骤(2)的初步注释结果包括a)断点两端都注释在基因间区,即IR-IR形式融合;b)断点两端只有一端注释在基因范围内另一端注释在基因间区,其依据注释在基因范围内的断点所在基因提供的基因结构域区域包括5’-IR形式融合和3’-IR形式融合;和c)断点两端都注释在基因范围内,其依据断点两端的基因分别提供的基因结构域区域包括5’-5’形式融合、5’-3’形式融合以及3’-3’形式融合。在一个方面,所述第一最优的融合注释结果包括以下中的一个或多个:i)断点两端的基因都选用行业公知的转录本编号注释;ii)断点两端的基因选择的转录本在融合基因中不改变各自原有的蛋白编码阅读框信息;和iii)断点两端的基因都选择在融合基因中能提供最长编码序列的转录本。在一个方面,所述第二最优的融合注释结果包括以下中的一个或多个:i)断点两端的基因都选用行业公知的转录本编号注释;ii)断点两端的基因选择的转录本在融合基因中不改变各自原有的蛋白编码阅读框信息;和iii)断点两端的基因都选择在融合基因中能提供最长编码序列的转录本;和iv)产生的融合基因中存在完整的激酶结构域。在一个方面,在步骤(2)中,在断点发生在外显子范围内的情况下,在注释时仅保留转录本在融合发生后所能提供的所有完整的外显子区域。在一个方面,在重新注释中,搜索范围的数值为1Kb至500Kb,特别是10Kb至200Kb,更特别是20Kb至100Kb,例如100bp、200bp、500bp、1Kb、2Kb、5Kb、10Kb、15Kb、30Kb、40Kb、50Kb、60Kb、70Kb、80Kb、90Kb、100Kb、120Kb、150Kb、200Kb、250Kb、300Kb、350Kb、400Kb、450Kb、500Kb。在一个方面,步骤(1)还包括从测序仪获得融合基因的序列信息,并且所述序列信息经过输入设备输入到计算机中。在一个方面,在步骤(1)中计算机处理器接收并处理输入的序列信息,从而生成融合基因的融合断点信息;在步骤(2)中计算机处理器处理所述融合断点信息并生成初步注释结果;和/或在步骤(3)中计算机处理器处理所述成初步注释结果并生成第一和/或第二最优的融合注释结果。在一个方面,计算机处理器将初步注释结果、第一最优的融合注释结果和/或第二最优的融合注释结果传输并显示到输出设备中。在一个方面,本专利技术涉及用于实施本专利技术方法的计算机系统,其包括:输入设备,用于输入融合基因的序列信息;计算机存储器,用于存储计算机程序指令;计算机处理器,用于执行所述计算机程序指令,其中所述计算机程序指令实施本专利技术的步骤(1)至(3),对融合基因的序列信息进行处理并生成融合基因的初步注释结果、第一最优的融合注释结果和/或第二最优的融合注释结果,并将注释结果传输到输出设备;和输出设备,用于显示注释结果。在一个方面,本专利技术涉及一种计算机可读介质,其中所述计算机可读介质存储有计算机程序,其中所述计算机程序能被计算机处理器执行以实施本专利技术的方法。在一个方面,本专利技术涉及一种用于实施本专利技术方法的装置,其包括:序列输入模块,用于从测序仪获得融合基因的序列信息;本文档来自技高网...

【技术保护点】
1.一种可由计算机实施的对DNA融合断点进行融合驱动基因单端锚定的融合断点注释方法,所述方法按顺序包括以下步骤:/n(1) 根据测序的DNA序列信息获得所述DNA融合断点的基因组位置及方向信息;/n(2) 将融合断点注释到对应的基因组上,从而获得融合断点两端与基因的相关信息,其中通过将断点两端分别注释来判断断点是在基因范围内还是在基因间区(IR),和其中在断点是在基因范围内的情况下根据对应基因的转录本的信息判断断点是在内含子区域或是外显子区域,根据融合的方向与基因注释信息判断该基因在融合过程中提供基因的5'区域和3'区域,并且将融合两端分别注释从而获得初步注释结果;/n(3) 根据步骤(2)的初步注释结果检测或判断融合两端断点是5’-3’形式融合还是非5’-3’形式融合,其中在5’-3’形式融合的情况下,输出第一最优的融合注释结果;和其中在非5’-3’形式融合的情况下,进行驱动基因单端锚定的二次注释,所述二次注释包括:/n- 在融合断点注释为5’-5’形式融合的情况下,尝试以任一端为融合驱动基因锚定重新注释另一端断点,并最终选择第二最优的融合注释结果进行输出;/n- 在融合断点注释为5’-IR形式融合的情况下,尝试以提供5’端的基因为融合驱动基因锚定重新注释另一端断点;并最终选择第二最优的融合注释结果进行输出;和/n- 在融合断点注释为3’-3’、3’-IR或IR-IR形式融合的情况下,不再进行重新注释,直接输出初步注释结果,/n其中重新注释规则是:在断点及融合方向下游一定范围内搜索基因方向与融合方向一致的基因,如存在满足该条件的基因,且基因的外显子数目大于1,则将该断点注释到满足条件的该基因的第2个外显子处;如不存在满足条件的下游基因,则按第一最优的注释结果输出。/n...

【技术特征摘要】
1.一种可由计算机实施的对DNA融合断点进行融合驱动基因单端锚定的融合断点注释方法,所述方法按顺序包括以下步骤:
(1)根据测序的DNA序列信息获得所述DNA融合断点的基因组位置及方向信息;
(2)将融合断点注释到对应的基因组上,从而获得融合断点两端与基因的相关信息,其中通过将断点两端分别注释来判断断点是在基因范围内还是在基因间区(IR),和其中在断点是在基因范围内的情况下根据对应基因的转录本的信息判断断点是在内含子区域或是外显子区域,根据融合的方向与基因注释信息判断该基因在融合过程中提供基因的5'区域和3'区域,并且将融合两端分别注释从而获得初步注释结果;
(3)根据步骤(2)的初步注释结果检测或判断融合两端断点是5’-3’形式融合还是非5’-3’形式融合,其中在5’-3’形式融合的情况下,输出第一最优的融合注释结果;和其中在非5’-3’形式融合的情况下,进行驱动基因单端锚定的二次注释,所述二次注释包括:
-在融合断点注释为5’-5’形式融合的情况下,尝试以任一端为融合驱动基因锚定重新注释另一端断点,并最终选择第二最优的融合注释结果进行输出;
-在融合断点注释为5’-IR形式融合的情况下,尝试以提供5’端的基因为融合驱动基因锚定重新注释另一端断点;并最终选择第二最优的融合注释结果进行输出;和
-在融合断点注释为3’-3’、3’-IR或IR-IR形式融合的情况下,不再进行重新注释,直接输出初步注释结果,
其中重新注释规则是:在断点及融合方向下游一定范围内搜索基因方向与融合方向一致的基因,如存在满足该条件的基因,且基因的外显子数目大于1,则将该断点注释到满足条件的该基因的第2个外显子处;如不存在满足条件的下游基因,则按第一最优的注释结果输出。


2.权利要求1的方法,其中步骤(2)的初步注释结果包括
a)断点两端都注释在基因间区,即IR-IR形式融合;
b)断点两端只有一端注释在基因范围内另一端注释在基因间区,其依据注释在基因范围内的断点所在基因提供的基因结构域区域包括5’-IR形式融合和3’-IR形式融合;和
c)断点两端都注释在基因范围内,其依据断点两端的基因分别提供的基因结构域区域包括5’-5’形式融合、5’-3’形式融合以及3’-3’形式融合。


3.权利要求1或2的方法,其中所述第一最优的融合注释结果包括以下中的一个或多个:
i)断点两端的基因都选用行业公知的转录本编号注释;
ii)断点两端的基因选择的转录本在融合基因中不改变各自原有的蛋白编码阅读框信息;和
iii)断点两端的基因都选择在融合基因中能提供最长编码序列的转录本。


4.权利要求1或2的方法,其中所述第二最优的融合注释结果包括以下中的一个或多个:<...

【专利技术属性】
技术研发人员:韩志军王杰张倩倩梁雷谢正华
申请(专利权)人:上海思路迪医学检验所有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1