【技术实现步骤摘要】
一种融合驱动基因单端锚定的DNA融合断点注释方法
本专利技术属于基因检测
,具体涉及一种基因例如DNA结构变异检测结果的注释方法及其相关的系统、装置、计算机可读存储介质、设备。更具体而言,本专利技术涉及一种融合驱动基因单端锚定的DNA融合断点注释方法及其相关的计算机系统、装置、计算机可读存储介质、设备。
技术介绍
基因融合现象是肿瘤发生的重要驱动因素,也是指导肿瘤治疗和用药的重要分子生物标志物。目前基于二代测序技术的RNA-seq以及DNA-seq是检测基因融合现象的重要手段。RNA-seq可以直接检测融合基因转录表达的序列,进行序列比对后可获得准确的转录本层面断点位置,一般可作为融合检测的金标准。而从DNA层面来看,如发生基因融合现象时,断点可以发生在基因组的任意位置,其可以在基因的内含子区域,也可以在基因的外显子区域,甚至可以在基因间区。基于DNA-seq的技术仅能检测到基因融合在DNA上的断点位置,因而需要进一步将断点注释到相应的基因上,进而推测可能的融合基因形式及其可转录序列以及潜在的融合蛋白序列以及功能等。由于DNA-seq与RNA-seq检测标的的差异,导致二者在检测结果上可能存在不一致的现象,而这种现象产生的来源主要是DNA断点的注释不准确导致。为了尽可能准确的在DNA层面检测基因融合现象,本专利技术提出了一种融合驱动基因单端锚定的融合断点注释方法,并利用RNA-seq技术进行了验证。因此,本专利技术要解决提高DNA-seq检测的准确性的技术问题。
技术实现思路
本专利技术通过 ...
【技术保护点】
1.一种可由计算机实施的对DNA融合断点进行融合驱动基因单端锚定的融合断点注释方法,所述方法按顺序包括以下步骤:/n(1) 根据测序的DNA序列信息获得所述DNA融合断点的基因组位置及方向信息;/n(2) 将融合断点注释到对应的基因组上,从而获得融合断点两端与基因的相关信息,其中通过将断点两端分别注释来判断断点是在基因范围内还是在基因间区(IR),和其中在断点是在基因范围内的情况下根据对应基因的转录本的信息判断断点是在内含子区域或是外显子区域,根据融合的方向与基因注释信息判断该基因在融合过程中提供基因的5'区域和3'区域,并且将融合两端分别注释从而获得初步注释结果;/n(3) 根据步骤(2)的初步注释结果检测或判断融合两端断点是5’-3’形式融合还是非5’-3’形式融合,其中在5’-3’形式融合的情况下,输出第一最优的融合注释结果;和其中在非5’-3’形式融合的情况下,进行驱动基因单端锚定的二次注释,所述二次注释包括:/n- 在融合断点注释为5’-5’形式融合的情况下,尝试以任一端为融合驱动基因锚定重新注释另一端断点,并最终选择第二最优的融合注释结果进行输出;/n- 在融合断点注释为5 ...
【技术特征摘要】
1.一种可由计算机实施的对DNA融合断点进行融合驱动基因单端锚定的融合断点注释方法,所述方法按顺序包括以下步骤:
(1)根据测序的DNA序列信息获得所述DNA融合断点的基因组位置及方向信息;
(2)将融合断点注释到对应的基因组上,从而获得融合断点两端与基因的相关信息,其中通过将断点两端分别注释来判断断点是在基因范围内还是在基因间区(IR),和其中在断点是在基因范围内的情况下根据对应基因的转录本的信息判断断点是在内含子区域或是外显子区域,根据融合的方向与基因注释信息判断该基因在融合过程中提供基因的5'区域和3'区域,并且将融合两端分别注释从而获得初步注释结果;
(3)根据步骤(2)的初步注释结果检测或判断融合两端断点是5’-3’形式融合还是非5’-3’形式融合,其中在5’-3’形式融合的情况下,输出第一最优的融合注释结果;和其中在非5’-3’形式融合的情况下,进行驱动基因单端锚定的二次注释,所述二次注释包括:
-在融合断点注释为5’-5’形式融合的情况下,尝试以任一端为融合驱动基因锚定重新注释另一端断点,并最终选择第二最优的融合注释结果进行输出;
-在融合断点注释为5’-IR形式融合的情况下,尝试以提供5’端的基因为融合驱动基因锚定重新注释另一端断点;并最终选择第二最优的融合注释结果进行输出;和
-在融合断点注释为3’-3’、3’-IR或IR-IR形式融合的情况下,不再进行重新注释,直接输出初步注释结果,
其中重新注释规则是:在断点及融合方向下游一定范围内搜索基因方向与融合方向一致的基因,如存在满足该条件的基因,且基因的外显子数目大于1,则将该断点注释到满足条件的该基因的第2个外显子处;如不存在满足条件的下游基因,则按第一最优的注释结果输出。
2.权利要求1的方法,其中步骤(2)的初步注释结果包括
a)断点两端都注释在基因间区,即IR-IR形式融合;
b)断点两端只有一端注释在基因范围内另一端注释在基因间区,其依据注释在基因范围内的断点所在基因提供的基因结构域区域包括5’-IR形式融合和3’-IR形式融合;和
c)断点两端都注释在基因范围内,其依据断点两端的基因分别提供的基因结构域区域包括5’-5’形式融合、5’-3’形式融合以及3’-3’形式融合。
3.权利要求1或2的方法,其中所述第一最优的融合注释结果包括以下中的一个或多个:
i)断点两端的基因都选用行业公知的转录本编号注释;
ii)断点两端的基因选择的转录本在融合基因中不改变各自原有的蛋白编码阅读框信息;和
iii)断点两端的基因都选择在融合基因中能提供最长编码序列的转录本。
4.权利要求1或2的方法,其中所述第二最优的融合注释结果包括以下中的一个或多个:<...
【专利技术属性】
技术研发人员:韩志军,王杰,张倩倩,梁雷,谢正华,
申请(专利权)人:上海思路迪医学检验所有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。