一种快速检测融合基因的方法技术

技术编号:16718185 阅读:69 留言:0更新日期:2017-12-05 16:31
本发明专利技术提供一种快速检测融合基因的方法,包括以下步骤:A.建立融合基因数据库:将已知的融合基因断裂点以及断裂点前面的N个序列和断裂点后面的M个序列组成种子,种子的集合形成融合基因数据库;B.获取待检测基因;D.将种子与待检测基因的序列数据比对,确定待检测基因的序列数据是否包含种子信息;E.当包含待检测基因包含种子信息时,则认为待检测基因内含有融合基因;否则认为不包含融合基因。本发明专利技术弃用了常规的融合基因寻找方法,通过建立新的融合基因数据库,采用执果索因的方式,不需要与人类基因组进行比较,避免了既耗时又可能产生错误的比对基因组步骤,使得此种方法检测速度可提高几十倍,很少的内存需求下完成分析,并且防止了比较错误引起的误判。

A method for rapid detection of fusion gene

The present invention provides a method for rapid detection of fusion gene, which comprises the following steps: establishing A. fusion gene database: M sequence N sequence and a back breaking point in front of the known fusion gene and the breaking point breaking point consisting of seed, seed set form a fusion gene of B. to get the test database; gene; D. the sequences of seeds and the detection of gene sequence data, determine whether the detected gene containing the seed information; when the detected E. contains genes containing seed information, is considered to be detected within the gene containing the fusion gene; or that does not contain the fusion gene. The invention eliminates the conventional method for fusion gene, fusion gene through the establishment of the new database, the result reason way, does not need to be compared with the human genome, to avoid the time-consuming and possible alignment of the genomic steps of error, so this method can improve the detection rate of several times, very little memory needs to complete the analysis and comparison, to prevent error caused by misjudgment.

【技术实现步骤摘要】
一种快速检测融合基因的方法
本专利技术涉及生物信息
,尤其是一种快速检测融合基因的方法。
技术介绍
融合基因是指两个基因的全部或者部分序列相互融合为一个全新的基因的过程,其有可能是染色体易位、中间缺失或染色体倒置所致的结果,通常具有致瘤性。1973年,芝加哥大学的JanetRowley确认了费城染色体的形成机制来自于染色体易位,并在白血病中发现第一个融合基因。随后,在众多实体瘤如尤文肉瘤、滑膜肉瘤、前列腺癌、肺癌、乳腺癌、卵巢癌等中相继发现了融合基因的存在。据相关研究报道,90%以上的慢性粒细胞白血病(CML)会出现BCR-ABL融合基因,此基因产生一种新的mRNA,编码的蛋白为P210,P210会使细胞失去对周围环境的反应性,并抑制细胞凋亡的发生。因此,BCR-ABL融合基因也可以作为慢性粒细胞白血病的生物标记,来判别是否罹患慢性粒细胞白血病。常见的基因融合原理如图1所示,第一个基因从第二个序列断开,第二个基因从第二个序列断开,第一个基因的前段和第二个基因的后段组合形成新的基因。目前融合基因的检测,多是基于高通量测序技术,首先进行转录组测序,获得全部转录本的序列信息;然后将这些序列回帖到人类基因组上,寻找可以比对上不同区域上的嵌合序列,对于双端测序,可以寻找横跨某一区域的双端序列,。最后根据嵌合序列比对到的基因,确定融合基因的名称。然而,由于现有测序技术具有一定的错误率,加之人类基因组的复杂性,现有融合基因的检测装置和方法并不能很好的完成检测目标。现有检测方法存在以下不足:1.检测过程对短序列比对软件的依赖较高,比对结果的好坏对检测到融合基因的有较大影响;2.检测时间相对较长、内存消耗较大。现有检测方法一般要花费数小时或者数天来才能检测到结果,且对计算内存消耗较大,一般的计算设备较难满足要求。3.检测结果的假阳性较高。由于测序错误、比对错误等原因,传统的检测方法会产生较多的假阳性结果,导致分析结果需要进一步验证才能最终确定真正的融合基因。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种快速检测融合基因的方法,其不但可以快速检测出融合基因,同时可以防止软件比对错误引起的误判。一种快速检测融合基因的方法,包括以下步骤:A.建立融合基因数据库:将已知的融合基因断裂点以及断裂点前面的N个序列和断裂点后面的M个序列组成种子,种子的集合形成融合基因数据库;B.获取待检测基因:通过基因检测装置,获取待检测基因的序列数据;D.将种子与待检测基因的序列数据比对,确定待检测基因的序列数据是否包含种子信息;E.当包含待检测基因包含种子信息时,则认为待检测基因内含有融合基因;否则认为不包含融合基因。进一步地,在所述步骤B之后还包括步骤C.将序列数据建立数据库索引。进一步地,在所述步骤D之后还包括步骤F.当含有融合基因时,判断待检测基因包含融合基因的含量,当融合基因的含量大于一定阈值时,提示存在风险。进一步地,所述步骤B中的基因检测装置为二代高通量测序平台或三代测序平台或基因芯片。进一步地,所述步骤A中,N≥5或M≥5。进一步地,所述步骤D中种子与序列数据采用局部比对。采用上述方法,本专利技术具有以下的技术效果:1.由于本专利技术将将已知的融合基因断裂点以及断裂点前面的N个序列和断裂点后面的M个序列组成种子,种子的集合形成融合基因数据库,并将种子与待检测基因的序列数据进行比对,弃用了常规的融合基因寻找方法,通过建立新的融合基因数据库,采用执果索因的方式,不需要与人类基因组进行比较,避免了既耗时又可能产生错误的比对基因组步骤,使得此种方法检测速度可提高几十倍,很少的内存需求下完成分析,并且防止了比较错误引起的误判。2.当融合基因大于阈值时,提示存在风险,通过本专利技术的检测融合基因的方法,可以有效检测融合基因并且提示用户注意,提前做出预防。3.基因检测装置为二代高通量测序平台或三代测序平台或基因芯片,通过快速测序平台,使得检测融合基因的方法的检测速度进一步提高,防止测序的时间影响整个检测时间。4.N≥5或M≥5时,种子与待检测基因的序列数据比对速度较快,并且可以有效保障准确率,如果N<5,则可能引起误判;同样M<5,也有可能引起误判。5.种子与序列数据采用局部比对,采用局部比对的方式,忽略了不相关的基因数据,不但可以提高比对的准确度,还具有较高的敏感性与特异性。附图说明图1是现有技术融合基因的原理。图2是本专利技术实施例1的流程图。图3是本专利技术实施例2的流程图。具体实施例下面结合本专利技术实施例的附图对本专利技术实施例的技术方案进行解释和说明,但下述实施例仅为本专利技术的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例,都属于本专利技术的保护范围。实施例一:如图2所示,一种快速检测融合基因的方法,包括以下步骤:A.建立融合基因数据库:融合基因是已知的,例如可以从已经发表的文献或者数据库中获取,为了实现快速检测,本实施例根据已知的融合基因形成融合基因的嵌合序列,该嵌合序列即称为种子,具体方式为,将已知的融合基因断裂点以及断裂点前面的N个序列和断裂点后面的M个序列组成种子,种子的集合形成融合基因数据库;在本实施例中,M=5,N=5。B.获取待检测基因:通过illumina,获取待检测基因的序列数据;获取序列数据的方法在本领域中比较常见,在本实施中不做详细阐述。当然,本实施例的基因序列数据的获取并不限于使用illumina,也可以是454,LifeTechnologies等二代高通量测序平台,或者来自三代测序平台,如Pacbio等主流或者其他高通量测序平台产生的测序数据。此外,也可以是基因芯片测序产生的序列数据。D.将种子与待检测基因的序列数据比对,确定待检测基因的序列数据是否包含种子信息。E.当包含待检测基因包含种子信息时,则认为待检测基因内含有融合基因;否则认为不包含融合基因。F.当含有融合基因时,判断待检测基因包含融合基因的含量,当融合基因的含量大于一定阈值时,提示存在风险;否则提示注意风险预防。由于本专利技术将将已知的融合基因断裂点以及断裂点前面的N个序列和断裂点后面的M个序列组成种子,种子的集合形成融合基因数据库,并将种子与待检测基因的序列数据进行比对,弃用了常规的融合基因寻找方法,通过建立新的融合基因数据库,采用执果索因的方式,不需要与人类基因组进行比较,避免了既耗时又可能产生错误的比对基因组步骤,使得此种方法检测速度可提高几十倍,很少的内存需求下完成分析,并且防止了比较错误引起的误判。可以理解,本实施例的M或N并不限于5,也可以是6、7、8等,通常来说,N≥5或M≥5时,种子与待检测基因的序列数据比对速度较快,并且可以有效保障准确率,如果N<5,则可能引起误判;同样M<5,也有可能引起误判。实施例二:本实施例与实施例一的区别在于,该方法还包括建立数据库索引和比对方式不同。如图3所示,一种快速检测融合基因的方法,包括以下步骤:A.建立融合基因数据库:将已知的融合基因断裂点以及断裂点前面的N个序列和断裂点后面的M个序列组成种子,种子的集合形成融合基因数据库;B.获取待检测基因:通过基因检测装置,获取待检测基因的序列数据;C.将序列数据建立数据库索引。D.通过bl本文档来自技高网
...
一种快速检测融合基因的方法

【技术保护点】
一种快速检测融合基因的方法,其特征在于,包括以下步骤:A.建立融合基因数据库:将已知的融合基因断裂点以及断裂点前面的N个序列和断裂点后面的M个序列组成种子,种子的集合形成融合基因数据库;B.获取待检测基因:通过基因检测装置,获取待检测基因的序列数据;D.将种子与待检测基因的序列数据比对,确定待检测基因的序列数据是否包含种子信息;E.当包含待检测基因包含种子信息时,则认为待检测基因内含有融合基因;否则认为不包含融合基因。

【技术特征摘要】
1.一种快速检测融合基因的方法,其特征在于,包括以下步骤:A.建立融合基因数据库:将已知的融合基因断裂点以及断裂点前面的N个序列和断裂点后面的M个序列组成种子,种子的集合形成融合基因数据库;B.获取待检测基因:通过基因检测装置,获取待检测基因的序列数据;D.将种子与待检测基因的序列数据比对,确定待检测基因的序列数据是否包含种子信息;E.当包含待检测基因包含种子信息时,则认为待检测基因内含有融合基因;否则认为不包含融合基因。2.根据权利要求1所述的快速检测融合基因的方法,其特征在于,在所述步骤B之后还包括步骤C.将序列数据...

【专利技术属性】
技术研发人员:闫成海唐元华徐健
申请(专利权)人:首度生物科技苏州有限公司苏州首度基因科技有限责任公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1