用于检测目标区域基因融合的方法、装置和存储介质制造方法及图纸

技术编号:17879278 阅读:92 留言:0更新日期:2018-05-06 01:00
一种用于检测目标区域基因融合的方法、装置和存储介质,该方法包括:获取比对结果的步骤,提取目标区域信息的步骤,提取成对扩展区域信息的步骤,信息注释的步骤,断点统计打分的步骤,局部聚类的步骤,以及局部拼接的步骤。本发明专利技术充分利用双末端测序读段的优势以及比对的信息,检测过程不需要再次比对,也不需要进行复杂的组装过程,目标区域只覆盖其中一个融合区域也可检测到基因融合事件,在优化资源需求和检测速度的同时,大幅提升检测目标区域基因融合的敏感性和特异性。

Method, device and storage medium for detecting gene fusion in target area

A method, device and storage medium used to detect gene fusion in a target area. This method includes steps to obtain comparison results, steps of extracting information from target area, steps to extract information from extended regions, steps of information annotation, steps of breaking point statistics, steps of local clustering, and local collage. The next step. The invention makes full use of the advantages of the double end sequence reading section and the comparison information. The detection process does not need to be compared again, and does not require a complex assembly process. The target area covers only one of the fusion regions and also detects genetic fusion events. The sensitivity and specificity of gene fusion in target area were measured.

【技术实现步骤摘要】
用于检测目标区域基因融合的方法、装置和存储介质
本专利技术涉及基因检测
,具体涉及一种用于检测目标区域基因融合的方法、装置和存储介质。
技术介绍
融合基因是由两个不相关的基因融合形成的一种基因产物,是染色体易位、中间缺失或染色体倒置所致的结果。当前主流的用于检测基因融合的方法大部分是针对全基因组结构变异的,如CREST(clippingrevealsstructure,截取揭示结构)。CREST方法利用软剪切信息进行两次组装比对,存在资源要求高、检测速度慢等缺点,同时该方法考虑的还是全基因组范围的检测,对目标区域测序的检测效果较差。现有检测目标区域基因融合的方法主要是FACTERA(FusionAndChromosomalTranslocationEnumerationandRecoveryAlgorithm,融合/染色体易位枚举和检测算法),该方法在目标区域内利用双末端异常关系进行融合区域的聚类,再利用融合区域的软剪切信息进行解析比较,最后进行再比对确认融合结果。由于目标区域和聚类的限制条件,会造成敏感性方面的缺陷;使用的数据没有充分考虑比对错误对检测结果的影响,加上解析比较的模块不够严谨,会造成特异性偏低;比对的部分不能最大优化计算资源和运行时长。因此,还需对现有的基因融合检测方法进行改进,实现能快速精准地检测基因融合事件。
技术实现思路
本专利技术提供一种用于检测目标区域基因融合的方法、装置和存储介质,在优化资源需求和检测速度的同时,大幅提升检测目标区域基因融合的敏感性和特异性。根据第一方面,一种实施例中提供一种用于检测目标区域基因融合的方法,包括:获取比对结果的步骤,该步骤包括获取目标区域捕获双末端测序数据比对到参考基因组的结果;提取目标区域信息的步骤,该步骤包括提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息;提取成对扩展区域信息的步骤,该步骤包括提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息;信息注释的步骤,该步骤包括对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;断点统计打分的步骤,该步骤包括根据基因注释结果将提取的成对读段归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数;局部聚类的步骤,该步骤包括分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合;和局部拼接的步骤,该步骤包括对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。进一步地,上述方法还包括:预过滤的步骤,该步骤包括过滤掉潜在的假阳性集合。进一步地,上述过滤掉潜在的假阳性集合包括如下至少一种:集合的支持数低于设定阈值,融合的两个基因为同源基因,以及其中至少一个基因的潜在断点中最大软剪切支持数低于设定阈值。进一步地,上述方法还包括:若两个软剪切位点的基因组位置均落在所得到的簇区域内,则输出该基因融合结果,成功拼接的两条序列对应的软剪切位点区域视为融合的两个断点区域。进一步地,在提取目标区域信息的步骤之前,还包括:过滤掉存在多个插入缺失或存在短串联重复序列的序列。进一步地,上述目标区域的前后设定范围是前后200bp范围内。进一步地,上述插入片段大小异常包括大于10Mb或一对读段分别比对到不同染色体上的情况。进一步地,上述唯一比对序列的比对质量值和平均碱基质量值高于设定阈值。进一步地,上述有效信息包括比对位置、序列碱基、质量值和比对标志。进一步地,在提取成对扩展区域信息的步骤之前,还包括:过滤掉存在多个插入缺失或存在短串联重复序列的序列。进一步地,上述成对扩展区域是根据一条比对到目标区域另一条比对到非目标区域的成对读段位置信息得到。根据第二方面,一种实施例中提供一种用于检测目标区域基因融合的装置,包括:比对结果获取模块,用于获取目标区域捕获双末端测序数据比对到参考基因组的结果;目标区域信息提取模块,用于提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息;成对扩展区域信息提取模块,用于提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息;信息注释模块,用于对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;断点统计打分模块,用于根据基因注释结果将提取的成对读段归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数;局部聚类模块,用于分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合;和局部拼接模块,用于对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。根据第三方面,一种实施例中提供一种用于检测目标区域基因融合的装置,包括:存储器,用于存储程序;处理器,用于通过执行上述存储器存储的程序以实现如第一方面的方法。根据第四方面,一种实施例中提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如第一方面的方法。本专利技术充分利用双末端测序读段的优势以及比对的信息,检测过程不需要再次比对,也不需要进行复杂的组装过程,目标区域只覆盖其中一个融合区域也可检测到基因融合事件,在优化资源需求和检测速度的同时,大幅提升检测目标区域基因融合的敏感性和特异性。附图说明图1为本专利技术实施例中用于检测目标区域基因融合的方法的流程图;图2为本专利技术实施例中序列拼接的四种可能类型的示意图;图3为本专利技术实施例中用于检测目标区域基因融合的装置的结构框图。具体实施方式下面通过具体实施方式结合附图对本专利技术作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本专利技术能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本专利技术相关的一些操作并没有在说明书中显示或者描述,这是为了避免本专利技术的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。本专利技术中涉及的术语的具体含义说明如下。本专利技术所称的“参考基因组”,是指物种参考的标准基因组序列,例如人参考基因组(GRCh37)等。本专利技术所称的“读段(Reads)”,是指测序所得基因组序列片段。本专利技术所称的“PE测序”,是指双末端(PairEnd)测序,是一种测序方法。本专利技术所称的“InDel”,是指小片段插入/缺失。本专利技术所称的“软剪切”,是指在读段(Reads)比对之后,存在部分序列比对到参考基因组,另一部分不能比对到参考基因组,比对不上的部分为软剪切部分,两部分分界点为软剪切位点。本专利技术所称的“断点”,是指融合基因中两个基因连接的点,一般是两个基因各一个。本专利技术所称的“错配个数”,是指两段序列本文档来自技高网...
用于检测目标区域基因融合的方法、装置和存储介质

【技术保护点】
一种用于检测目标区域基因融合的方法,其特征在于,所述方法包括:获取目标区域捕获双末端测序数据比对到参考基因组的结果;提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息;提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息;对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;根据基因注释结果将提取的成对读段归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数;分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合;对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。

【技术特征摘要】
1.一种用于检测目标区域基因融合的方法,其特征在于,所述方法包括:获取目标区域捕获双末端测序数据比对到参考基因组的结果;提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息;提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息;对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;根据基因注释结果将提取的成对读段归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数;分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合;对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。2.根据权利要求1所述的方法,其特征在于,在统计步骤之后和聚类步骤之前,所述方法还包括:过滤掉潜在的假阳性集合。3.根据权利要求2所述的方法,其特征在于,所述假阳性集合包括如下至少一种:集合的支持数低于设定阈值,融合的两个基因为同源基因,以及其中至少一个基因的潜在断点中最大软剪切支持数低于设定阈值。4.根据权利要求1所述的方法,其特征在于,在所述拼接之后,所述方法还包括:若两个软剪切位点的基因组位置均落在所得到的簇区域内,则输出该基因融合结果,成功拼接的两条序列对应的软剪切位点区域视为融合的两个断点区域。5.根据权利要求1所述的方法,其特征在于,在提取目标区域信息的步骤之前,还包括:过滤掉存在多个插入缺失或存在短串联重复序列的序列。6.根据权利要求1所述的方法,其特征在于,所述目标区域的前后设定范围是前后200bp范围内;优选地,所述插入片段大小异常包括大于10Mb或一对读段分别比对到不同染色体上...

【专利技术属性】
技术研发人员:陈龙昀高志博李淼王佳茜陈超杨洁
申请(专利权)人:深圳裕策生物科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1