A method, device and storage medium used to detect gene fusion in a target area. This method includes steps to obtain comparison results, steps of extracting information from target area, steps to extract information from extended regions, steps of information annotation, steps of breaking point statistics, steps of local clustering, and local collage. The next step. The invention makes full use of the advantages of the double end sequence reading section and the comparison information. The detection process does not need to be compared again, and does not require a complex assembly process. The target area covers only one of the fusion regions and also detects genetic fusion events. The sensitivity and specificity of gene fusion in target area were measured.
【技术实现步骤摘要】
用于检测目标区域基因融合的方法、装置和存储介质
本专利技术涉及基因检测
,具体涉及一种用于检测目标区域基因融合的方法、装置和存储介质。
技术介绍
融合基因是由两个不相关的基因融合形成的一种基因产物,是染色体易位、中间缺失或染色体倒置所致的结果。当前主流的用于检测基因融合的方法大部分是针对全基因组结构变异的,如CREST(clippingrevealsstructure,截取揭示结构)。CREST方法利用软剪切信息进行两次组装比对,存在资源要求高、检测速度慢等缺点,同时该方法考虑的还是全基因组范围的检测,对目标区域测序的检测效果较差。现有检测目标区域基因融合的方法主要是FACTERA(FusionAndChromosomalTranslocationEnumerationandRecoveryAlgorithm,融合/染色体易位枚举和检测算法),该方法在目标区域内利用双末端异常关系进行融合区域的聚类,再利用融合区域的软剪切信息进行解析比较,最后进行再比对确认融合结果。由于目标区域和聚类的限制条件,会造成敏感性方面的缺陷;使用的数据没有充分考虑比对错误对检测结果的影响,加上解析比较的模块不够严谨,会造成特异性偏低;比对的部分不能最大优化计算资源和运行时长。因此,还需对现有的基因融合检测方法进行改进,实现能快速精准地检测基因融合事件。
技术实现思路
本专利技术提供一种用于检测目标区域基因融合的方法、装置和存储介质,在优化资源需求和检测速度的同时,大幅提升检测目标区域基因融合的敏感性和特异性。根据第一方面,一种实施例中提供一种用于检测目标区域基因融合的方法,包括 ...
【技术保护点】
一种用于检测目标区域基因融合的方法,其特征在于,所述方法包括:获取目标区域捕获双末端测序数据比对到参考基因组的结果;提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息;提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息;对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;根据基因注释结果将提取的成对读段归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数;分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合;对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。
【技术特征摘要】
1.一种用于检测目标区域基因融合的方法,其特征在于,所述方法包括:获取目标区域捕获双末端测序数据比对到参考基因组的结果;提取在目标区域及前后设定范围内的插入片段大小异常的唯一比对序列的有效信息;提取在成对扩展区域内的插入片段大小异常的唯一比对序列的有效信息;对提取的目标区域信息和成对扩展区域信息进行基因注释以确定序列覆盖的基因;根据基因注释结果将提取的成对读段归类到不同的潜在融合集合中,并统计每个集合的支持数,计算每个潜在断点的簇值,统计每个集合中软剪切的支持数;分别对集合中两个基因的潜在断点进行聚类,分别得到两个基因中最多富集的簇区间,若其中一个区间的簇值总和不低于设定阈值,则选取该潜在的基因融合;对分别支持两个基因的软剪切序列两两拼接,若重叠区域同时覆盖到两段序列的软剪切位点,且错配个数不高于设定阈值,视为拼接成功。2.根据权利要求1所述的方法,其特征在于,在统计步骤之后和聚类步骤之前,所述方法还包括:过滤掉潜在的假阳性集合。3.根据权利要求2所述的方法,其特征在于,所述假阳性集合包括如下至少一种:集合的支持数低于设定阈值,融合的两个基因为同源基因,以及其中至少一个基因的潜在断点中最大软剪切支持数低于设定阈值。4.根据权利要求1所述的方法,其特征在于,在所述拼接之后,所述方法还包括:若两个软剪切位点的基因组位置均落在所得到的簇区域内,则输出该基因融合结果,成功拼接的两条序列对应的软剪切位点区域视为融合的两个断点区域。5.根据权利要求1所述的方法,其特征在于,在提取目标区域信息的步骤之前,还包括:过滤掉存在多个插入缺失或存在短串联重复序列的序列。6.根据权利要求1所述的方法,其特征在于,所述目标区域的前后设定范围是前后200bp范围内;优选地,所述插入片段大小异常包括大于10Mb或一对读段分别比对到不同染色体上...
【专利技术属性】
技术研发人员:陈龙昀,高志博,李淼,王佳茜,陈超,杨洁,
申请(专利权)人:深圳裕策生物科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。