一种快速、超高灵敏度的DNA融合基因检测方法技术

技术编号:29050501 阅读:25 留言:0更新日期:2021-06-26 06:13
本发明专利技术提供一种DNA融合基因检测方法,该方法在不影响高灵敏性检测前提下,达到运行时间短并具有高检出特异性,同时能够准确地表征DNA测序数据中的融合基因断点、频率及拼接信息。息。息。

【技术实现步骤摘要】
一种快速、超高灵敏度的DNA融合基因检测方法


[0001]本专利技术涉及生物信息学分析领域,特别是涉及一种快速、超高灵敏度的DNA融合基因检测的生信分析方法。

技术介绍

[0002]基因组结构变异通常指的是长度大于1kbp的基因组结构改变,主要包括大片段的缺失(Deletion),插入(Insertion),倒置(Inversion)及易位(Translocation)
[1]。由基因组结构变异导致的不同基因间的序列拼接,通常称为融合基因。
[0003]基因融合作为一种重要的生物标记物在肿瘤的诊断、预后及治疗中提供重要的信息。例如,ALK、ROS1、RET基因融合在非小细胞肺癌中通常是独立的致癌因子,并且是靶向药作用的靶点
[2,3]。以往,肿瘤生物标记物的检测主要是对肿瘤组织样本进行检测。液体活检是一项革命性的技术,它打开了以前意想不到的前景,主要包括检测和分离循环肿瘤细胞(CTCs)、循环肿瘤DNA(cfDNA)和外泌体
[4]。因其具有微创、可重复的检测方式,以及包含癌症患者基因组和蛋白质组学信息,在临床诊断中具有相当大的意义。基于液体活检和NGS测序技术检测基因融合事件对于检测软件的灵敏性及特异性要求更高。Guardant360 CDx伴随诊断产品是FDA批准的首个基于NGS测序技术检测cfDNA中基因突变的体外诊断试剂盒
[5]。此产品的融合检出性能可以达到投入量为5ng时最低检出限为1%,投入量为30ng时最低检出限为0.1%。
[0004]NGS测序技术可以一次同时检测多个基因融合,在临床检验上具有很大的优势。目前可以对DNA测序数据集(WGS、WES、区域捕获等)和RNA测序数据集的挖掘来识别。现有从DNA测序数据集挖掘基因融合信息的主要方法分为基于序列组装,Read pair(成对read分别比对到染色体不同位置)及Split read(同一条read比对到染色体不同位置)的方法
[5]。基于序列组装的方法通过对短序列进行从头组装或局部组装,拼接成较长的基因序列,再与参考序列比较发现基因结构变异。此方法可以检测结构变异的类型最多,但检出结果的准确性更依赖于序列组装的效果。基于Read pair方法主要通过比较discordant reads之间的距离与插入片段大小的差异来确定基因组结构变异,但此方法的灵敏度受到插入片段长度标准差的影响,并且不能给出结构变异的准确位置。与Read pair方法相比,基于split read方法通过softclip read比对信息可以直接获得精确的断点的位置。此外,有些融合检测方法会同时运用上述两种方法,如FACTERA
[6]等
[0005]然而上述融合检测方法都存在各自的利弊。基于序列组装的方法,检测效果依赖于序列组装的质量,容易生成较多的假阳信息,并且序列组装的方法存在消耗大量计算资源的问题。基于Read pair的方法需要估计测序数据插入片段大小,及其与Read pair之间距离的差异,容易造成假阴和过多假阳信息的问题,并且此方法只能给出融合的大致区域。利用split reads确定融合断点是较为准确的方法,但不同检测方法具体实施过程中,也存在灵敏性不足,假阳检出偏高的问题。
[0006]此外,现有的融合发现方法往往在模拟数据中表现良好,但在临床样本中却高估
真实肿瘤基因组中的断点,几乎都存在假阳性率高的问题。同时,在低肿瘤细胞占比情况下目前的检测方法对于低融合频率的检出敏感性存在缺陷,很难满足目前临检生产尤其是液体活检的敏感性要求。简化分析步骤,缩短运行时间,特别是低肿瘤基因组占比样本中融合事件的准确检测成为本领域面临的重大难题。
[0007]有鉴于此,提出本专利技术。
[0008]部分参考文献如下:[1]Alkan C,Coe B P,Eichler E E.Genome structural variation discovery and genotyping.[J].Nature Reviews Genetics,2011,12(5):363

76。[2]Takeuchi K,Soda M,Togashi Y,et al.RET,ROS1 and ALK fusions in lung cancer[J].Nature medicine,2012,18(3):378

381。[3]Gainor J F,Shaw A T.Novel targets in non

small cell lung cancer:ROS1 and RET fusions[J].The oncologist,2013,18(7):865。[4]Palmirotta R,Lovero D,Cafforio P,et al.Liquid biopsy of cancer:a multimodal diagnostic tool in clinical oncology[J].Therapeutic advances in medical oncology,2018,10:1758835918794630。[5]FDA Approves First Liquid Biopsy Next

Generation Sequencing Companion Diagnostic Test。

技术实现思路

[0009]本专利技术首要目的是提供一种快速、超高灵敏度的DNA融合基因检测方法,这种融合基因的检测可以针对任意种类中的融合基因,因此该方法可应用于疾病诊断类基因和非疾病的诊断类基因的融合。
[0010]为实现上述目的,本专利技术首先提供了一种DNA融合基因检测的生信分析方法,所述方法包括:
[0011]1)断点查找及初步筛选;
[0012]2)融合可信度判断;
[0013]3)假阳性融合过滤;
[0014]4)融合频率计算。
[0015]在一些优选的实施方式中,还包括:
[0016]5)融合方向判断及过滤。
[0017]在一些实施方式中,所述步骤1)包括如下步骤:
[0018]a.成对断点查找:在测序获得的BAM文件中通过识别split reads的主比对信息及次比对信息(SA tag)直接搜寻融合成对断点;
[0019]b.断点初步过滤:设置成对断点间距离过滤参数为大于1k,以及过滤掉仅有1条read支持的融合断点对;
[0020]在一些优选的实施方式中,所述成对断点查找步骤如下:
[0021]搜寻BAM文件中带有soft clip区域的reads,获取全部成对断点信息;通过soft clipped read的主比对位置及cigar值确定断点1的位置及CN区域;根据soft clipped read的次比对信息(SA tag)的比对位置及cigar值确定断点2的位置及CN区域;统计具有相同成对断点及CN区域的reads数量,即为成对断点的Sup本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种DNA融合基因检测的生信分析方法,其特征在于,所述方法包括如下步骤:步骤1)断点查找及初步筛选;步骤2)融合可信度判断;步骤3)假阳性融合过滤;步骤4)融合频率计算。2.权利要求1所述的DNA融合基因检测的生信分析方法,其特征在于,所述步骤1)包括如下步骤:a.成对断点查找:在测序获得的BAM文件中通过识别split reads的主比对信息及次比对信息(SA tag)直接搜寻融合成对断点;b.断点初步过滤:设置成对断点间距离过滤参数为大于1k,过滤掉仅有1条read支持的融合断点对;优选的,所述成对断点查找步骤如下:搜寻BAM文件中带有soft clip区域的reads,获取全部成对断点信息;通过soft clipped read的主比对位置及cigar值确定断点1的位置及CN区域;根据soft clipped read的次比对信息(SA tag)的比对位置及cigar值确定断点2的位置及CN区域;统计具有相同成对断点及CN区域的reads数量,即为成对断点的Supplyment_Support支持数;更优选的,还包括融合Supplyment_Support支持数矫正:矫正由于PCR duplicate造成支持数偏高而导致的假阳融合的问题,记录为dupcount支持数。3.权利要求1

2任一所述的DNA融合基因检测的生信分析方法,其特征在于,所述步骤2)包括如下步骤:a.融合断点基因区域注释;b.候选融合序列矫正及拼接:通过比较同一条read在两处比对位置的mapping长度,进行融合序列的矫正及拼接,并记录两个断点处read信息;c.融合断点验证;优选的,将断点处的reads重新回比到拼接的融合序列上,若reads可以跨过融合序列拼接点长度达到给定阈值则记录为支持融合事件的reads,记录此类reads的数量,即Fusion_VD。4.权利要求1

3任一所述的DNA融合基因检测的生信分析方法,其特征在于,所述步骤3)包括如下步骤:a.低复杂区域标记;b.序列相似性比较;c.softclip序列回比;优选的:所述a.低复杂区域标记为:通过计算拼接序列的串联重复长度及最大单碱基占比来描述序列低复杂区域,过滤掉由于测序仪导致的假阳信息;所述b.序列相似性比较为:截取成对断点处附近序列进行相似性比较;若序列相似,该融合是由比对算法造成的假阳信息;所述c.softclip序列回比:截取reads的softclip区域序列回比到断点附近的参考序列上,若能回比成功该融合则是SSARs(strand

【专利技术属性】
技术研发人员:寻雪颖叶雷邓望龙任用李诗濛卜范峰丁然陆光华
申请(专利权)人:江苏先声诊断技术有限公司南京先声诊断技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1