【技术实现步骤摘要】
一种快速、超高灵敏度的DNA融合基因检测方法
[0001]本专利技术涉及生物信息学分析领域,特别是涉及一种快速、超高灵敏度的DNA融合基因检测的生信分析方法。
技术介绍
[0002]基因组结构变异通常指的是长度大于1kbp的基因组结构改变,主要包括大片段的缺失(Deletion),插入(Insertion),倒置(Inversion)及易位(Translocation)
[1]。由基因组结构变异导致的不同基因间的序列拼接,通常称为融合基因。
[0003]基因融合作为一种重要的生物标记物在肿瘤的诊断、预后及治疗中提供重要的信息。例如,ALK、ROS1、RET基因融合在非小细胞肺癌中通常是独立的致癌因子,并且是靶向药作用的靶点
[2,3]。以往,肿瘤生物标记物的检测主要是对肿瘤组织样本进行检测。液体活检是一项革命性的技术,它打开了以前意想不到的前景,主要包括检测和分离循环肿瘤细胞(CTCs)、循环肿瘤DNA(cfDNA)和外泌体
[4]。因其具有微创、可重复的检测方式,以及包含癌症患者基因组和蛋白质组学信息,在临床诊断中具有相当大的意义。基于液体活检和NGS测序技术检测基因融合事件对于检测软件的灵敏性及特异性要求更高。Guardant360 CDx伴随诊断产品是FDA批准的首个基于NGS测序技术检测cfDNA中基因突变的体外诊断试剂盒
[5]。此产品的融合检出性能可以达到投入量为5ng时最低检出限为1%,投入量为30ng时最低检出限为0.1%。
[0004]NGS测序技术可 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种DNA融合基因检测的生信分析方法,其特征在于,所述方法包括如下步骤:步骤1)断点查找及初步筛选;步骤2)融合可信度判断;步骤3)假阳性融合过滤;步骤4)融合频率计算。2.权利要求1所述的DNA融合基因检测的生信分析方法,其特征在于,所述步骤1)包括如下步骤:a.成对断点查找:在测序获得的BAM文件中通过识别split reads的主比对信息及次比对信息(SA tag)直接搜寻融合成对断点;b.断点初步过滤:设置成对断点间距离过滤参数为大于1k,过滤掉仅有1条read支持的融合断点对;优选的,所述成对断点查找步骤如下:搜寻BAM文件中带有soft clip区域的reads,获取全部成对断点信息;通过soft clipped read的主比对位置及cigar值确定断点1的位置及CN区域;根据soft clipped read的次比对信息(SA tag)的比对位置及cigar值确定断点2的位置及CN区域;统计具有相同成对断点及CN区域的reads数量,即为成对断点的Supplyment_Support支持数;更优选的,还包括融合Supplyment_Support支持数矫正:矫正由于PCR duplicate造成支持数偏高而导致的假阳融合的问题,记录为dupcount支持数。3.权利要求1
‑
2任一所述的DNA融合基因检测的生信分析方法,其特征在于,所述步骤2)包括如下步骤:a.融合断点基因区域注释;b.候选融合序列矫正及拼接:通过比较同一条read在两处比对位置的mapping长度,进行融合序列的矫正及拼接,并记录两个断点处read信息;c.融合断点验证;优选的,将断点处的reads重新回比到拼接的融合序列上,若reads可以跨过融合序列拼接点长度达到给定阈值则记录为支持融合事件的reads,记录此类reads的数量,即Fusion_VD。4.权利要求1
‑
3任一所述的DNA融合基因检测的生信分析方法,其特征在于,所述步骤3)包括如下步骤:a.低复杂区域标记;b.序列相似性比较;c.softclip序列回比;优选的:所述a.低复杂区域标记为:通过计算拼接序列的串联重复长度及最大单碱基占比来描述序列低复杂区域,过滤掉由于测序仪导致的假阳信息;所述b.序列相似性比较为:截取成对断点处附近序列进行相似性比较;若序列相似,该融合是由比对算法造成的假阳信息;所述c.softclip序列回比:截取reads的softclip区域序列回比到断点附近的参考序列上,若能回比成功该融合则是SSARs(strand
技术研发人员:寻雪颖,叶雷,邓望龙,任用,李诗濛,卜范峰,丁然,陆光华,
申请(专利权)人:江苏先声诊断技术有限公司南京先声诊断技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。