一种精确定量肿瘤标准品中突变支持reads数的方法及其应用技术

技术编号:21835969 阅读:47 留言:0更新日期:2019-08-10 19:15
本发明专利技术公开了一种精确定量肿瘤标准品中突变支持reads数的方法。该方法包括如下步骤:根据肿瘤标准品的突变信息,组装参考序列;采用比对软件对参考序列依次进行建索引、比对、过滤、排序和去重,得到目标reads;将目标reads和参考序列进行比对,比对上的即为突变支持reads;统计突变支持reads数。实验证明,采用本发明专利技术提供的方法以评估捕获探针对突变支持reads的捕获能力,可与变异检测软件识别的突变支持reads数作对比,从而评估变异检测软件的性能。本发明专利技术具有重大的应用价值。

A Method for Accurate Quantification of Mutation Support Reads Number in Cancer Standards and Its Application

【技术实现步骤摘要】
一种精确定量肿瘤标准品中突变支持reads数的方法及其应用
本专利技术属于生物
,具体涉及一种精确定量肿瘤标准品中突变支持reads数的方法及其应用。
技术介绍
TKI药物的出现显著提高了非小细胞肺癌的5年生存率。TKI药物与EGFR基因、ALK基因等的突变状态相关,因此在临床上需要常规检测EGFRL858R、EX19Del、ALKfusion等。而使用高通量测序检测肿瘤基因,支持突变的信息和支持正常的信息均混杂在测序数据中,从而影响突变检出。影响突变检出的原因主要有两方面。一是捕获阶段:捕获探针的序列是以hg19为基础进行设计的,针对的是正常的序列,而突变支持reads是带有突变信息的,与正常序列会存在一定的差异,差异性取决于突变的复杂程度(如SNV、INDEL、复杂INDEL),突变程度越复杂,捕获探针对发生了突变的序列捕获能力越差,导致测序数据中突变支持reads数偏少,进而影响突变的检出。二是变异检测软件:检测SNV或INDEL时,常用的代表性变异检测软件是GATK,其通过读入经bwa比对好的bam格式数据,统计每个位置上ATCG四种碱基的数目以识别SNV,通过统计CIGAR字串中标识出的I和D来识别INDEL;由此可知,突变支持reads的识别严重依赖于比对软件的性能,SNV和短INDEL只涉及单个碱基的改变,对比对影响不大,其识别率接近真实值,但对于EGFREX19DEL等较长的INDEL,当突变发生在reads末端时经常会被错误解析,如被拆分成有间隔的几个SNV或者softclip,特别是对于先缺失后又有插入的复杂突变,插入的碱基会在缺失位置上发生波动,比对结果并不能反映出所有的突变支持reads,GATK在后续的建模中就会丢失该部分信息,从而影响突变的检出。检测FUSION的代表性变异检测软件是SEEKSV,该软件通过soft-clip和PEreads的非正常比对来识别突变支持reads。在液体活检中,DNA片段长度主峰在170bp,PE信息不足,只剩下soft-clip信息一种。Soft-clip信息完全依赖于比对软件的性能,当断点位于reads末端或者断点处在基因组上存在同源区域时,都会导致无法识别,从而影响突变的检出。为了明确是哪个环节影响突变检出,常用的方法是拿测序文库进行第三方的验证,但是这种方法存在诸多的缺点,例如耗时长、成本高、准确性受第三方验证方法的精度影响等等。而且对于变异检测软件的性能评估,只能从宏观上判断是否检出,并不能体现变异检测软件对不同复杂结构突变支持reads的识别能力。
技术实现思路
本专利技术所要解决的技术问题是评估捕获探针对突变支持reads的捕获能力和变异检测软件的性能。为解决上述技术问题,本专利技术首先提供了一种精确定量肿瘤标准品中突变支持reads数的方法,可包括如下步骤:(1)根据肿瘤标准品的突变信息,组装参考序列;(2)完成步骤(1)后,采用比对软件对所述参考序列依次进行建索引、比对、过滤、排序和去重,得到目标reads;(3)完成步骤(2)后,将所述目标reads和所述参考序列进行比对,比对上的即为突变支持reads;统计突变支持reads数。所述步骤(1)中,所述肿瘤标准品可为a1)或a2)或a3)或a4):a1)带有ALK_EML4融合突变的肿瘤标准品;a2)不同混合频率的融合细胞系标准品;a3)H2228融合细胞系;a4)不同混合频率的EGFREX19INDEL的肿瘤标准品。所述不同混合频率的融合细胞系标准品具体可为南京科佰生物科技有限公司生产的不同混合频率的融合细胞系标准品(H2228)。所述带有ALK_EML4融合突变的肿瘤标准品、所述H2228融合细胞系和所述不同混合频率的EGFREX19INDEL的肿瘤标准品均可为南京科佰生物科技有限公司的产品。所述步骤(1)中,所述组装参考序列可为组装Fusion突变类型的参考序列和/或组装SNV突变类型的参考序列和/或组装INDEL突变类型的参考序列。所述组装Fusion突变类型的参考序列的方法可为根据所述肿瘤标准品的突变位点的断点信息和具有生物学意义的断点方向,基于人类参考基因组,沿着各自的断点方向,前后各延伸180-220bp,组装。所述组装SNV突变类型的参考序列或所述组装INDEL突变类型的参考序列的方法可为基于人类参考基因组,将所述肿瘤标准品的突变位点的序列信息替换成突变后的序列信息,然后基于人类参考基因组前后各延伸180-220bp,组装。上文中,所述“延伸180-220bp”具体可为延伸200bp。所述步骤(2)中,所述比对可为将原始下机数据或与人类参考基因组进行过一次比对的reads和所述参考序列进行比对,得到精确的比对reads。所述步骤(2)中,所述过滤可为从所述精确的比对reads中过滤掉未比对上或比对质量值小于30的reads。所述步骤(2)中,所述排序可为将经过过滤的reads根据染色体编号和所在染色体上的位置进行排序。所述“将经过过滤的reads根据染色体编号和所在染色体上的位置进行排序”具体可为将经过过滤的reads根据染色体编号和所在染色体上的位置按从小到大的顺序进行排序。所述排序可采用排序软件进行。所述排序软件具体可为Samtools。所述步骤(2)中,所述去重可为将排序后的reads去除PCR重复片段。所述去重可采用去重软件进行。上述任一所述的方法中,所述比对软件可为比对软件tmap或比对软件bwa。当比对使用比对软件tmap时,所述去重软件具体可为BamDuplicates软件(ThermoFisher公司的产品)。当比对使用比对软件bwa时,所述去重软件具体可为picard软件。上述任一所述方法的应用也属于本专利技术的保护范围。上述任一所述方法的应用可为b1)或b2)或b3)或b4):b1)分析是捕获探针还是变异检测软件影响肿瘤基因突变的检出;b2)评估肿瘤基因突变检测时捕获探针对突变支持reads的捕获能力;b3)评估变异检测软件的性能;b4)分析肿瘤标准品为阳性、弱阳性还是阴性。上述应用中,所述捕获探针可为所述参考序列。本专利技术还保护一种判断待测肿瘤标准品为阳性、弱阳性还是阴性的方法,可包括如下步骤:按照上述任一所述的方法精确定量突变支持reads数,然后进行如下判断:如果突变支持reads数为3以上,则待测肿瘤标准品为阳性;如果突变支持reads数为1或2,则待测肿瘤标准品为弱阳性;如果突变支持reads数为0,则待测肿瘤标准品为阴性。上文中,所述变异检测软件可为TVC、VarScan、GATK或LOD。上文中,上述任一所述人类参考基因组具体可为人类参考基因组hg19。实验证明,通过精确定量突变支持reads数,转换突变频率,与标准品理论的突变频率作比对,可以评估实验阶段对于突变支持reads的捕获能力;与变异检测软件识别的突变支持reads数作对比,评估变异检测软件的性能。当变异检测软件检测不出对应突变的时候,通过本专利技术提供的方法可以明确具体的原因是因为实验阶段未捕获到相应的突变支持reads还是变异检测软件的检测精度不够,即明确是哪个环节影响突变检出,从而指导研发体系的优化。本专利技术具有重大的应用价值。附图说明图1为融合基因断点方向的各种组合本文档来自技高网
...

【技术保护点】
1.一种精确定量肿瘤标准品中突变支持reads数的方法,包括如下步骤:(1)根据肿瘤标准品的突变信息,组装参考序列;(2)完成步骤(1)后,采用比对软件对所述参考序列依次进行建索引、比对、过滤、排序和去重,得到目标reads;(3)完成步骤(2)后,将所述目标reads和所述参考序列进行比对,比对上的即为突变支持reads;统计突变支持reads数。

【技术特征摘要】
1.一种精确定量肿瘤标准品中突变支持reads数的方法,包括如下步骤:(1)根据肿瘤标准品的突变信息,组装参考序列;(2)完成步骤(1)后,采用比对软件对所述参考序列依次进行建索引、比对、过滤、排序和去重,得到目标reads;(3)完成步骤(2)后,将所述目标reads和所述参考序列进行比对,比对上的即为突变支持reads;统计突变支持reads数。2.如权利要求1所述的方法,其特征在于:所述步骤(1)中,所述肿瘤标准品为a1)或a2)或a3)或a4):a1)带有ALK_EML4融合突变的肿瘤标准品;a2)不同混合频率的融合细胞系标准品;a3)H2228融合细胞系;a4)不同混合频率的EGFREX19INDEL的肿瘤标准品。3.如权利要求1或2所述的方法,其特征在于:所述步骤(1)中,所述组装参考序列为组装Fusion突变类型的参考序列和/或组装SNV突变类型的参考序列和/或组装INDEL突变类型的参考序列。4.如权利要求1所述的方法,其特征在于:所述步骤(2)中,所述比对为将原始下机数据或与人类参考基因组进行过一次比对的reads和所述参考序列进行比对,得到精确的比对reads。5.如权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:刘继龙刘足叶明芝谭美华程少敏茅矛
申请(专利权)人:深圳华大基因股份有限公司深圳华大临床检验中心广州华大基因医学检验所有限公司天津华大医学检验所有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1