一种改善小PANEL数据中大型CNV检测效果的方法技术

技术编号:27532183 阅读:11 留言:0更新日期:2021-03-03 11:11
本发明专利技术公开了一种改善小PANEL数据中大型CNV检测效果的方法,通过在设计小Panel时引入若干与待检测基因的临床表型无关且拷贝数稳定的对照基因(如常见的管家基因),使得加入对照基因后预计出现的CNV区间占Panel总设计长度的比例变小,优选小于Panel总设计长度的20%,从而降低大型CNV对CNV检测软件基于测序数据覆盖度分布检测CNV信号的影响,使得大型CNV可以被正常检出。CNV可以被正常检出。CNV可以被正常检出。

【技术实现步骤摘要】
一种改善小PANEL数据中大型CNV检测效果的方法


[0001]本专利技术涉及生物学与精准医学基因组变异检测
,具体涉及一种改善小PANEL数据中大型CNV检测效果的方法。

技术介绍

[0002]基因检测Panel是指用于检测与某种特定疾病相关的基因或基因组区域的基因突变的生物检测试剂盒及相应的分析方法。高通量测序技术(High-throughput sequencing)又称“下一代”测序技术("Next-generation"sequencing technology,NGS),以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。近年来,随着高通量测序技术的飞速发展以及测序成本的逐年降低,医学领域越来越多的通过设计基于NGS测序平台检测特定基因的Panel试剂盒来检测或筛查相应的疾病。这些Panel通常包含若干个基因或基因区域,具有测序深度高(1000X以上)、成本低等优点,主要检测的变异类型包括单核苷酸多态性(single nucleotide polymorphism,SNP)、插入缺失(insertion-deletion,InDel)、拷贝数变异(Copy number variation,CNV)、结构变异(structural variation,SV)等;其常见的处理流程如下:
[0003]1)根据目标基因的序列设计捕获探针,进行DNA捕获和高通量测序。
[0004]2)对高通量数据进行数据质控、比对分析。
[0005]3)根据比对结果使用各类分析工具检测样本中的单核苷酸突变,插入缺失及拷贝数变异。
[0006]目前的小Panel(指检测的基因组范围较小)数据可以较好地解决单核苷酸突变、插入缺失以及小型拷贝数变异的检测,但是面对大型(拷贝数变异区间长度大于Panel设计总长度的20%)拷贝数变异则会遇到困难,具体如下:
[0007]1)拷贝数变异检测基本原理是通过对比目标样本和对照样本集合的覆盖度变化,获得两者不一致的区间,从而发现潜在的拷贝数变异区域。
[0008]2)在全基因组测序(WGS)和全外显子测序(WES)分析中,拷贝数变异影响的区域通常小于数据覆盖区域的1%。但是在小Panel中,由于设计总长度有限,容易出现高占比的拷贝数变异。例如,设计了两个长度相似基因的小Panel,当一个基因发生整体删除时,拷贝数变异影响区域长度与设计总长度的比值就会达到50%左右。
[0009]3)大型拷贝数变异的存在会导致测序数据在小Panel设计区域上的分布发生明显变化,破坏存在拷贝数变异的目标样本与不存在拷贝数变异的参考样本间的覆盖度相关性,从而对拷贝数变异的检测造成困难。
[0010]4)在一种极端的情况下,如果小Panel中设计的基因发生整体性删除,拷贝数变异在数据中的信号将会消失,基于覆盖度差异的拷贝数变异检测方法将会彻底失效。这种极端情况在全基因组和全外显子组测序中几乎不会出现,但是在小Panel中是有可能出现的。
[0011]图1展示了当出现大比例CNV时,reads(图中的横向箭头)覆盖度分布会因为CNV长度占Panel总长度过长而导致CNV检测软件产生错误信号,出现假阳性的问题。比如当覆盖
度都是8000X时,在正常情况下,由于没有CNV出现,reads能够均匀覆盖到TSC1基因和TSC2基因上,CNV检测软件基于此产生正常的拷贝数信号,认为reads覆盖度达到8000X左右的区域是拷贝数正常区域。但是当出现较大长度的插入缺失时,如图1中TSC2基因上出现的DEL,由于CNV区域过大,使得reads分布平衡状态被打破,CNV检测软件错误的把reads覆盖度5000X认为是拷贝数正常状态,而TSC1基因和TSC2基因部分区域由于覆盖度在5000X以上,CNV检测软件错误的认为出现了DUP假阳性。

技术实现思路

[0012]本专利技术的目的是提供一种改善小PANEL数据中大型CNV检测效果的方法,以解决现有技术的不足。
[0013]本专利技术采用以下技术方案:
[0014]一种改善小PANEL数据中大型CNV检测效果的方法,通过在设计小Panel时引入若干与待检测基因的临床表型无关且拷贝数稳定的对照基因,使得加入对照基因后预计出现的CNV区间占Panel总设计长度的比例变小,从而降低大型CNV对CNV检测软件基于测序数据覆盖度分布检测CNV信号的影响,使得大型CNV可以被正常检出。
[0015]进一步地,使得加入对照基因后预计出现的CNV区间小于Panel总设计长度的20%。
[0016]进一步地,对照基因为管家基因。
[0017]进一步地,对照基因总长度和待检测基因总长度相当,或者数倍于待检测基因总长度,使得加入对照基因后预计出现的CNV区间占Panel总设计长度的比例变小。
[0018]进一步地,使得加入对照基因后预计出现的CNV区间小于Panel总设计长度的20%。
[0019]进一步地,对照基因为管家基因。
[0020]本专利技术的有益效果:
[0021]本专利技术创造了一种改善小Panel中大型拷贝数变异检测的方法,通过在设计小Panel时引入若干与待检测基因的临床表型无关且拷贝数稳定的对照基因(如常见的管家基因),使得加入对照基因后预计出现的CNV区间占Panel总设计长度的比例变小,优选小于Panel总设计长度的20%,从而降低大型CNV对CNV检测软件基于测序数据覆盖度分布检测CNV信号的影响,使得大型CNV可以被正常检出。
附图说明
[0022]图1是大比例CNV导致reads覆盖度分布异常示意图(横向箭头:表示测序数据中的短序列片段,覆盖度可以通过这种短序列片段在单位区间内的数量来表示;正常情况:分析结果中拷贝数正常的区域;DEL:分析结果中,发生拷贝数变异的区域,DEL代表Deletion,表示拷贝数减少;DUP:分析结果中,发生拷贝数变异的区域,DUP代表Duplication,表示拷贝数增加)。
[0023]图2是测试样本和对照样本的TSC1基因和TSC2基因校正后覆盖度示意图(TSC1和TSC2:表示TSC1基因和TSC2基因区间,后续的图中类同;CASE COV:表示测试样本TSC1基因和TSC2基因校正后覆盖度,如粗线条,后续的图中类同;CONTROL COV:表示对照样本TSC1基
因和TSC2基因校正后覆盖度,如细线条,后续的图中类同;A/B/C/D/E:用于标记区间,后续的图中类同)。
[0024]图3是TSC1基因和TSC2基因覆盖度校正方式一。
[0025]图4是TSC1基因和TSC2基因覆盖度校正方式二。
[0026]图5是TSC1基因和TSC2基因覆盖度校正方式三。
[0027]图6是PANELCN.MOPS检测的测试样本(图中的test样本)和对照样本(图中的control1-control10样本)校正后覆盖度分布(TSC1和TSC2:表示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种改善小PANEL数据中大型CNV检测效果的方法,其特征在于,通过在设计小Panel时引入若干与待检测基因的临床表型无关且拷贝数稳定的对照基因,使得加入对照基因后预计出现的CNV区间占Panel总设计长度的比例变小,从而降低大型CNV对CNV检测软件基于测序数据覆盖度分布检测CNV信号的影响,使得大型CNV可以被正常检出。2.根据权利要求1所述的改善小PANEL数据中大型CNV检测效果的方法,其特征在于,使得加入对照基因后预计出现的CNV区间小于Panel总设计长度的20%。3.根据权利要求1或2所述的改善小PANEL数据中大型CNV...

【专利技术属性】
技术研发人员:鲍远亮梁萌萌余伟师姜玥张斯佳
申请(专利权)人:赛福解码北京基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1