一种全外显子组测序数据的处理方法、系统及一种检测短串联重复疾病相关异常扩增的系统技术方案

技术编号:35523249 阅读:23 留言:0更新日期:2022-11-09 14:43
本发明专利技术提供了一种全外显子测序数据的处理方法、处理系统及一种检测短串联重复疾病相关异常扩增的系统。本发明专利技术通过WES测序数据中实际样本真实覆盖度情况定义样本可检测的STR相关基因,比使用WES探针bed区域/bed+flanking区域的是否重叠来评估更准确。本发明专利技术提供的全外显子测序数据的处理方法受不同的算法、不同的测序平台、不同的探针、不同的比对软件影响较小,得到的数据结果较为准确。得到的数据结果较为准确。

【技术实现步骤摘要】
一种全外显子组测序数据的处理方法、系统及一种检测短串联重复疾病相关异常扩增的系统


[0001]本专利技术涉及医药
,尤其涉及一种全外显子测序数据的处理方法、系统及一种检测短串联重复疾病相关异常扩增的系统。

技术介绍

[0002]基因组上外显子占总序列约1

2%,却包含高达85%疾病相关致病性变异。通过序列捕获或靶向技术将全基因组外显子区域DNA富集后的高通量测序方法叫全外显子组测序(WES),因其全面性、有效性和极高性价比已经成为大多数临床异质性较高疾病的分子诊断首选方案,可以同时检测SNP、Indel、CNV,若增加线粒体环的捕获,还可以同时检测线粒体环基因变异。
[0003]短串联重复(STR),通常指基因组中由1~6个碱基单元(motif)组成的一段DNA重复序列。重复数在个体间高度变异且数量众多,具有丰富的遗传多态性,据估计在人类基因组中有超过一百万STR位点,,占人类基因组的约3%。短串联重复扩增能够导致一系列疾病包括亨廷顿、各种共济失调、肌萎缩性侧索硬化症、额颞叶痴呆、脆X综合征和其他神经系统疾病。同时也有较多的研究表明串联重复多态性(TRP)在多基因疾病的基因表达调控中发挥重要的作用。串联重复相关疾病(TRDs)在表型上并不是一个简单有和无的定义(患病人群和正常人群的比较),因其特殊性根据其串联重复次数的变化通常导致一种连续的量级的变化(比如发病的年龄、疾病严重程度等)。
[0004]目前,对于这类疾病的常规分子诊断是基于精确的PCR扩增或者Southern印迹分析,这需要实验室能精准的扩增每种不同的重复序列,临床医生需要对患者进行准确的诊断,确定最可能与哪些疾病最相关,提交合适的检测。但是STR相关疾病在临床症状、外显率的变异和发病时间上有一定的重叠,主要取决于等位基因的大小和修饰基因的作用。在多达50%的共济失调的患者中,可能是由其它突变比如SNP、Indel等导致。因此在对这些疾病进行分子诊断时,通常还需要对候选基因进行常规测序,比如panel、WES等。有些遗传病因临床表型异质性超高,可能因错误诊断而选择不恰当的检测方法而导致患者无法获得正确的分子诊断确诊。比如齿状核红核苍白球路易体萎缩症(Dentatorubral

pallidoluysian atrophy,DRPLA))是一种进行性常染色体显性遗传疾病,其特征是肌阵挛性癫痫、共济失调、舞蹈手足徐动症/肌张力障碍、认知障碍、痴呆和精神障碍,由ATN1基因CAG三核苷酸串联重复导致,正常人重复次数为7

23次,受累者常为49

88次。DRPLA发病年龄从0岁到70岁,平均发病年龄为30岁。该病临床表现因发病年龄而异:儿童的主要特征是共济失调、智力障碍、行为改变、肌阵挛和癫痫;成人的主要特征是共济失调、舞蹈手足徐动症和痴呆。20岁之前发病的患者通常有进行性肌阵挛性癫痫((PME))表型,其特征为肌阵挛、癫痫发作、共济失调和进行性智力退化,还观察到各种形式的全面性癫痫发作((包括强直、失张力、阵挛或强直

阵挛发作))。对于早发型病人常常因被诊断为癫痫发作、智力障碍而推荐做常规WES检测。
[0005]虽然高通量测序技术(NGS)的发展为全基因组检测数以百万计的STR提供了可能性,但是在生信分析中基因分型仍然具有挑战:高GC含量、无法覆盖完整重复的短读长序列、映射到与参考基因组存在差异的大的缺失/插入的STR变异、重复序列本身重复特性无法映射或者映射差、PCR扩增导致的stutter产物(影子带或者DNA聚合酶滑脱产物)噪音影响等。虽然Illumina开发了一个免扩增的(PCR

)的文库制备方法,该方法去除了样本制备(PCR+)中PCR扩增过程中STR stutter错误,可以提高STR分型的准确性。但是,现阶段PCR+方法已经产生了大量的测序数据,PCR

的方法在成本和难度上还存在一定的限制。虽然PCR

的WGS测序有很多的优势,但是WES因其低成本高覆盖,在人类遗传病研究和诊断中发挥着重要的作用。在国内遗传诊断中,WES是临床异质性高的疾病首选的检测方式,因此,从PCR+的测序数据中精确的进行STR分型至关重要。针对WES数据,现有技术开发了较多用于STR分型的工具,但绝大多数限于检测读长范围内的STR,而且因其算法和原理不同,在疾病相关STR鉴定上都存在一定的局限性。比如exSTRa,该算法主要用于在测序的队列样本中检测用户指定的STR序列,其为outlier检测手段,假设大多数(>85%)的个体在特定的STR位点具有正常的等位基因。;又如ExpansionHunter,主要用于WGS数据的STR分析,倾向于PCR

的文库制备,使用预定的阈值来确定个体是否存在STR扩增。
[0006]目前NGS短读长测序数据的STR分析的相关研究更多集中在分析算法上,但不同的算法、不同的测序平台、不同的探针、不同的比对软件对最终STR分析结果都存在较大的影响,导致绝大多分子诊断送检样本均会存在分析软件提示的不同程度的异常值。

技术实现思路

[0007]有鉴于此,本专利技术提供了一种全外显子测序数据的处理方法、系统及一种检测短串联重复疾病相关异常扩增的系统,本专利技术提供的全外显子测序数据的处理方法受不同的算法、不同的测序平台、不同的探针、不同的比对软件影响较小,得到的数据结果较为准确。
[0008]本专利技术提供了一种全外显子测序数据的处理方法,包括以下步骤:
[0009]步骤S1、获取第一参考数据,所述第一参考数据包括参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据;
[0010]获取第二参考数据,所述第二参考数据包括阴性参考样本扩增次数数据;
[0011]步骤S2、获取检测样本数据,所述检测样本数据包括检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据、预定的碱基覆盖度下的样本占比数据和检测样本扩增次数数据;
[0012]将所述检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据与所述参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据进行比对,获得第一比对结果数据;
[0013]若所述第一比对结果数据为不符合,则将所述检测样本扩增次数数据与所述阴性参考样本扩增次数数据进行比对,获得第二比对结果数据。
[0014]在一些实施例中,所述步骤S1具体包括:
[0015]获取STR相关疾病基因数据,确定STR相关疾病异常扩增的靶标区域数据;
[0016]获取参考样本的WES测序数据,对比所述参考样本的WES测序数据与所述STR相关疾病异常扩增的靶标区域数据,获得参考样本的STR相关疾病基因靶标区域内碱基覆盖度
数据和预定的碱基覆盖度下的样本占比数据;
[0017]采用Ex本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种全外显子测序数据的处理方法,其特征在于,包括以下步骤:步骤S1、获取第一参考数据,所述第一参考数据包括参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据;获取第二参考数据,所述第二参考数据包括阴性参考样本扩增次数数据;步骤S2、获取检测样本数据,所述检测样本数据包括检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据、预定的碱基覆盖度下的样本占比数据和检测样本扩增次数数据;将所述检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据与所述参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据进行比对,获得第一比对结果数据;若所述第一比对结果数据为不符合,则将所述检测样本扩增次数数据与所述阴性参考样本扩增次数数据进行比对,获得第二比对结果数据。2.根据权利要求1所述的处理方法,其特征在于,所述步骤S1具体包括:获取STR相关疾病基因数据,确定STR相关疾病异常扩增的靶标区域数据;获取参考样本的WES测序数据,对比所述参考样本的WES测序数据与所述STR相关疾病异常扩增的靶标区域数据,获得参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据;采用ExpansionHunter软件对参考样本中阴性样本的WES测序数据进行分析,获得阴性参考样本扩增次数数据。3.根据权利要求2所述的处理方法,其特征在于,所述步骤S2具体为:获取检测样本的WES测序数据,对比所述检测样本的WES测序数据与所述STR相关疾病异常扩增的靶标区域数据,获得检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据;采用ExpansionHunter软件对检测样本的WES测序数据进行分析,获得检测样本扩增次数数据。4.根据权利要求1~3任意一项所述的处理方法,其特征在于,所述步骤S1还包括:对所述阴性参考样本扩增次数数据进行修正,获得修正后的阴性参考样本扩增次数数据。5.根据权利要求4所述的处理方法,其特征在于,对所述阴性参考样本扩增次数数据进行修正具体为:获取阳性样本的实际扩增次数数据和WES测序数据;采用ExpansionHunter软件对阳性样本的WES测序数据进行分析,获得阳性样本的预测扩增次数数据;根据所述阳性样本的实际扩增次数数据和预测扩充次数,对所述阴性参考样本扩增次数数据进行修正。6.根据权利要求1~3任意一项所述的处理方法,其特征在于,还包括:采用exSTRa软件对所述参考样本的WES测序数据进行分析,获得所述参考样本中阳性样本的STR计算得分;采用exSTRa软件对所述检测样本的WES测序数据进行分析,获得所述检测样本的STR计算得分。7.一种全外显子测序数据的处理系统,其特征在于,包括第一参考数据获取单元,所述
第一参考数据单元用于获取第一参考数据,所述第一参考数据包括参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据;第二参考数据获取单元,所以第二参考数据获取单元用于获取第二参考数据,所述第二参考数据包括阴性参...

【专利技术属性】
技术研发人员:王佳鲍远亮鲍成佳
申请(专利权)人:赛福解码北京基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1