基于二代测序数据的孟德尔遗传错误分析方法技术

技术编号:34130157 阅读:45 留言:0更新日期:2022-07-14 15:13
本发明专利技术公开了一种基于二代测序数据的孟德尔遗传错误分析方法,其包括:将三人核心家系的双端150bp读长的二代测序原始序列比对到参考基因组,查找出三个样本全基因组范围内的点突变;过滤低质量和致病性为良性或人群多态性CNV区域位点,并根据孟德尔遗传规律对不符合孟德尔遗传的特定基因型位点进行分类标记;在全基因组范围内做分布图,将连续符合某种特征的孟德尔遗传错误的位点连成片段,输出片段分布,同时标注上已知的UPD疾病区域并进行判定。本发明专利技术无需再借助额外的甲基化检测项目就可确定亲本来源,同时结合实际情况用于提示质量控制情况,可对二代测序过程中隐含的信息做进一步的核实和确定,最终提高二代测序样本检测的阳性率。测的阳性率。测的阳性率。

Mendelian genetic error analysis method based on second-generation sequencing data

【技术实现步骤摘要】
基于二代测序数据的孟德尔遗传错误分析方法


[0001]本专利技术属于基于三人核心家系的NGS测序的生物信息数据分析领域,涉及三人核心家系全外显子组测序(Trio

WES)和三人核心家系全基因组测序(Trio

WGS)的数据分析,尤其涉及一种基于二代测序数据的孟德尔遗传错误分析方法。

技术介绍

[0002]基于三人核心家系的二代测序方法已普遍用于遗传病的筛查和辅助诊断。单亲源二体(Uniparental Disomy,UPD)是一种与表观遗传相关的疾病,指来自父母一方的染色体片段被另一方的同源部分取代,或一个个体的两条同源染色体都来自同一亲本,前者称为节段性单亲源二体。单亲源二体可分为单亲同二体(isodisomy UPD(iUPD),来自同一亲体的同一染色体)和单亲源异二体(heterodisomy UPD(hUPD),分别来自同一亲体的两条同源染色体)。
[0003]UPD是一种临床上重要的疾病,在生长衰竭和内分泌异常的病因中占一定比例。最近的研究表明,在3500例活产婴儿中,约存在1例UPD。
[0004]全外显子组测序(WES)和全基因组测序(WGS)已经广泛地应用于遗传疾病的筛查和诊断方面,三人核心家系的检测方法结合遗传模式分析可提升新发突变和符合杂合突变的检出率,但对于分析出来的点突变数据用于额外的变异类型(如UPD及其遗传亲本来源)的分析缺乏根据,像15号染色体UPD不同亲本来源可能跟不同的疾病相关,母源缺失导致Angleman

Syndrome,父源缺失导致Prader

Willi syndrome。对于应用Trio

WES或Trio

WGS的不符合孟德尔遗传的位点数目和分布在亲缘关系不符、是否近亲结婚、是否有样本混淆和样本污染等质量控制方面也缺乏方法依据。
[0005]目前用于分析ROH的方法主要是基于单核苷酸多态性阵列(SNP

array,CMA)分析拷贝数缺失或拷贝数中性ROH,但目前的方法不能准确区分亲本来源。如果要区分亲本来源,通常还得做甲基化分析,如SNP

array检测15号染色体的情况,通常还需对15q11.2区域做先证者和父母的MS

MLPA以确定亲本来源。基于NGS分析ROH的分析工具AutoMap,也仅用于单样本分析iUPD,不能分析hUPD,且无法做更多的分析和质控。目前亲缘关系是否相符、是否有样本污染或样本混淆一般通过核心家系(Trio)的STR检测来比对。

技术实现思路

[0006]为了克服现有技术的不足,考虑到基于Trio

WES或Trio

WGS的分析方法可根据先证者是否有连续的不符合孟德尔遗传的位点来分析UPD;结合特殊类型的不符合孟德尔遗传的基因型可用于准确推断UPD的亲本来源,区分iUPD和hUPD;对于整个基因组范围内出现有很多大段的ROH且占全基因组范围一定比例的可用于推断先证者的是否存在血亲同源(IBD)的情况;对于全基因组范围均匀分布的不符合孟德尔遗传的位点及其比例可用于提示是否存在亲缘关系不符、样本混淆和样本污染、产前羊水或流产物样本母源污染,及异体骨髓移植或器官移植等情况。本专利技术提出了一种基于二代测序数据的孟德尔遗传错误分析
方法。
[0007]本专利技术基于二代测序数据的孟德尔遗传错误分析方法,包括如下步骤:
[0008]1)将三人核心家系的双端150bp读长的二代测序原始序列比对到参考基因组,查找出三个样本全基因组范围内的点突变,包括单核苷酸多态性(SNP)和插入缺失(InDel);
[0009]2)对超过2种基因型的突变拆分成多个双等位基因突变;
[0010]3)对低质量和位于明确致病性良性或人群多态性CNV区域的SNP和InDel位点进行过滤;
[0011]4)标记基因型;
[0012]根据不同情况,将突变位点分别标记为denovo、iUPDpat、iUPDmat、UPDpat、UPDmat、duo

del;将所有denovo、iUPDpat、iUPDmat、UPDpat、UPDmat、duo

del位点都标记为MIE(Mendelian Inheritance Error);
[0013]5)将denovo、iUPDpat、iUPDmat、MIE、UPDpat、UPDmat、duo

del赋予1、2、3、4、5、6、7数值以便于数据可视化,在全基因组范围内做分布图,用CBS方法将连续符合某种特征的点连成片段,输出片段分布,标注上已知的UPD疾病区域;
[0014]6)不同情况的判定:
[0015]6.1如果基因组范围内存在某段与已知UPD疾病区域有重叠的UPD片段,结合表型分析提示UPD相关疾病可能;有可能单独存在iUPD或单独hUPD,也有可能iUPD和hUPD同时存在,可结合标记类型判定亲本来源;
[0016]6.2如果在基因组范围内存在多段iUPD,且占到基因组范围内一定比例,则提示存在近亲婚配的可能;
[0017]6.3如果基因组范围内较均匀分布着MIE的点,但又不那么密集的情况,则可能存在样本污染或者产前样本的母源污染,对于非产前样本提示肿瘤发生可能;
[0018]6.4如果全基因组范围内较均匀分布着MIE的点且密集程度高,MIE位点多的情况,则提示可能存在样本混淆或者亲缘关系不符合的情况,或可能存在异体器官/骨髓移植。
[0019]根据本专利技术的优选方案,所述步骤1)中的二代测序的方法为Trio

WES或Trio

WGS。
[0020]根据本专利技术的优选方案,所述步骤1)中,查找出三个样本全基因组范围内的点突变,具体为:基于GATK best practice(http://gatk.broadinstitute.org/hc/en

us/sections/360007226651

Best

Practices

Workfl ows)分析出每个样本点突变gVCF格式文件,然后用joint

calling分析方法合并成一个vcf文件;
[0021]根据样本家系关系ped文件(https://www.mv.helsinki.fi/home/tsjuntun/autogscan/pedigreefile.html),将生成的vcf文件按三人核心家系分成多个家系vcf文件,过滤掉每个家系vcf文件中的三个样本都未检出或都为纯合野生型的位点。
[0022]根据本专利技术的优选方案,所述步骤3)对位点进行过滤,具体为:
[0023]过滤掉除1

22和X、Y染色体以外的contig本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于二代测序数据的孟德尔遗传错误分析方法,其特征在于包括如下步骤:1)将三人核心家系的双端150bp读长的二代测序原始序列比对到参考基因组,查找出三个样本全基因组范围内的点突变,包括单核苷酸多态性(SNP)和插入缺失(InDel);2)对超过2种基因型的突变拆分成多个双等位基因突变;3)对低质量和良性多态性CNV区域的SNP和InDel位点进行过滤;4)标记基因型;根据不同情况,将突变位点分别标记为denovo、iUPDpat、iUPDmat、UPDpat、UPDmat、duo

del;将所有denovo、iUPDpat、iUPDmat、UPDpat、UPDmat、duo

del位点都标记为MIE(Mendelian Inheritance Error);5)将denovo、iUPDpat、iUPDmat、MIE、UPDpat、UPDmat、duo

del赋予1、2、3、4、5、6、7数值以便于数据可视化,在全基因组范围内做分布图,用CBS方法将连续符合某种特征的点连成片段,输出片段分布,标注上已知的UPD疾病区域;6)不同情况的判定:6.1如果基因组范围内存在某段与已知UPD疾病区域有重叠的UPD片段,结合表型分析提示UPD相关疾病可能;即有可能单独存在iUPD或单独hUPD,也有可能iUPD和hUPD同时存在,可结合标记类型判定亲本来源;6.2如果在基因组范围内存在多段iUPD,且占到基因组范围内一定比例,则提示存在近亲婚配的可能;6.3如果基因组范围内较均匀分布着MIE的点,同批次Trio样本中MIE位点的总数超过95%分位数,且MIE总数相比平均值多5倍,则可能存在样本污染或者产前样本的母源污染,对于非产前样本提示肿瘤发生可能;6.4如果全基因组范围内较均匀分布着MIE的点,MIE位点总数显著高于其他所有类型样本,且比6.3所述样本污染或者产前样本的母源污染样本MIE总数还要高多3倍以上,则提示可能存在样本混淆或者亲缘关系不符合的情况,或可能存在异体器官/骨髓移植。2.根据权利要求1所述的基于二代测序数据的孟德尔遗传错误分析方法,其特征在于,所述步骤1)中的二代测序的方法为Trio

【专利技术属性】
技术研发人员:许雄胡大辉郝美荣侯敏张冉唐羽叶孙文佳王彩琴周爽边佳昕陈蕙卉肖锐
申请(专利权)人:杭州博圣医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1