基于低深度测序数据检测基因组纯合区域的方法及系统技术方案

技术编号:39133722 阅读:11 留言:0更新日期:2023-10-23 14:51
本发明专利技术公开一种基于低深度测序数据检测基因组纯合区域的方法及系统,涉及分子遗传学检测技术领域,对于对人类参考基因组进行区域划分得到的每一染色体区域,计算每一目标SNP位点属于正常区域的第一边缘似然值和属于基因组纯合区域的第二边缘似然值,基于染色体区域内的所有目标SNP位点的第一边缘似然值和第二边缘似然值分别计算第一联合分布似然值和第二联合分布似然值,以判断染色体区域是否为基因组纯合区域,从而可基于0.1

【技术实现步骤摘要】
基于低深度测序数据检测基因组纯合区域的方法及系统


[0001]本专利技术涉及分子遗传学检测
,特别是涉及一种基于低测序深度全基因组测序数据检测基因组纯合区域的方法及系统。

技术介绍

[0002]基因组纯合区域(Region ofhomozygousity,ROH)指的是基因组区域中出现等位基因杂合性缺失的现象,对于大多数二倍体细胞,例如人类体细胞等,有两份基因组,一份来自父方,一份来自母方,在基因组某个SNP位点,当来自双亲的碱基不同时,则称该SNP位点是杂合,如果因为某种机制(如缺失、减数分裂错误、近亲等)导致在该区域中的所有SNP位点只有来自父方或母方的一类基因组,则该区域为基因组纯合区域ROH,其中最典型的为单亲二倍体(uniparental disomy,UPD),是指同源染色体或染色体上的部分片段均来源于双亲中的一方,而没有另一方染色体的存在。
[0003]检测基因组纯合区域在近年来得到了越来越多的国内外专业团队的重视。在2020年,ACMG(American College ofMedical Genetics and Genomics,美国医学遗传学和基因组学学院)发布了有关ROH或UPD的声明,并对其检测的重要性表示了支持,同年国内也发表了不少有关ROH检测的文献报道。目前对ROH进行检测的检测技术主要分为两类,一类是针对目标特异性的纯合检测,主要技术包括短串联重复序列分型和甲基化特异性PCR等,然而该类技术只适用于对根据临床表现所怀疑的某个具体的基因组纯合区域进行检测;另一类是在全基因组范围内的全面检测基因组纯合区域的检测技术,主要技术包括染色体微阵列分析技术和测序技术,测序技术往往是指常规深度的测序,并不是低深度全基因组测序,当难以预测或者想要查找隐性基因具体突变位点时,一般采用此类技术。以下详细介绍现有技术:
[0004](1)短串联重复序列分型(STR):是均匀分布于真核生物基因组中的简单重复序列,由于重复单位的重复次数在个体间呈高度变异性,并且标记物在整个基因组中丰富,杂合度高,因此能反映群体中等位基因频率的差异。但STR发生突变的概率较高,对判定会造成干扰,并且由于采集位点的限制,对样本质量要求高,能获取的信息量较低,且不适宜用于全基因组范围内的UPD筛查,只能检测预设的目标纯合区域。
[0005](2)甲基化特异性PCR(MSP):是一种特异位点甲基化检测技术。甲基化会直接干扰转录因子和启动子识别位点的结合,由于碱基C不能被转化为碱基T,因此上述引物将不会扩出目的基因,通过此方法就能达到识别基因组DNA是否甲基化的目的,对印记基因疾病有一定意义,这种方法灵敏度高,无需特殊仪器,因此成本较低。但需要预先知道待测片段的DNA序列,引物的设计非常重要,其中最大的缺点是只能检测预设的目标UPD,此外,对亚硫酸氢盐的处理十分关键,若处理不完全则可能导致假阳性的出现。
[0006](3)染色体微阵列分析技术(CMA):因探针设计不同,分为基于微阵列的比较基因组杂交技术(aCGH)和单核苷酸多态性微阵列技术(SNP array)。SNP array在非多态性探针的基础上增加了SNP探针,克服了aCGH的局限性,除了染色体拷贝数异常外,还能够检测出
大多数的ROH和三倍体。CMA技术对SNP位点进行扫描,可识别出每个SNP位点的基因型,该技术利用SNP位点提供的基因型信息可以发现多倍体异常以及基因组中的ROH。但CMA技术的主要缺陷在于检测范围易受探针偏好性的影响,同时芯片对于样本DNA起始量和质量的要求远高于测序,芯片的检测成本也比低深度全基因组测序高数倍。
[0007](4)全外显子组测序(WES):这类方法是通过定制探针对外显子区域DNA进行富集,对其进行高通量测序,进行数据分析和比对,确定每个SNP位点的基因型状态来估算是否存在UPD。但其主要缺陷为外显子仅占人类基因组的1

2%,对于外显子以外的区域则不能有效地进行基因检测,且需要较高测序深度,检测成本较高,价格昂贵。
[0008](5)低深度全基因组测序(CNV

seq):是基于第二代测序技术的全基因组测序方法来检测基因组拷贝数变异的染色体分析技术。CNV

seq在极低测序深度(0.1~1
×
)的基础下即可准确进行全基因组水平的染色体拷贝数异常检测,可检测长度低至100kb、嵌合比例低至10%的染色体拷贝数异常(CNV)。在2019年之前,专业指南还认为基于低深度测序的诊断方法只能检测CNV,还无法检测ROH。随后,三项研究表明,通过观测SNP位点的B等位基因频率,是有可能从低深度全基因组测序数据中检测出ROH的,但是没有描述检测的性能指标和参数。直到2021年7月,一项研究通过推断B等位基因频率,实现从4
×
低深度测序的样本中检测5Mb以上的ROH,证实了低深度测序技术用于侵入式检测单亲同二体型UPD的可行性。然而,这类通过B等位基因频率检测ROH的方法,仍然存在以下多方面的局限性:该方法要求样本的测序深度在4
×
左右,再从样本中选取覆盖度在5以上的SNP位点用来推测B等位基因频率,而目前国内应用中测序深度往往不足1
×
,因此绝大多数SNP位点无法用于推测B等位基因频率,导致该方法失效。若是提高测序深度到4
×
左右,则会增加额外的检测成本,进一步限制推广。
[0009]下表1为上述五种基因组纯合区域检测技术的优势和缺点。
[0010]表1
[0011][0012][0013]基于CNV

seq技术检测基因组纯合区域存在很大挑战,因为每个SNP位点的基因型都是未知的,如何使用低测序深度的全基因组测序数据满足检测ROH的需要,对控制检测成本来说是一项极具意义的工作。因此有必要建立一个从低于1
×
深度的CNV

seq数据中检测ROH的新方法,来解决现有CNV

seq技术的困境。

技术实现思路

[0014]本专利技术的目的是提供一种基于低深度测序数据检测基因组纯合区域的方法及系统,可基于0.1
×‑1×
测序深度的低深度全基因组测序数据准确检测全基因组内的基因组纯合区域,减少对测序深度的依赖性,减少检测成本。
[0015]为实现上述目的,本专利技术提供了如下方案:
[0016]一种基于低深度测序数据检测基因组纯合区域的方法,所述方法包括:
[0017]利用测序深度为0.1
×‑1×
的低深度全基因组测序技术对待测样本进行测序,得到低深度全基因组测序数据;所述待测样本为个体DNA;所述低深度全基因组测序数据包括多个碱基序列;
[0018]分别将每一所述碱基序列与人类参考基因组进行比对,得到每一所述碱基序列在所述人类参考基因组中的位置和比对质量,并选取所述比对质量高于或者等于预设质量的碱基序列作为检测用碱基序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于低深度测序数据检测基因组纯合区域的方法,其特征在于,所述方法包括:利用测序深度为0.1
×‑1×
的低深度全基因组测序技术对待测样本进行测序,得到低深度全基因组测序数据;所述待测样本为个体DNA;所述低深度全基因组测序数据包括多个碱基序列;分别将每一所述碱基序列与人类参考基因组进行比对,得到每一所述碱基序列在所述人类参考基因组中的位置和比对质量,并选取所述比对质量高于或者等于预设质量的碱基序列作为检测用碱基序列;以预设窗宽和预设步长对所述人类参考基因组进行区域划分,得到多个染色体区域;对于每一所述染色体区域,根据所有所述检测用碱基序列的位置,选取所述染色体区域中至少被一个所述检测用碱基序列覆盖的SNP位点作为目标SNP位点,并确定每一所述目标SNP位点上A等位基因被所述检测用碱基序列覆盖的第一次数和B等位基因被所述检测用碱基序列覆盖的第二次数;根据所述第一次数和所述第二次数计算每一所述目标SNP位点属于正常区域的第一边缘似然值和属于基因组纯合区域的第二边缘似然值;基于所述染色体区域内的所有所述目标SNP位点的第一边缘似然值计算第一联合分布似然值,基于所述染色体区域内的所有所述目标SNP位点的第二边缘似然值计算第二联合分布似然值;根据所述第一联合分布似然值和所述第二联合分布似然值确定所述染色体区域是否为基因组纯合区域。2.根据权利要求1所述的方法,其特征在于,所述预设质量为所述碱基序列和所述人类参考基因组仅有一个碱基错配。3.根据权利要求1所述的方法,其特征在于,每一所述染色体区域的宽度均为所述预设窗宽,所述预设窗宽大于所述预设步长,相邻所述染色体区域存在重叠。4.根据权利要求1所述的方法,其特征在于,所述根据所述第一次数和所述第二次数计算每一所述目标SNP位点属于正常区域的第一边缘似然值和属于基因组纯合区域的第二边缘似然值具体包括:对于每一所述目标SNP位点,以所述第一次数、所述第二次数以及正常区域对应的每一第一基因型的基因型分布概率和等位基因A的频率为输入,利用边缘似然值计算公式计算所述目标SNP位点属于正常区域的第一边缘似然值;以所述第一次数、所述第二次数以及基因组纯合区域对应的每一第二基因型的基因型分布概率和等位基因A的频率为输入,利用边缘似然值计算公式计算所述目标SNP位点属于基因组纯合区域的第二边缘似然值。5.根据权利要求4所述的方法,其特征在于,所述正常区域对应的第一基因型包括AA、AB和BB;第一基因型AA的基因型分布概率为p2+p(1

p)F,等位基因A的频率为1

e;第一基因型AB的基因型分布概率为2p(1

p)(1

F),等位基因A的频率为1/2;第一基因型BB的基因型分布概率为(1

p)2+p(1

p)F,等位基因A的频率为e;其中,p为A等位基因在个体所属种族人群中的群体频率;F为个体的近交系数;e为测序错误率;所述基因组纯合区域对应的第二基因型包括AA和BB;第二基因型AA的基因型分布概率为p,等位基因A的频率为1

e;第二基因型BB的基因型分布概率为1

p,等位基因A的频率为e。6.根据权利要求4所述的方法,其特征在于,所述边缘似然值计算公式为:M(F,e)=∑
g
P(g)B(F
A
(g),C
i
);
其中,...

【专利技术属性】
技术研发人员:徐寒黎谢玉婷成喜雨吕兴金怡宸马腾跃李欣怡
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1