一种基于X染色体的男胎cffDNA含量计算方法技术

技术编号:28983434 阅读:32 留言:0更新日期:2021-06-23 09:32
本发明专利技术公开了一种基于X染色体的男胎cffDNA含量计算方法,其步骤包括:步骤S1:获得原始测序基因序列;步骤S2:对测序基因序列计数;步骤S3:对测序基因序列数目进行标准化;步骤S4:胎儿性别鉴定;步骤S5:女胎X染色体窗口内拷贝基线计算;步骤S6:男胎X染色体预测因子计算及异常点检测;步骤S7:获得男胎cffDNA含量。本发明专利技术具有原理简单、操作简便、准确率高、检测效率高等优点。

【技术实现步骤摘要】
一种基于X染色体的男胎cffDNA含量计算方法
本专利技术主要涉及到基因测序及生物信息分析
,特指一种基于X染色体的男胎cffDNA含量计算方法。
技术介绍
孕妇血浆中游离胚胎DNA分子的发现将产前检测带入了无创时代,循环的游离胚胎DNA(简称cffDNA)逐步被认为是以无创方式检测胎儿异常的重要载体。基于高通量测序的无创产前检测(NIPT)的各种方法被开发出来,现如今已迅速转化为医疗实践。在这些方案中,cffDNA是控制检测结果性能和对检测结果进行恰当临床解读时的至关重要的参数。现有的基于生物信息方法估计和预测cffDNA含量的方法主要有以下几种:(1)基于Y染色体的计算方法:这是最早的估测胚胎DNA含量的方法,在早期,位于Y染色体上的父系遗传的基因标记如SRY基因、DYS14基因和ZFY基因,通过PCR芯片来验证cffDNA的存在,进而可以利用Y染色体与某个常染色体的序列含量的比值来估计cffDNA含量;在基于大规模并行测序的无创产前检测时代,来自整个Y染色体的基因测序序列的比例可以换算为胚胎DNA含量,该方法直观准确,适用于检测男胎cffDNA含量。(2)基于孕妇血浆测序数据和父亲基因分型相结合的方法:简单来讲,在生物学父亲和生物学母亲都是纯和且基因分型不同的单核苷酸多态性(SNP)位点上,胎儿在该位点的基因分型将表现为杂合,继而可以通过遗传自父亲的等位基因对cffDNA含量进行定量。虽然该方法能直接准确评估cffDNA含量,但在实际医学实践中,生物学父亲的基因分型结果通常是无法简单直接获取的,因此该方法在实际应用时受到限制。(3)为克服上述方法(2)在实际应用中的缺陷,有从业者提出了基于靶向高深度测序的cffDNA含量计算方法,该方法是通过对孕妇外周血DNA进行超高深度靶向测序,采用混合二项分布模型对孕妇和胎儿的四种隐含的基因型组合{AAaa,AAab,ABaa,ABab}对应的等位基因数量进行建模,在模型中采用极大似然估计对cffDNA含量进行计算。该方法产生的结果与上述方法(2)十分接近,该方法的缺点在于:需要对样本进行超高深度测序,测序深度通常需要达到120x以上才能检测出胎儿的等位基因,且靶向测序只能覆盖基因组的一部分,无法实现对胎儿全基因组水平的染色体异常检测,因此在实际应用中也受到限制。(4)孕妇外周血低深度测序与孕妇基因分型相结合的方法,该方法基于的原理是孕妇自身纯和位点观测到的其他等位基因理论上都是胎儿特有的,这样首先采用基因芯片对孕妇白细胞进行基因分型,然后从孕妇外周血测序数据中鉴定出与母亲纯和位点不同即理论上来自父亲的等位基因;如果假定测序和其他技术原因引入的错误偏差在不同样本中保持恒定的话,则cffDNA含量将与这些胎儿杂合位点的比例线性相关,因此可通过对已知cffDNA的样本进行上述分析来构建线性回归模型,用来估计和预测其他未知样本的cffDNA。通常当测序数据达到1M条序列以上时,通过该方法计算得到的cffDNA与上述方法(2)的相关系数可达到0.995以上。然而,模型中的参数可能因测序平台和分型芯片的不同导致噪声的分布特性不同,训练所得的模型不具有普适性;另一方面,杂合位点的比例在不同种族的群体中是不同的,这些固有因素都会影响cffDNA预测的准确性。(5)仅基于孕妇外周血低深度测序数据的seqFF方法,该方法试图直接从常规的无创产检数据中估计出cffDNA,其基本方法为:首先对孕妇外周血进行单端随机测序,分析常染色体(除13,18,21号染色体之外)上每个50KB窗口中归一化后的read数目以拟合出一个高维的弹性网络和降秩回归模型。该方法与基于Y的计算方法的皮尔逊相关系数可达到0.93,但该高维模型的训练需要大规模的训练集样本,且当cffDNA含量低于5%时,该方法的准确性也无法保证。(6)基于胎儿甲基化标记物的方法,该方法是通过胎盘特有的甲基化标志物来估计cffDNA含量。举例来讲,RASSF1A启动子区域的序列在孕妇和胎儿中的甲基化状态不同,通过对该区域用甲基化敏感的酶进行酶切,来自胎儿的高甲基化的序列不受影响,来自孕妇的低甲基化序列则被酶切破坏,以此实现从母体背景序列中分离出胎儿的序列,用以分析cffDNA含量。然而,基于亚硫酸氢盐的甲基化测序方法成本昂贵,且亚硫酸氢盐可能降解DNA片段,在常规的无创产检中难以大规模应用。(7)基于游离DNA片段分布的方法,该方法基于的原理是孕妇游离DNA中的DNA片段与胎儿的DNA片段的片段大小呈现出不同的分布特征,来自胎儿的DNA片段通常更短,进而通过双端测序,可以基于不同长度片段之间的比例来估计cffDNA含量。通常以[100,150]与[163,169]区间的片段数目的比值作为预测因子,通过拟合线性模型估计cffDNA含量,该方法与Y计算的cffDNA含量的相关性系数为0.83,准确性难以满足无创产检的要求。(8)基于游离DNA核小体定位方法,已有研究表明,孕妇外周血中游离DNA的片段长度的主峰是166bp,还有一些小的类似刺突的小峰是以10bp为间隔周期的,而胎儿游离DNA分子长度的主峰是143bp;科学家推测166bp包含了核小体主体和一个连接子,相反143bp主峰的DNA分子则缺少了该连接子作为其组成部分,基于这个假设模型,科学家基于核小体定位方法开发出一种预测cffDNA的方法,但该方法准确性不高,难以满足临床要求。综上所述,基于孕妇外周血游离DNA低深度大规模并行测序的方法仍然是无创产前检测的主流方法,基于Y染色体的计算方法被认为是男胎cffDNA计算的金标准方法,然而该方法需要男性的游离DNA作为对照,才能准确估算特定测序平台和生物信息处理流程计算得到的Y染色体的含量,进而准确推断cffDNA含量;但在常规无创产检中检测男性对照样本将增加测序的成本和流程管理的复杂性,另外,如果胎儿存在Y染色体的非整倍体异常(如缺少Y染色体,或存在多条Y染色体),则无法准确估测cffDNA含量。
技术实现思路
本专利技术要解决的技术问题就在于:针对现有技术存在的技术问题,本专利技术提供一种原理简单、操作简便、准确率高、检测效率高的基于X染色体的男胎cffDNA含量计算方法。为解决上述技术问题,本专利技术采用以下技术方案:一种基于X染色体的男胎cffDNA含量计算方法,其步骤包括:步骤S1:获得原始测序基因序列;步骤S2:对测序基因序列计数;步骤S3:对测序基因序列数目进行标准化;步骤S4:胎儿性别鉴定;步骤S5:女胎X染色体窗口内拷贝基线计算;步骤S6:男胎X染色体预测因子计算及异常点检测;步骤S7:通过下式获得男胎cffDNA含量:其中,Smale为男胎样本集合,i表示样本集中序号为i的样本,为样本i在X染色体上去除异常点后的的预测因子集合,为预测因子集合大小,pfi,X,w为样本i在X染色体上去除异常点后标号为w的预测因子。作为本专利技术方法的进一步改进:所述步骤S1中,对无创产前检测孕本文档来自技高网
...

【技术保护点】
1.一种基于X染色体的男胎cffDNA含量计算方法,其特征在于,步骤包括:/n步骤S1:获得原始测序基因序列;/n步骤S2:对测序基因序列计数;/n步骤S3:对测序基因序列数目进行标准化;/n步骤S4:胎儿性别鉴定;/n步骤S5:女胎X染色体窗口内拷贝基线计算;/n步骤S6:男胎X染色体预测因子计算及异常点检测;/n步骤S7:通过下式获得男胎cffDNA含量:/n

【技术特征摘要】
1.一种基于X染色体的男胎cffDNA含量计算方法,其特征在于,步骤包括:
步骤S1:获得原始测序基因序列;
步骤S2:对测序基因序列计数;
步骤S3:对测序基因序列数目进行标准化;
步骤S4:胎儿性别鉴定;
步骤S5:女胎X染色体窗口内拷贝基线计算;
步骤S6:男胎X染色体预测因子计算及异常点检测;
步骤S7:通过下式获得男胎cffDNA含量:



其中,Smale为男胎样本集合,i表示样本集中序号为i的样本,为样本i在X染色体上去除异常点后的的预测因子集合,为预测因子集合大小,pfi,X,w为样本i在X染色体上去除异常点后标号为w的预测因子。


2.根据权利要求1所述的基于X染色体的男胎cffDNA含量计算方法,其特征在于,所述步骤S1中,对无创产前检测孕妇外周血样本进行低深度测序,获得原始测序基因序列。


3.根据权利要求2所述的基于X染色体的男胎cffDNA含量计算方法,其特征在于,所述步骤S1中,对原始测序基因序列进行预处理;所述预处理包括将原始测序基因序列比对到人类参考基因组,并对比对结果去重复。


4.根据权利要求1或2或3所述的基于X染色体的男胎cffDNA含量计算方法,其特征在于,所述步骤S2中包括:
统计每个样本1-22号常染色体和性染色体上的唯一比对基因片段数目UMi,j,其中1≤i≤n,j∈{1,2,…,22,X,Y};
统计X染色体上大小为K的窗口内唯一比对的基因片段数目UMi,X,k,其中1≤i≤n,||X||为X染色体长度;
性染色体统计不计入假常染色体区域内的唯一比对基因序列片段。


5.根据权利要求1或2或3所述的基于X染色体的男胎cffDNA含量计算方法,其特征在于,所述步骤S3包括以下步骤:
步骤S301:计算1-22常染色体的唯一比对基因片段的总数1≤i≤n;
步...

【专利技术属性】
技术研发人员:袁梦兮马丑贤李根黄文静蒋艳凰王振国杨仁武
申请(专利权)人:人和未来生物科技长沙有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1