检测染色体拷贝数变异的方法技术

技术编号:37374777 阅读:14 留言:0更新日期:2023-04-27 07:18
本发明专利技术提出了一种检测染色体拷贝数变异的方法。该方法包括:将待测样本的测序数据进行PCA降噪和CNV分析处理,以便检测样本是否含有CNV和/或确定CNV来源。其中,所述PCA降噪处理是通过将待测样本的测序数据与参照数据集进行比对进行的,所述参照数据集为预定样本进行PCA学习后获得的代表噪声的主成分特征。该方法可以准确检测CNV并判断CNV发生的来源,有效避免待测样本中母源性CNV带来的假阳性或假阴性结果,防止胎儿先天缺陷的误检或漏检。防止胎儿先天缺陷的误检或漏检。

【技术实现步骤摘要】
检测染色体拷贝数变异的方法


[0001]本专利技术涉及生物信息领域,具体地,本专利技术涉及确定待测样本染色体拷贝数变异的方法、系统、电子设备和计算机可读储存介质。

技术介绍

[0002]拷贝数变异(copy—number variant,CNV)是一种染色体DNA片段缺失或重复的结构变异,在人类基因组中广泛分布。在妊娠期,母亲外周血中含有的游离DNA中有来自胎儿的片段,当胎儿或母亲携带有CNV时,CNV对应的染色体区段的DNA片段在游离DNA中的比例会相对应的增多或减少。常见的由CNV引起的疾病有很多,例如:天使综合征,15号染色体q11

q13缺失所致;猫叫综合征,5号染色体短臂缺失;DiGeorge综合征,22号染色体q11.2缺失。这些疾病的发生给患者本身和其家庭带来极大的痛苦。因胎儿患CNV引发疾病的风险随着母体生育年龄的增长而升高,所以,对高龄孕妇进行CNV检测是十分必要的。当前,随着技术的进步,传统活体穿刺检测对母体和胎儿的负面影响已经被清楚认识,并催生出了无创DNA检测CNV,该技术通过检测孕妇血浆中游离的来自胎儿的DNA来检测胎儿的CNV。在一些情况下,如待测样本携带有母源性染色体数量异常等大片段异常时,会导致一些其他CNV的错误检出,同时,现有技术对于CNV的来源判定只有胎儿新发和母亲携带两种情况,然而当母亲携带有CNV时,有1/2的概率遗传给胎儿,并且由于可能存在嵌合和不完全外显,即使母亲表型正常胎儿也可能受到遗传到的CNV的负面影响,现有的CNV来源判断精确程度不足,对所有的母源性CNV采取相同的处理策略可能导致假阳性或假阴性。
[0003]因此,迫切需要开发出一种更加稳定准确并可以区分所取混合来源DNA样品中CNV来源的染色体拷贝数变异检测方法,以准确无误地检测CNV并判断CNV的发生位置,避免因假阳性或假阴性造成不可逆的损害。
[0004]目前安诺优达公司的一项专利将细胞游离DNA的测序片段回帖至基因组,统计各窗口的测序深度并计算每个窗口的z值和CNV概率,并通过CNV概率估计该样本的CNV浓度,并与样本的真实胎儿浓度进行对比,确定该样本是否有母源CNV。维里纳塔健康公司的一项专利,涉及利用不同长度的细胞游离DNA片段计算多重t值和似然比,检测CNV并判断该CNV是否来自于胎儿。然而,这些技术在遇到待测样本母体携带有CNV时,没有针对胎儿的携带情况的良好判断方法。

技术实现思路

[0005]本申请是专利技术人基于对以下问题和事实的发现而提出的:
[0006]隐马尔可夫模型是一种可以应用于CNV检测的统计模型,XHMM是一种常见的基于隐马尔科夫模型的外显子组CNV分析工具,输出潜在的CNV断点信息,对于通过测序数据预测CNV有良好的性能。专利技术人发现,该方法也可应用于无创产前DNA检测(NIPT)的游离DNA测序数据。
[0007]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0008]本申请的专利技术团队突破传统检测方法的局限性,针对孕妇血液游离DNA样品开发了一套技术检测CNV的方法,该技术在染色体疾病筛查等问题的解决上发挥重要作用。
[0009]在本专利技术的第一方面,本专利技术提出了一种检测染色体拷贝数变异的方法。根据本专利技术的实施例,所述方法包括:
[0010]将待测样本的测序数据进行PCA(主成分分析)降噪和CNV分析处理,以便检测样本是否含有CNV和/或确定CNV来源;
[0011]其中,所述PCA降噪处理是通过将待测样本的测序数据与参照数据集进行比对进行的,所述参照数据集为预定样本进行PCA学习后获得的代表噪声的主成分特征。此前常用的降噪方法使用待测样本进行PCA,而后采用去除PCA的前十维主成分的方法进行样本的降噪。然而,由于PCA是一种无监督的学习方法,无法保证学习到的前十维主成分全部都是实验或分析噪声。当待测样本具有较严重的异常,如母源的染色体数量异常,PCA方法会错误地学习到这些窗口的异常信息,从而去除前十维主成分时引入了一些错误,因此造成一些其他区间的CNV异常检出。专利技术人发现,如果PCA降噪步骤改用固定的参照集样本进行PCA学习代表噪声的主成分特征,并使用这个固定的PCA结果对待测样本进行降噪操作。这样可以在遇到待测样本的大片段异常时减少一些其他的CNV的错误检出。
[0012]根据本专利技术的实施例,上述检测染色体拷贝数变异的方法还可以包括下列附加技术特征中的至少之一:
[0013]根据本专利技术的实施例,所述待测样本、预定样本均为核酸样本。
[0014]根据本专利技术的实施例,所述核酸样本包括选自DNA和RNA中的至少之一。
[0015]根据本专利技术的实施例,所述核酸样本来源于孕妇外周血。
[0016]根据本专利技术的实施例,所述核酸样本为孕妇外周血血浆游离DNA。
[0017]根据本专利技术的实施例,所述预定样本为已知不具有CNV的样本。
[0018]根据本专利技术的实施例,所述待测样本的测序数据与预定样本的参照数据集的获取条件或数据量相同。这样可以保证PCA学习的有效性。
[0019]根据本专利技术的实施例,所述CNV分析处理包括:对经过PCA降噪处理的测序数据进行CNV预测处理;将CNV预测处理结果进行过滤处理;将过滤处理后的CNV预测处理结果进行拷贝数比率理论值和阈值分析;基于拷贝数比率理论值和阈值分析结果,确定所述CNV来源。
[0020]根据本专利技术的实施例,所述CNV预测处理采用隐马尔科夫模型进行。
[0021]根据本专利技术的实施例,所述CNV预测处理结果包括CNV的坐标、后验概率、z值信息。
[0022]根据本专利技术的实施例,所述过滤处理包括:基于CNV的坐标、后验概率、z值信息,去除短片段和低可靠度的CNV预测处理结果。
[0023]根据本专利技术的实施例,所述染色体拷贝数变异包括DNA片段缺失和DNA片段重复。
[0024]根据本专利技术的实施例,所述待测样本为上述检测染色体拷贝数变异的方法确定CNV来源为具有母源CNV的样本时,所述拷贝数比率(copy ratio)理论值是通过如下公式计算获得的:
[0025][0026][0027]其中,f为具有母源CNV的样本的胎儿游离DNA的浓度,a、b、c、d、e、j由具有母源CNV的核酸样本测序数据的拷贝数比率和胎儿游离DNA的浓度拟合获得;其中,b,e为拟合曲线的斜率、a,d为拟合曲线的截距、c,j为常数。
[0028]其中,所述拷贝数比率=预定样本的测序数据的CNV区段的相对深度/预定样本的测序数据的相同区段的相对深度的均值。
[0029]需要说明的是,本申请所述母源是包含母体和母胎两类的分类,所述母源CNV是指母亲(母体)含有CNV,胎儿CNV含有情况未知;
[0030]本申请所述的母体CNV,是指只有母亲(母体)含有CNV;本申请所述的母胎CNV,是指母亲(母体)和胎儿均含CNV。
[0031]根据本专利技术的实施例,所述相对深度是通过如下公本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测染色体拷贝数变异的方法,其特征在于,包括:将待测样本的测序数据进行PCA降噪和CNV分析处理,以便检测样本是否含有CNV和/或确定CNV来源;其中,所述PCA降噪处理是通过将待测样本的测序数据与参照数据集进行比对进行的,所述参照数据集为预定样本进行PCA学习后获得的代表噪声的主成分特征。2.根据权利要求1所述的方法,其特征在于,所述待测样本、预定样本均为核酸样本;任选地,所述核酸样本包括选自DNA和RNA中的至少之一;任选地,所述核酸样本来源于孕妇外周血;优选地,所述核酸样本为孕妇外周血血浆游离DNA;任选地,所述预定样本为已知不具有CNV的样本。3.根据权利要求1所述的方法,其特征在于,所述待测样本的测序数据与预定样本的参照数据集的获取条件或数据量相同。4.根据权利要求1所述的方法,其特征在于,所述CNV分析处理包括:对经过PCA降噪处理的测序数据进行CNV预测处理;将CNV预测处理结果进行过滤处理;将过滤处理后的CNV预测处理结果进行拷贝数比率理论值和阈值分析;基于拷贝数比率理论值和阈值分析结果,确定所述CNV来源。5.根据权利要求4所述的方法,其特征在于,所述CNV预测处理采用隐马尔科夫模型进行;任选地,所述CNV预测处理结果包括CNV的坐标、后验概率、z值信息;任选地,所述过滤处理包括:基于CNV的坐标、后验概率、z值信息,去除短片段和低可靠度的CNV预测处理结果。6.根据权利要求4所述的方法,其特征在于,所述染色体拷贝数变异包括DNA片段缺失和DNA片段重复。7.根据权利要求4~6任一项所述的方法,其特征在于,当所述待测样本为用权利要求4~6任意一项所述的方法确定CNV来源为具有母源CNV的样本时,所述拷贝数比率理论值是通过如下公式计算获得的:通过如下公式计算获得的:其中,f为具有母源CNV的样本的胎儿游离DNA的浓度,a、b、c、d、e、j由具有母源CNV的核酸样本测序数据的拷贝数比率和胎儿游离DNA的浓度拟合获得;其中,b,e为拟合曲线的斜率、a,d为拟合曲线的截距、c,j为常数;其中,所述拷贝数比率=预定样本的测序数据的CNV区段的相对深度/预定样本的测序数据的相同区段的相对深度的均值;所述相对深度是通过如下公式计算获得的:
相对深度=CNV区段内窗口的reads数均值/预定样本所有窗口reads数均值。8.根据权利要求7所述的方法,其特征在于,所述拷贝数比率阈值是通过如下公式计算获得的:缺失型CNV的拷贝数比率阈值=(母胎缺失型CNV的拷贝数比率理论值+母体缺失型CNV的拷贝数比率理论值)/2;重复型CNV的拷贝数比率阈值=(母胎重复型CNV的拷贝数比率理论值+母体重复型CNV的拷贝数比率理论值)/2。9.根据权利要求4~8任一项所述的方法,其特征在于,所述基于拷贝数比率理论值和阈值分析结果,确定所述CNV来源包括:(1)在缺失型CNV中,所述拷贝数比率理论值高于阈值时,是CNV来自母体的指示;(2)在缺失型CNV中,所述拷贝数比率理论值低于阈值时,是CNV来自母体和胎儿的指示;(3)在重复型CNV中,所述拷贝数比率理论值高于阈值时,是CNV来自母体和胎儿的指示;(4)在重复型...

【专利技术属性】
技术研发人员:彭继光李婧柔向嘉乐沈建坤孙隽彭智宇
申请(专利权)人:华大生物科技武汉有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1