胎儿浓度的确定方法及装置制造方法及图纸

技术编号:39589149 阅读:9 留言:0更新日期:2023-12-03 19:41
本申请公开了一种胎儿浓度的确定方法及装置,其中,所述胎儿浓度的确定方法包括:获取待测cfDNA样本的测序序列;将测序序列与参考基因组进行比对,得到比对结果;基于比对结果,确定胎儿浓度。本申请能够基于测序序列与参考基因组的比对结果确定胎儿浓度,可以满足包括单分子测序平台在内的各测序平台的应用,提升了胎儿浓度确定的准确性。了胎儿浓度确定的准确性。了胎儿浓度确定的准确性。

【技术实现步骤摘要】
胎儿浓度的确定方法及装置


[0001]本申请涉及生物信息
,更具体的说是涉及一种胎儿浓度的确定方法及装置。

技术介绍

[0002]在无创产前基因检测(Non

Invasive Prenatal Test,NIPT)中,胎儿浓度指的是孕妇的外周血游离脱氧核糖核酸(Cell

free DNA,cfDNA)中,来源于胎儿的脱氧核糖核酸(DeoxyriboNucleic Acid,DNA)的比例。胎儿浓度是NIPT中的重要参数。
[0003]针对第二代测序技术,目前已有评估胎儿浓度的方法,例如,利用cfDNA长度的分布特征、利用甲基化特征、利用SNP(单核苷酸多态性)特征、利用男胎的XY染色体含量等确定胎儿浓度。第三代测序技术是单分子测序技术,其测序原理与第二代测序技术有所不同,测序产生的数据特征和第二代测序技术有较大差异,因此,上述用于第二代测序的胎儿浓度评估方法不适用于第三代测序平台。

技术实现思路

[0004]基于第三代测序技术的测序原理与第二代测序不同,第三代测序技术测序产生的数据特征也有不同于第二代测序技术得到的测序数据的特征,这些不同使得两者在应用上也呈现了一定的差异性。如第三代测序平台无法测量插入序列长度,因此无法通过cfDNA长度的分布特征来确定胎儿浓度;又如,第三代测序平台无法测量甲基化信息,因此不适用通过提取甲基化特征的方式来确定胎儿浓度;再如,第三代测序平台的测序原理的差异性,导致其测序过程中产生的错误特征不同与第二代测序产生的错误特征,导致适用于第二代测序的SNP法不能适用于第三代测序平台胎儿浓度的确定。利用XY染色体含量确定胎儿浓度,只能基于胎儿为男胎的前提下进行,而对于性别为女胎的胎儿浓度的确定同样不适应。因此,基于上述情况,需要开发能兼顾各种测序平台、且能够适用于不同性别胎儿的胎儿浓度评估方法。
[0005]有鉴于此,本申请提供如下技术方案:
[0006]一种胎儿浓度的确定方法,包括:
[0007]获取待测cfDNA样本的测序序列;
[0008]将所述测序序列与参考基因组进行比对,得到比对结果;
[0009]基于所述比对结果,确定胎儿浓度。
[0010]作为本申请一种可能的实现方式,所述将所述测序序列与参考基因组进行比对,得到比对结果,包括:
[0011]对参考基因组进行分段,得到多个分段区间;
[0012]确定每一所述测序序列落入各个所述分段区间的第一比对数,将所述第一比对数确定为比对结果。
[0013]作为本申请一种可能的实现方式,所述对参考基因组进行分段,得到多个分段区
间,包括:
[0014]基于预设的分割长度对参考基因组进行分段,得到多个初始分段区间;
[0015]剔除所述初始分段区间中特定染色体对应的分段区间,得到多个分段区间;
[0016]或者,
[0017]剔除参考基因组中的特定染色体,得到剔除后的参考基因组;
[0018]基于预设的分割长度对所述剔除后的参考基因组进行分段,得到多个分段区间。
[0019]作为本申请一种可能的实现方式,所述特定染色体包括X染色体、Y染色体、线粒体染色体、13号染色体、18号染色体和21号染色体中的至少一种。
[0020]作为本申请一种可能的实现方式,所述方法还包括:
[0021]对所述第一比对数进行校正,得到校正后的第一比对数,将所述校正后的第一比对数确定为比对结果。
[0022]作为本申请一种可能的实现方式,所述对所述第一比对数进行校正,得到校正后的第一比对数,包括:
[0023]基于每一分段区间的第一比对数以及所有分段区间的平均第一比对数,对每一分段区间的第一比对数进行归一化处理,得到每一分段区间归一化第一比对数;
[0024]对每一分段区间所述归一化第一比对数进行GC校正,得到GC校正后的第一比对数。
[0025]作为本申请一种可能的实现方式,所述对每一分段区间所述归一化第一比对数进行GC校正,得到GC校正后的第一比对数,包括:
[0026]基于GC含量和每个分段区间对应的归一化第一比对数,生成第一关系曲线;
[0027]基于所述第一关系曲线对所述归一化第一比对数进行GC校正,得到GC校正后的第一比对数。
[0028]作为本申请一种可能的实现方式,在所述基于GC含量和每个分段区间对应的归一化第一比对数,生成第一关系曲线的步骤之前,还包括:
[0029]基于GC含量对所述分段区间进行过滤,使得基于GC过滤后的每个分段区间的GC含量和每个分段区间对应的归一化第一比对数,生成第一关系曲线;
[0030]或者,
[0031]所述基于所述第一关系曲线对所述归一化第一比对数进行GC校正,得到GC校正后的第一比对数,包括:
[0032]基于GC含量对所述分段区间进行过滤,并基于所述第一关系曲线对GC过滤后的归一化第一比对数进行GC校正,得到GC校正后的第一比对数。
[0033]作为本申请一种可能的实现方式,所述GC校正为根据所述归一化第一比对数以及与所述归一化第一比对数对应的分段区间的GC含量的减法关系式或者除法关系式,确定GC校正后的第一比对数。
[0034]作为本申请一种可能的实现方式,所述对所述第一比对数进行校正,得到校正后的第一比对数,还包括:
[0035]基于特定滑窗长度对参考基因组进行截取,将截取到的序列与所述参考基因组进行比对,并统计在参考基因组的每一分段区间上的第一比对数,将所述第一比对数确定为滑窗比对数;
[0036]基于所述滑窗比对数,确定每一分段区间归一化后的滑窗比对数;
[0037]基于每一所述分段区间归一化后的滑窗比对数和所述归一化第一比对数进行比对概率校正,确定比对概率校正后的第一比对数。
[0038]作为本申请一种可能的实现方式,所述基于每一所述分段区间归一化后的滑窗比对数和所述归一化第一比对数进行比对概率校正,确定比对概率校正后的第一比对数,包括:
[0039]基于每一所述分段区间归一化后的滑窗比对数和每个分段区间对应的归一化第一比对数,生成第二关系曲线;
[0040]基于所述第二关系曲线对所述归一化第一比对数进行比对概率校正,得到比对概率校正后的第一比对数。
[0041]作为本申请一种可能的实现方式,所述基于每一所述分段区间归一化后的滑窗比对数和每个分段区间对应的归一化第一比对数,生成第二关系曲线的步骤之前,还包括:
[0042]基于归一化后的滑窗比对数对分段区间进行过滤,获得归一化后的滑窗对比数不小于第一目标阈值的分段区间,以使得所述第二关系曲线在归一化后的滑窗比对数不小于所述第一目标阈值的分段区间生成;
[0043]或者,
[0044]所述基于所述第二关系曲线对所述归一化第一比对数进行比对概率校正,得到比对概率校正后的第一比对数,包括:
[0045]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种胎儿浓度的确定方法,其特征在于,包括:获取待测cfDNA样本的测序序列;将所述测序序列与参考基因组进行比对,得到比对结果;基于所述比对结果,确定胎儿浓度。2.根据权利要求1所述的方法,其特征在于,所述将所述测序序列与参考基因组进行比对,得到比对结果,包括:对参考基因组进行分段,得到多个分段区间;确定每一所述测序序列落入各个所述分段区间的第一比对数,将所述第一比对数确定为比对结果;可选地,所述对参考基因组进行分段,得到多个分段区间,包括:基于预设的分割长度对参考基因组进行分段,得到多个初始分段区间;剔除所述初始分段区间中特定染色体对应的分段区间,得到多个分段区间;或者,剔除参考基因组中的特定染色体,得到剔除后的参考基因组;基于预设的分割长度对所述剔除后的参考基因组进行分段,得到多个分段区间;可选地,所述特定染色体包括X染色体、Y染色体、线粒体染色体、13号染色体、18号染色体和21号染色体中的至少一种;可选地,所述方法还包括:对所述第一比对数进行校正,得到校正后的第一比对数,将所述校正后的第一比对数确定为比对结果;可选地,所述对所述第一比对数进行校正,得到校正后的第一比对数,包括:基于每一分段区间的第一比对数以及所有分段区间的平均第一比对数,对每一分段区间的第一比对数进行归一化处理,得到每一分段区间归一化第一比对数;对每一分段区间所述归一化第一比对数进行GC校正,得到GC校正后的第一比对数;可选地,所述对每一分段区间所述归一化第一比对数进行GC校正,得到GC校正后的第一比对数,包括:基于GC含量和每个分段区间对应的归一化第一比对数,生成第一关系曲线;基于所述第一关系曲线对所述归一化第一比对数进行GC校正,得到GC校正后的第一比对数;可选地,在所述基于GC含量和每个分段区间对应的归一化第一比对数,生成第一关系曲线的步骤之前,还包括:基于GC含量对所述分段区间进行过滤,使得基于GC过滤后的每个分段区间的GC含量和每个分段区间对应的归一化第一比对数,生成第一关系曲线;或者,所述基于所述第一关系曲线对所述归一化第一比对数进行GC校正,得到GC校正后的第一比对数,包括:基于GC含量对所述分段区间进行过滤,并基于所述第一关系曲线对GC过滤后的归一化第一比对数进行GC校正,得到GC校正后的第一比对数;可选地,所述GC校正为根据所述归一化第一比对数以及与所述归一化第一比对数对应
的分段区间的GC含量的减法关系式或者除法关系式,确定GC校正后的第一比对数;可选地,所述对所述第一比对数进行校正,得到校正后的第一比对数,还包括:基于特定滑窗长度对参考基因组进行截取,将截取到的序列与所述参考基因组进行比对,并统计在参考基因组的每一分段区间上的第一比对数,将所述第一比对数确定为滑窗比对数;基于所述滑窗比对数,确定每一分段区间归一化后的滑窗比对数;基于每一所述分段区间归一化后的滑窗比对数和所述归一化第一比对数进行比对概率校正,确定比对概率校正后的第一比对数;可选地,所述基于每一所述分段区间归一化后的滑窗比对数和所述归一化第一比对数进行比对概率校正,确定比对概率校正后的第一比对数,包括:基于每一所述分段区间归一化后的滑窗比对数和每个分段区间对应的归一化第一比对数,生成第二关系曲线;基于所述第二关系曲线对所述归一化第一比对数进行比对概率校正,得到比对概率校正后的第一比对数;可选地,所述基于每一所述分段区间归一化后的滑窗比对数和每个分段区间对应的归一化第一比对数,生成第二关系曲线的步骤之前,还包括:基于归一化后的滑窗比对数对分段区间进行过滤,获得归一化后的滑窗对比数不小于第一目标阈值的分段区间,以使得所述第二关系曲线在归一化后的滑窗比对数不小于所述第一目标阈值的分段区间生成;或者,所述基于所述第二关系曲线对所述归一化第一比对数进行比对概率校正,得到比对概率校正后的第一比对数,包括:基于归一化后的滑窗比对数,对所述分段区间进行过滤,保留所述第二关系曲线中归一化后的滑窗比对数不小于所述第一目标阈值的第二关系曲线区间,以得到比对概率过滤后的第二关系曲线;基于所述比对概率过滤后的第二关系曲线对所述滑窗归一化比对数进行比对概率校正,得到比对概率校正后的第一比对数。3.根据权利要求2所述的方法,其特征在于,所述基于所述比对结果,确定胎儿浓度,包括:获得第一训练样本数据,所述第一训练样本数据中的每一样本均标注有第一特征值和第一目标值,所述第一特征值为样本比对数,所述第一目标值为样本实际胎儿浓度;基于特定模型结构对所述第一训练样本数据进行机器学习建模,得到第一胎儿浓度定量模型;将所述比对结果输入至所述第一胎儿浓度定量模型,得到第一胎儿浓度,并将所述第一胎儿浓度确定为所述胎儿浓度;可选地,所述基于特定模型结构对所述第一训练样本数据进行机器学习建模,得到第一胎儿浓度定量模型,包括:将所述第一训练样本数据划分为训练集和测试集;基于所述训练集进行机器学习建模,得到初始模型;
基于所述初始模型对所述测试集进行处理,得到与所述测试集中每一测试样本的预估胎儿浓度;基于所述预估胎儿浓度与所述测试集中每一测试样本的实际胎儿浓度进行比较,得到比较结果;基于所述比较结果对所述初始模型的模型参数进行调整,得到第一胎儿浓度定量模型;可选地,所述基于所述比对结果,确定胎儿浓度,包括:将所述比对结果输入至第一预设模型,得到初始胎儿浓度,其中,所述第一预设模型为基于第二样本数据中的对比结果以及与所述比对结果对应的初始胎儿浓度建立的线性关系模式,所述第二样本数据为cfDNA样本中的测序序列与参考基因组进行比对得到的比对结果,以及与比对结果对应的胎儿浓度;根据第二预设模型对所述初始胎儿浓度进行校正,获得胎儿浓度,其中,所述第二预设模型是基于线性拟合确定的常数对所述第一预设模型进行处理后得到的模型。4.根据权利要求1所述的方法,其特征在于,所述将所述测序序列与参考基因组进行比对,得到比对结果,包括:将参考基因组的各碱基位点为所述测序序列比对起始位置的碱基位点的计数确定为第二比对数,并基于所述第二比对数,计算所述参考基因组的每个碱基位点对应的核小体中心分数;基于所述核小体中心分数以及中心分数筛选阈值,确定核小体中心位置;基于所述核小体中心位置将所有核小体区域内对应位置的第二比对数进行对齐加和处理,得到加和处理后的第二比对数;将所述加和处理后的第二比对数进行降维处理,得到降维后的归一化第二比对数,并将所述降维后的归一化第二比对数确定为比对结果;可选地,所述计算所述参考基因组的每个碱基位点对应的核小体中心分数,包括:计算所述参考基因组的每个碱基位点左右分别对应的第一特定数量的碱基范围的第一平均计数;计算所述参考基因组的每个碱基位点左右分别对应的第二特定数量的碱基范围的第二平均计数;根据所述第一平均计数和所述第二平均计数,确定每个位点对应的核小体中心分数;可选地,所述核小体中心分数的计算公式为:式中,x为碱基位点,[x

93,x

74

n]表示从距离x一侧93个核苷酸到同侧距离x74

n个核苷酸的区间,[x+93,x+74

n]表示从距离x另一侧93个核苷酸到同侧距离x74

n个核苷酸的区间,[x

73

n,x+73

n]表示从距离x另一侧73

n个核苷酸到距离x另一侧73

n个核苷酸的区间,n为小于或等于5的自然数;可选地,所述基于所述核小体中心分数以及中心分数筛选阈值,确定核小体中心分数,包括:基于所述核小体中心分数的最大值,确定所述最大值在所述参考基因组上的位置,并
将所述位置确定为第一位置;将所述第一位置两侧特定数据的碱基的核小体中心分数清零,并基于清零后剩余的核小体中心分数再次确定最大值,并执行确定最大值在所述参考基因组上的位置,直至核小体中心分数小于第二目标阈值,将筛选出的位置确定为候选核小体中心位置;基中心分数筛选阈值以及与所述候选核小体中心位置对应的核小体中心分数,确定核小体中心位置;可选地,所述基于所述核小体中心位置将所有核小体区域内对应位置的第二比对数进行对齐加和处理的步骤中,所述核小体区域内对应位置包括:以所述核小体中心位置为中心,左右各特定数量的碱基的范围;可选地,所述基于所述比对结果,确定胎儿浓度,包括:获取第二训练样本数据,所述第二训练样本数据中的每一样本均标注有特征值和目标值,所述特征值为所述降维后的归一化第二比对数,所述目标值为实际胎儿浓度;基于所述第二训练样本数据创建第二胎儿浓度定量模型;将所述比对结果输入至所述第二胎儿浓度定量模型,得到胎儿浓度。5.一种胎儿浓度的确定方法,其特征在于,包括:获取待测cfDNA样本的测序序列;对参考基因组进行分段,得到多个分段区间,确定每一所述测序序列落入各个所述分段区间的第一比对数;基于所述第一比对数,确定第一胎儿浓度;基于所述参考基因组的各碱基位点是所述测序序列比对起始位置的第二比对数,确定核小体中心位置;基于所述核小体中心位置将所有核小体区域内对应位置的第二比对数进行对齐加和处理,得到加和处理后的第二比对数;基于所述第一胎儿浓度和所述加和处理后的第二比对数,确定比对结果;基于所述比对结果,确定胎儿浓度。6.根据权利要求5所述的方法,其特征在于,所述对参考基因组进行分段,得到多个分段区间,包括:基于预设的分割长度对参考基因组进行分段,得到多个初始分段区间;剔除所述初始分段区间中特定染色体对应的分段区间,得到多个分段区间;或者,剔除参考基因组中的特定染色体,得到剔除后的参考基因组;基于预设的分割长度对所述剔除后的参考基因组进行分段,得到多个分段区间;可选地,所述特定染色体包括X染色体、Y染色体、线粒体染色体、13号染色体、18号染色体和21号染色体中的至少一种;可选地,所述基于所述第一比对数,确定第一胎儿浓度的步骤之前,还包括:对所述第一比对数进行校正,得到校正后的第一比对数,将所述校正后的第一比对数确定为第一胎儿浓度;可选地,所述对所述第一比对数进行校正,得到校正后的第一比对数,包括:基于每一分段区间的第一比对数以及所有分段区间的平均第一比对数,对每一分段区
间的第一比对数进行归一化处理,得到每一分段区间归一化第一比对数;对每一分段区间所述归一化第一比对数进行GC校正,得到GC校正后的第一比对数;可选地,所述对每一分段区间所述归一化第一比对数进行GC校正,得到GC校正后的第一比对数,包括:基于GC含量和每个分段区间对应的归一化第一比对数,生成第一关系曲线;基于所述第一关系曲线对所述归一化第一比对数进行GC校正,得到GC校正后的第一比对数;可选地,在所述基于GC含量和每个分段区间对应的归一化第一比对数,生成第一关系曲线的步骤之前,还包括:基于GC含量对所述分段区间进行过滤,使得基于GC过滤后的每个分段区间的GC含量和每个分段区间对应的归一化第一比对数,生成第一关系曲线;或者,所述基于所述第一关系曲线对所述归一化第一比对数进行GC校正,得到GC校正后的第一比对数,包括:基于GC含量对所述分段区间进行过滤,并基于所述第一关系曲线对GC过滤后的归一化第一比对数进行GC校正,得到GC校正后的第一比对数;可选地,所述GC校正为根据所述归一化第一比对数以及与所述归一化第一比对数对应的分段区间的GC含量的减法关系式或者除法关系式,确定GC校正后的第一比对数;可选地,所述对所述第一比对数进行校正,得到校正后的第一比对数,还包括:基于特定滑窗长度对参考基因组进行截取,将截取到的序列与所述参考基因组进行比对,并统计在参考基因组的每一分段区间上的第一比对数,将所述第一比对数确定为滑窗比对数;基于所述滑窗比对数,确定每一分段区间归一化后的滑窗比对数;基于每一所述分段区间归一化后的滑窗比对数和所述归一化第一比对数进行比对概率校正,确定比对概率校正后的第一比对数;可选地,所述基于每一所述分段区间归一化后的滑窗比对数和所述归一化第一比对数进行比对概率校正,确定比对概率校正后的第一比对数,包括:基于每一所述分段区间归一化后的滑窗比对数和每个分段区间对应的归一化第一比对数,生成第二关系曲线;基于所述第二关系曲线对所述归一化第一比对数进行比对概率校正,得到比对概率校正后的第一比对数;可选地,所述基于每一所述分段区间归一化后的滑窗比对数和每个分段区间对应的归一化第一比对数,生成第二关系曲线的步骤之前,还包括:基于归一化后的滑窗比对数对分段区间进行过滤,获得归一化后的滑窗对比数不小于第一目标阈值的分段区间,以使得所述第二关系曲线在归一化后的滑窗比对数不小于所述第一目标阈值的分段区间生成;或者,所述基于所述第二关系曲线对所述归一化第一比对数进行比对概率校正,得到比对概率校正后的第一比对数,包括:
基于归一化后的滑窗比对数,对所述分段区间进行过滤,保留所述第二关系曲线中归一化后的滑窗比对数不小于所述第一目标阈值的第二关系曲线区间,以得到比对概率过滤后的第二关系曲线;基于所述比对概率过滤后的第二关系曲线对所述滑窗归一化比对数进行比对概率校正,得到比对概率校正后的第一比对数;可选地,所述基于所述第一比...

【专利技术属性】
技术研发人员:陈巍月张艳华刘贤科张娟
申请(专利权)人:深圳市真迈生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1