一种无创产前检测装置制造方法及图纸

技术编号:28224196 阅读:19 留言:0更新日期:2021-04-28 09:54
本发明专利技术涉及生物信息学技术领域,具体公开了一种无创产前检测装置。所述装置包括:检测模块、数据质控及预处理模块、数据校正及处理模块和判断模块;通过数据校正及处理模块构建动态数据库以再次重新校正不同染色体基线带来的偏差,并配合后续PCA降噪、母源CNV的识别筛选和CBS算法对窗口Z值的分割等方式,从而有效的降低了批次偏差造成的影响,避免了由于批次偏差导致的假阴或者假阳;还避免了应用待测批次样本做参考集,从而避免由于样本量少,造成的结果不准确;减少了灰区样本数量,降低了检测成本,缩短了检测周期。缩短了检测周期。

【技术实现步骤摘要】
一种无创产前检测装置


[0001]本专利技术涉及生物信息学
,具体地说,涉及一种无创产前检测装置。

技术介绍

[0002]无创产前检测(noninvasive prenatal testing,简称NIPT)是一项非侵入性的孕期产检技术,这项技术是建立在孕妇外周血中存在着胎儿游离的DNA这一科学发现的基础上的检测技术,具有很高的检测准确性,同时可以避免绒毛活检术、羊膜穿刺术和经腹静脉穿刺术等侵入性检测所带来的流产和宫内感染风险。
[0003]NIPT检测技术原理是通过抽取孕妇外周血,提取出血浆游离DNA,构建二代测序文库,利用二代测序仪得到孕妇血浆游离DNA的序列信息。利用Z检验方法比较染色体的含量与阴性对照集的差异,从而得到胎儿患病的风险。然而,测序试验中可以观察到批次效应,它的原因包括试验分析操作人员,时间、平台、实验室环境等。由于这些非生物因素的影响容易产生批次效应。如果不消除批次效应,对分析结果会产生很大的影响,容易造成假阴或者假阳。同时,位于灰区的样本也会增加,需对数据重新验证,从而增加检测成本及检测周期。CBS是目前检测CNV断点的主流算法之一。特点是分段结果稳定,对低浓度的断点检测灵敏性高。但是也有几个缺点:对波动较大的数据分段过于琐碎;没有提供是否属于CNV的信息;对于不同的数据需要调试不同的阈值。
[0004]因此,需要提供一种新的无创产前检测装置以解决现有技术的问题。

技术实现思路

[0005]针对已有的NIPT检测技术的以下缺点:
[0006]1、未考虑批次偏差的影响,造成假阴或者假阳;
[0007]2、若应用本批次样本作为对照参考集,样本数较少,导致染色体含量的SD偏大,则Z值偏小,容易造成假阴;
[0008]3、灰区样本数较大,检测成本较高及检测周期较长。
[0009]本专利技术提出了一种有效降低批次偏差、检测周期短、检测精度高的无创产前检测装置。
[0010]为了实现本专利技术的专利技术目的,本专利技术的技术方案如下:
[0011]一种无创产前检测装置,所述装置包括:检测模块、数据质控及预处理模块、数据校正及处理模块和判断模块;
[0012]所述数据校正及处理模块:用于将待测孕妇样本基因组通过质控、窗口划分后获得的每个bin的ratio中的重复序列和群组CNV剔除后,进行GC校正和不同染色体基线带来的偏差校正,获得每个bin的含量x,并进一步根据动态数据库再次重新校正不同染色体基线带来的偏差;
[0013]所述动态数据库的构建方法如下:
[0014]根据整个待测样本批次中的t个待测样本S的每个bin的含量x对参考数据库中的
所有样本R进行筛选,选择参考数据库中d(S,R
j
)最小的男性样本a个和女性样本b个,组建针对本批次待测样本常染色体的动态数据库,其中男女性别比例无统计学差异,a+b不小于1000;选择参考数据库中d(S,R
j
)最小的男性样本a个和女性样本b个,分别组建针对本批次待测样本性染色体的动态数据库;d(S,R
j
)的计算公式如下:
[0015][0016]其中,S代表所有待测样本,R
j
代表参考数据库中的第j个样本,代表t个待测样本中的第l个样本的第i条染色体bin的含量x的均值,代表参考数据库中第j个样本的第i条染色体的bin的含量x的均值。
[0017]本专利技术优化了批次偏差校正的方法,通过特定的动态数据库构建方法获得了针对每一批次待测样本的动态数据库。利用本专利技术动态数据库有助于选择与批次波动类似的样本,较小批次偏差,提升阴性参考集的效果,使得检测准确性更高。其中,a+b不小于1000,可避免sd偏大,进行Z统计检验时造成假阴的情况。
[0018]为了避免一些重复序列的干扰,本专利技术在GC校正前对其进行了剔除(去除包含基因组串联重复及散在重复序列的bin)。另外,由于参考基因组hg19是欧洲人,在针对不同人群检测时,会存在一些种群水平上的假定CNV,本专利技术还对群组CNV进行了剔除。具体可通过叠加所有阴性数据库样本的窗口的reads数,以t检验法剔除离群点(群组CNV)。
[0019]除了三体信号等其他干扰因素,GC含量也会对UR ratio造成较大的影响。GC校正可采用平滑样条法(统计每个窗口bin的reads数,并计算人类参考基因组中参考样本对应窗口的GC含量,以通过平滑样条法进行GC校正),尽可能减少误差干扰,有效地判断UR ratio的值是否有统计学意义上的异常。另外,不同染色体区域有不同的基线覆盖度,尽管GC校正减轻了基线差异,但是远不能消除基线之间的差异。因此,本专利技术还对不同染色体基线带来的偏差进行了校正。
[0020]本专利技术中,所述数据校正及处理模块还用于在再次重新校正不同染色体基线带来的偏差后,进行PCA降噪;
[0021]所述PCA降噪方式为:
[0022]分别针对待测样本的常染色体和性染色体,以对应的动态数据库中的每一个阴性参考集样本的数据进行矩阵构建,具体以n个阴性参考集样本的m个bin构造一个n*m的矩阵X,其中每一项都是阴性参考集样本中bin的残差x,首先将X的每一行进行中心化,即减去每行的均值,计算中心化后矩阵X的协方差矩阵XX
T
,利用特征值分解矩阵得到特征值与特征向量W,将待测样本的残差x,构建1*e的矩阵T,旋转到相同的基上获得T',T'=TW,通过减去前k个主成分重建测试集x';e为待测样本的bin的个数,e=m;
[0023]k值的确定:
[0024]利用PCA降噪后数据的残差与降噪前数据的残差的比值计算信息损失量L,评估降噪后数据信息丢失的情况来确定k值,具体步骤如下:
[0025]将多例通过质控的已知核型结果的阳性样本基因组按100Kb进行窗口划分后合并临近窗口获得窗宽为2Mb的窗口,设置不同的k值,计算阳性区域的信息损失量L,损失量L的计算公式如下:
[0026][0027]x
i
代表窗宽为2Mb时的bin的ratio的均值,x

i
代表窗宽为2Mb时进行所述PCA降噪后bin的ratio的均值,N代表阳性区域为2Mb窗口的个数;当信息损失量小于0.05时,所对应的k值最终用于待测样本的PCA降噪。
[0028]本专利技术中,所述数据校正及处理模块进行不同染色体基线带来的偏差校正方式为:
[0029]通过计算相应数据库中全部正常对照样本的GC校正后的bin的含量的均值和标准差,构建加权线性回归模型,以对应位置校正后bin的ratio的标准差为权重,获得的残差x即为校正后的bin的含量x。
[0030]本专利技术中,所述数据校正及处理模块进一步用于在进行所述PCA降噪后,进行母源CNV识别并剔除不会遗传给后代的母源CNV;
[0031]具体识别方式为:当多个连续的经PCA降噪后的bin的含量x的绝对值abs(x)&gt本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无创产前检测装置,其特征在于,所述装置包括:检测模块、数据质控及预处理模块、数据校正及处理模块和判断模块;所述数据校正及处理模块:用于将待测孕妇样本基因组通过质控、窗口划分后获得的每个bin的ratio中的重复序列和群组CNV剔除后,进行GC校正和不同染色体基线带来的偏差校正,获得每个bin的含量x,并进一步根据动态数据库再次重新校正不同染色体基线带来的偏差;所述动态数据库的构建方法如下:根据整个待测样本批次中的t个待测样本S的每个bin的含量x对参考数据库中的所有样本R进行筛选,选择参考数据库中d(S,R
j
)最小的男性样本a个和女性样本b个,组建针对本批次待测样本常染色体的动态数据库,其中男女性别比例无统计学差异,a+b不小于1000;选择参考数据库中d(S,R
j
)最小的男性样本a个和女性样本b个,分别组建针对本批次待测样本性染色体的动态数据库;d(S,R
j
)的计算公式如下:其中,S代表所有待测样本,R
j
代表参考数据库中的第j个样本,代表t个待测样本中的第l个样本的第i条染色体bin的含量x的均值,代表参考数据库中第j个样本的第i条染色体的bin的含量x的均值。2.根据权利要求1所述的装置,其特征在于,所述数据校正及处理模块还用于在再次重新校正不同染色体基线带来的偏差后,进行PCA降噪;所述PCA降噪方式为:分别针对待测样本的常染色体和性染色体,以对应的动态数据库中的每一个阴性参考集样本的数据进行矩阵构建,具体以n个阴性参考集样本的m个bin构造一个n*m的矩阵X,其中每一项都是阴性参考集样本中bin的残差x,首先将X的每一行进行中心化,即减去每行的均值,计算中心化后矩阵X的协方差矩阵XX
T
,利用特征值分解矩阵得到特征值与特征向量W,将待测样本的残差x,构建1*e的矩阵T,旋转到相同的基上获得T

,T

=TW,通过减去前k个主成分重建测试集x

;e为待测样本的bin的个数,e=m;k值的确定:利用PCA降噪后数据的残差与降噪前数据的残差的比值计算信息损失量L,评估降噪后数据信息丢失的情况来确定k值,具体步骤如下:将多例通过质控的已知核型结果的阳性样本基因组按100Kb进行窗口划分后合并临近窗口获得窗宽为2Mb的窗口,设置不同的k值,计算阳性区域的信息损失量L,损失量L的计算公式如下:x
i
代表窗宽为2Mb时的bin的ratio的均值,x

i
代表窗宽为2Mb时进行所述PCA降噪后bin的ratio的均值,N代表阳性区域为2Mb窗口的个数;当信息损失量小于0.05时,所对应的k值最终用于待测样本的PCA降噪。3.根据权利要求2所述的装置,其特征在于,所述数据校正及处理模块进行不同染色体
基线带来的偏差校正方式为:通过计算相应数据库中全部正常对照样本的GC校正后的bin的含量的均值和标...

【专利技术属性】
技术研发人员:张静波王伟伟李小雨伍启熹王建伟刘倩唐宇
申请(专利权)人:北京优迅医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1