当前位置: 首页 > 专利查询>北京医院专利>正文

一种非整倍性生物信息的分析方法和分析系统技术方案

技术编号:16153561 阅读:89 留言:0更新日期:2017-09-06 18:39
本发明专利技术公开了一种非整倍性生物信息的分析方法和分析系统。其中,1)构建参考数据库异;2)计算UR ratio;3)构建参考数据库统计学参数;4)Z值计算;5)按照上述减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体假阳性的方法减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体假阳性;6)按照上述胎儿DNA浓度预测模型的构建方法构建的胎儿DNA浓度预测模型预测胎儿DNA浓度;7)计算胎儿每条染色体的DNA数量占总体DNA的百分比:8)常染色体非整倍体的判断:9)性染色体异常判断。应用本发明专利技术的技术方案,极大地提高了分析的准确性。

【技术实现步骤摘要】
一种非整倍性生物信息的分析方法和分析系统
本专利技术涉及生物医学
,具体而言,涉及一种非整倍性生物信息的分析方法和分析系统。
技术介绍
产前诊断是指利用非侵入性或侵入性手段对胎儿进行检查,可以在孕早期或中期就对胎儿做出诊断,以便进行提前干预或治疗。其中,侵入性手段包括:绒毛活检术、羊膜穿刺术和经腹脐静脉穿刺术等等。虽然结果较准确,但是具有相当高的风险性,容易造成孕妇流产或宫内感染。产前筛查手段(外周血生化筛查和超声颈部透明带)虽然不使用侵入式方法,但是检测率和假阳率并不能达到期望的水平。NIPT,简称无创产前检测,是应用于孕期产检的一项技术,这项技术是基于孕妇外周血的血浆中存在的胎儿游离DNA,具有很高的检测准确性,同时也避免了侵入性检测所带来的流产和宫内感染风险。NIPT检测首先需要抽取孕妇外周血,分离出血浆,提取出血浆游离DNA,构建二代测序文库,利用二代测序仪得到孕妇血浆游离DNA的序列信息。得到的测序数据通过基本的质控、和人类参考基因组比对、GC校正、计算Z值等步骤来得到胎儿患病的风险。但是,已有的NIPT检测技术存在以下缺点:1)当胎儿DNA浓度低的时候,无法精确判断染色体异常,容易造成假阴;2)只能检测13号、18号、21号染色体等常染色体的非整倍体异常,很难有效判断性染色体;3)适用于单胎,无法对双胎乃至多胎进行有效检测;4)受测序批次影响较大,易造成假阳;5.)不适合检测母体异常(染色体的微缺失和微重复)的胎儿DNA,易造成假阳。
技术实现思路
本专利技术旨在提供一种非整倍性生物信息的分析方法和分析系统,以提高分析的准确性。为了实现上述目的,根据本专利技术的一个方面,提供了一种测序GC偏好性的校正方法。该校正方法包括以下步骤:1)利用高通量测序平台对待测样品进行测序;2)将测序得到的碱基序列去除接头及低质量的碱基序列后与参考数据库的对照样本的参考基因组序列进行比对,统计每条染色体上的唯一比对到参考基因组的序列条数,即UniqueRead的条数,并计算每条染色体上UniqueRead的总量占总的UniqueReads的百分率URratio;3)测序GC偏好性校正:数据预处理,然后同时采用三套不同的校正策略进行GC矫正;其中,数据预处理包括:将整条染色体划分为100kb片段大小的窗,重叠区域为50kb,计算每个窗内各测序序列的GC含量,同时计算窗内的uniquereads数,忽略带有测序不确定的碱基N、uniquereads为0或者异常高的那些窗,然后,对窗内的uniquereads数进行归一化,即除以参考数据库的对照样本的对应窗内的uniquereads数;三套不同的校正策略包括:一、采用局部多项式加权回归方法进行GC校正:数据预处理后,利用窗内的uniquereads数与窗内的GC含量作局部多项式加权回归,再利用窗内归一化的uniquereads数除以局部多项式加权回归得到的估计值算出每个窗的uniquereads的数值,进而实现对每条染色体上的Uniquereads的GC校正;二、采用滚动中值(rollingmedian)方法进行GC校正:数据预处理后,对所有染色体内所有窗的GC含量进行排序,以0.1%GC值差异对所有窗进行分组,统计每个GC值组内的所有窗的Uniquereads数,计算其中位数作为该组测序序列的GC权重,再利用窗内归一化的uniquereads数除以该组的GC权重,从而得到GC校正后的uniquereads数;三、利用线性回归方法进行GC校正:数据预处理后,利用最小二乘法估算出每条染色体的归一化uniquereads数和GC与1/GC的回归方程,得到uniquereads的估计值,利用窗内归一化的uniquereads数除以其对应窗的估计值,从而实现对每条染色体的Uniquereads数的GC校正。根据本专利技术另一个方面,提供一种测序GC偏好性的校正系统。该校正系统包括:测序模块:用于利用高通量测序平台对待测样品进行测序;比对统计模块:用于将测序得到的碱基序列去除接头及低质量的碱基序列后与参考数据库的对照样本的参考基因组序列进行比对,统计每条染色体上的UniqueRead的条数,并计算每条染色体上UniqueRead的总量占总的UniqueReads的百分率URratio;矫正模块:用于测序GC偏好性校正;矫正模块包括数据预处理子模块和矫正子模块,其中,数据预处理子模块:用于将整条染色体划分为100kb片段大小的窗,重叠区域为50kb,计算每个窗内各测序序列的GC含量,同时计算窗内的uniquereads数,忽略带有测序不确定的碱基N、uniquereads为0或者异常高的那些窗,然后,对窗内的uniquereads数进行归一化,即除以参考数据库的对照样本的对应窗内的uniquereads数;矫正子模块用于同时采用三套不同的校正策略进行GC矫正,三套不同的校正策略包括:一、采用局部多项式加权回归方法进行GC校正:数据预处理后,利用窗内的uniquereads数与窗内的GC含量作局部多项式加权回归,再利用窗内归一化的uniquereads数除以局部多项式加权回归得到的估计值算出每个窗的uniquereads的数值,进而实现对每条染色体上的Uniquereads的GC校正;二、采用滚动中值(rollingmedian)方法进行GC校正:数据预处理后,对所有染色体内所有窗的GC含量进行排序,以0.1%GC值差异对所有窗进行分组,统计每个GC值组内的所有窗的Uniquereads数,计算其中位数作为该组测序序列的GC权重,再利用窗内归一化的uniquereads数除以该组的GC权重,从而得到GC校正后的uniquereads数;三、利用线性回归方法进行GC校正:数据预处理后,利用最小二乘法估算出每条染色体的归一化uniquereads数和GC与1/GC的回归方程,得到uniquereads的估计值,利用窗内归一化的uniquereads数除以其对应窗的估计值,从而实现对每条染色体的Uniquereads数的GC校正。根据本专利技术的再一个方面,提供一种胎儿DNA浓度预测模型的构建方法。该构建方法包括以下步骤:1)选取一定数量核型分析无染色体异常且孕周大于等于12周的怀有正常男胎的孕妇样品、一定数量的健康男性和女性样本,对这些样本的血浆游离DNA样本进行基因测序,测序数据按照上述测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性,对uniquereads数进行GC校正,然后计算这些样本的Y染色体的URratio,得到怀有正常男胎的孕妇样品的Y染色体的URratioR样品、女性样本的Y染色体的URratioRfemale、男性样本的Y染色体的URratioRmale;2)根据如下公式计算胎儿浓度:男胎胎儿DNA浓度=(R样品-Rfemale)/(Rmale-Rfemale),然后,计算怀有正常男胎的孕妇样品的测序序列的片段长度,并统计片段长度的分布情况,通过计算不同片段长度的比例得到统计学参数片段长度百分比,将胎儿浓度与片段长度百分比做线性回归,构建线性回归模型,然后通过线性回归模型根据怀有女胎的孕妇样品的片段长度百分比预测女胎胎儿的DNA浓度。根据本专利技术的又一个方面,本文档来自技高网...

【技术保护点】
一种测序GC偏好性的校正方法,其特征在于,包括以下步骤:1)利用高通量测序平台对待测样品进行测序;2)将测序得到的碱基序列去除接头及低质量的碱基序列后与参考数据库的对照样本的参考基因组序列进行比对,统计每条染色体上的唯一比对到参考基因组的序列条数,即Unique Read的条数,并计算每条染色体上Unique Read的总量占总的Unique Reads的百分比,即UR ratio;3)测序GC偏好性校正:数据预处理,然后同时采用三套不同的校正策略进行GC矫正;其中,数据预处理包括:将整条染色体划分为100kb片段大小的窗,重叠区域为50kb,计算每个窗内各测序序列的GC含量,同时计算窗内的unique reads数,忽略带有测序不确定的碱基N、unique reads为0或者异常高的那些窗,然后,对窗内的unique reads数进行归一化,即除以参考数据库的对照样本的对应窗内的unique reads数;所述三套不同的校正策略包括:一、采用局部多项式加权回归方法进行GC校正:数据预处理后,利用窗内的unique reads数与窗内的GC含量作局部多项式加权回归,再利用窗内归一化的unique reads数除以局部多项式加权回归得到的估计值算出每个窗的unique reads的数值,进而实现对每条染色体上的Unique reads的GC校正;二、采用滚动中值方法进行GC校正:数据预处理后,对所有染色体内所有窗的GC含量进行排序,以0.1%GC值差异对所有窗进行分组,统计每个GC值组内的所有窗的Unique reads数,计算其中位数作为该组测序序列的GC权重,再利用窗内归一化的unique reads数除以该组的GC权重,从而得到GC校正后的unique reads数;三、利用线性回归方法进行GC校正:数据预处理后,利用最小二乘法估算出每条染色体的归一化unique reads数和GC与1/GC的回归方程,得到unique reads的估计值,利用窗内归一化的unique reads数除以其对应窗的估计值,从而实现对每条染色体的Unique reads数的GC校正。...

【技术特征摘要】
1.一种测序GC偏好性的校正方法,其特征在于,包括以下步骤:1)利用高通量测序平台对待测样品进行测序;2)将测序得到的碱基序列去除接头及低质量的碱基序列后与参考数据库的对照样本的参考基因组序列进行比对,统计每条染色体上的唯一比对到参考基因组的序列条数,即UniqueRead的条数,并计算每条染色体上UniqueRead的总量占总的UniqueReads的百分比,即URratio;3)测序GC偏好性校正:数据预处理,然后同时采用三套不同的校正策略进行GC矫正;其中,数据预处理包括:将整条染色体划分为100kb片段大小的窗,重叠区域为50kb,计算每个窗内各测序序列的GC含量,同时计算窗内的uniquereads数,忽略带有测序不确定的碱基N、uniquereads为0或者异常高的那些窗,然后,对窗内的uniquereads数进行归一化,即除以参考数据库的对照样本的对应窗内的uniquereads数;所述三套不同的校正策略包括:一、采用局部多项式加权回归方法进行GC校正:数据预处理后,利用窗内的uniquereads数与窗内的GC含量作局部多项式加权回归,再利用窗内归一化的uniquereads数除以局部多项式加权回归得到的估计值算出每个窗的uniquereads的数值,进而实现对每条染色体上的Uniquereads的GC校正;二、采用滚动中值方法进行GC校正:数据预处理后,对所有染色体内所有窗的GC含量进行排序,以0.1%GC值差异对所有窗进行分组,统计每个GC值组内的所有窗的Uniquereads数,计算其中位数作为该组测序序列的GC权重,再利用窗内归一化的uniquereads数除以该组的GC权重,从而得到GC校正后的uniquereads数;三、利用线性回归方法进行GC校正:数据预处理后,利用最小二乘法估算出每条染色体的归一化uniquereads数和GC与1/GC的回归方程,得到uniquereads的估计值,利用窗内归一化的uniquereads数除以其对应窗的估计值,从而实现对每条染色体的Uniquereads数的GC校正。2.一种测序GC偏好性的校正系统,其特征在于,包括:测序模块:用于利用高通量测序平台对待测样品进行测序;比对统计模块:用于将测序得到的碱基序列去除接头及低质量的碱基序列后与参考数据库的对照样本的参考基因组序列进行比对,统计每条染色体上的UniqueRead的条数,并计算每条染色体上UniqueRead的总量占总的UniqueReads的百分率URratio;矫正模块:用于测序GC偏好性校正;所述矫正模块包括数据预处理子模块和矫正子模块,其中,所述数据预处理子模块:用于将整条染色体划分为100kb片段大小的窗,重叠区域为50kb,计算每个窗内各测序序列的GC含量,同时计算窗内的uniquereads数,忽略带有测序不确定的碱基N、uniquereads为0或者异常高的那些窗,然后,对窗内的uniquereads数进行归一化,即除以参考数据库的对照样本的对应窗内的uniquereads数;所述矫正子模块用于同时采用三套不同的校正策略进行GC矫正,所述三套不同的校正策略包括:一、采用局部多项式加权回归方法进行GC校正:数据预处理后,利用窗内的uniquereads数与窗内的GC含量作局部多项式加权回归,再利用窗内归一化的uniquereads数除以局部多项式加权回归得到的估计值算出每个窗的uniquereads的数值,进而实现对每条染色体上的Uniquereads的GC校正;二、采用滚动中值方法进行GC校正:数据预处理后,对所有染色体内所有窗的GC含量进行排序,以0.1%GC值差异对所有窗进行分组,统计每个GC值组内的所有窗的Uniquereads数,计算其中位数作为该组测序序列的GC权重,再利用窗内归一化的uniquereads数除以该组的GC权重,从而得到GC校正后的uniquereads数;三、利用线性回归方法进行GC校正:数据预处理后,利用最小二乘法估算出每条染色体的归一化uniquereads数和GC与1/GC的回归方程,得到uniquereads的估计值,利用窗内归一化的uniquereads数除以其对应窗的估计值,从而实现对每条染色体的Uniquereads数的GC校正。3.一种胎儿DNA浓度预测模型的构建方法,其特征在于,包括以下步骤:1)选取一定数量核型分析无染色体异常且孕周大于等于12周的怀有正常男胎的孕妇样品、一定数量的健康男性和女性样本,对这些样本的血浆游离DNA样本进行基因测序,测序数据按照如权利要求1所述的校正方法消除染色体内和染色体间测序GC偏好性,对uniquereads数进行GC校正,然后计算这些样本的Y染色体的URratio,得到怀有正常男胎的孕妇样品的Y染色体的URratioR样品、女性样本的Y染色体的URratioRfemale、男性样本的Y染色体的URratioRmale;2)根据如下公式计算胎儿浓度:男胎胎儿DNA浓度=(R样品-Rfemale)/(Rmale-Rfemale),然后,计算所述怀有正常男胎的孕妇样品的测序序列的片段长度,并统计片段长度的分布情况,通过计算不同片段长度的百分比得到统计学参数片段长度百分比,将胎儿浓度与片段长度百分比做线性回归,构建线性回归模型,然后通过所述线性回归模型根据怀有女胎的孕妇样品的片段长度百分比预测女胎胎儿的DNA浓度。4.一种用于性染色体分析的预测模型的构建方法,其特征在于,包括以下步骤:1)选取一定数量核型分析无染色体异常且孕周大于等于12周的孕妇样品作为参考数据库的对照样品,其中,要求怀有男胎和女胎的孕妇样品数量无显著差异;另外选择相同数量的经核型分析验证的XO、XXX、XXY、XYY样品,该六类样品作为构建模型的测试集;2)对所述测试集的血浆中提取的DNA样本进行基因测序,测序数据按照如权利要求1的校正方法消除染色体内和染色体间测序GC偏好性,对uniquereads数进行GC校正,然后计算每条染色体URratio;同时按照如权利要求3所述的胎儿DNA浓度预测模型的构建方法构建预测模型,利用片段长度百分比计...

【专利技术属性】
技术研发人员:王少为徐寒黎王伟伟张静波刘斐然刘倩刘珂弟唐宇
申请(专利权)人:北京医院北京科迅生物技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1