消除常染色体内和染色体间GC偏好的方法及检测系统技术方案

技术编号:13463010 阅读:802 留言:0更新日期:2016-08-04 15:48
本发明专利技术公开了一种消除常染色体内和染色体间GC偏好的方法及检测系统,该检测系统包括:(1)用于通过高通量测序获得样本全基因组序列的高通量测序仪;(2)用于执行以下步骤的多条指令的计算机可读介质,包括:a、用于构建一种消除GC偏差的系统,b、用于构建另一种消除GC偏差的系统,c、用于构建检测样本中非整倍体与正常样本的检测系统。最终根据两种不同矫正获得的Z值判断是否为非整倍体。采用本发明专利技术的检测系统,去除GC偏差,在避免数据的失真的同时还获得更高敏感性的胎儿遗传异常检测。本发明专利技术的检测系统根据GC含量定义用于统计检验的参数。另外,通过Z值统计的方法根据大批量的数据得出统计意义上的参数,从而得到更高的精确度。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种消除常染色体内和染色体间GC偏好的方法及检测系统,该检测系统包括:(1)用于通过高通量测序获得样本全基因组序列的高通量测序仪;(2)用于执行以下步骤的多条指令的计算机可读介质,包括:a、用于构建一种消除GC偏差的系统,b、用于构建另一种消除GC偏差的系统,c、用于构建检测样本中非整倍体与正常样本的检测系统。最终根据两种不同矫正获得的Z值判断是否为非整倍体。采用本专利技术的检测系统,去除GC偏差,在避免数据的失真的同时还获得更高敏感性的胎儿遗传异常检测。本专利技术的检测系统根据GC含量定义用于统计检验的参数。另外,通过Z值统计的方法根据大批量的数据得出统计意义上的参数,从而得到更高的精确度。【专利说明】消除常染色体内和染色体间GC偏好的方法及检测系统
本专利技术涉及生物检测领域,具体涉及一种消除常染色体内和染色体间GC偏好的 方法及检测系统。
技术介绍
染色体非整倍体病变是胎儿最常见的染色体崎形,依据染色体类别不同可分为常 染色体非整倍体和性染色体非整倍体。常染色体非整倍体包括21-Η体(唐氏综合症)、 18-Η体(爱德华氏综合症)和13-Η体(帕陶氏综合征),其中W 21-Η体最常见,发病率 约为1/800。性染色体非整倍体主要包括Klinefelter综合症(47,ΧΧΥ)、ΧΧΥ综合症、特纳 氏综合症(45,讶和超雌综合征(47, XX讶,男性发病率约为1/500,女性发病率约为1/850。 对胎儿染色体非整倍体病变的产前诊断是降低出生缺陷、提高出生人口素质的重要手段。 目前,染色体异常的产前诊断技术是通过侵入性方式获取胎儿组织,如羊膜腔穿 刺、绒毛活检、厮静脉穿刺等,进行FISH(英光现场合成)分析或者染色体核型分析。送些 技术均为有创性的,可能引起流产、胎儿损伤、出血、感染等。因此,开发一种准确且灵敏度 高的无创产前检测方法。是一项迫切且意义深远的工作。 作为一项应用于临床检测的基因组新技术,无创产前DNA检测,主要是通过孕期 母体的外周血,对其中的游离DNA (含有胎儿来源的DNA)进行测序,来判断胎儿是否患有某 些遗传病,如21-H体综合征、18 Η体综合征W及13-Η体综合征。无创产前检测的英文是 Non-invasive Prenatal Testing,取几个英文单词的首字母,简称NIPT。 过去数十年,在母体血液中发现胎儿细胞和无细胞胎儿核酸W及对母体血浆无细 胞DNA应用高通量测序和鸟枪测序,如下是可行的:检测母体血浆样品中由非整倍体胎儿 造成的染色体呈现的小变化。无创检测13-Η体、18-Η体和21-Η体妊娠已经实现。 但是,如一些研究显示的,通过扩增和测序引入的GC偏差对非整倍体性检测的敏 感性产生了操作限制。在不同条件例如试剂组成、簇密度和温度下,GC偏差可能在样品制 备和测序过程中引入,送造成对不同GC组成的DNA分子的差异取样和富含GC或少含GC的 染色体的测序数据的显著偏差。 为了提高敏感性,已经开发了用于去除GC偏差效应的方法。Fan and如ake开发 了一种通过计算去除GC偏差的方法,该方法通过基于局部基因组GC含量对每个GC密度给 予权重W计算去除GC偏差,从而通过乘W相应权重改善映射到每一区段化in)中的读段 (read)数目。然而,该方法在处理性染色体病症特别是Y染色体相关病症方面有困难,原因 是该方法可能造成数据轻微失真,送会干扰检测的准确性。
技术实现思路
在下文中给出关于本专利技术的简要概述,W便提供关于本专利技术的某些方面的基本理 解。应当理解,送个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关 键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是W简化的形式给出某些概念, w此作为稍后论述的更详细描述的前序。 本专利技术实施例的目的是针对上述现有技术的缺陷,提供一种检测精确度高的消除 常染色体内和染色体间GC偏好的方法及检测系统。 为了实现上述目的,本专利技术采取的技术方案是: 本专利技术提供一种消除常染色体内和染色体间GC偏差的方法,包含W下步骤: 1)通过高通量测序获得样本全基因组序列;[001引。将测序得到的序列与人类基因组hgl9进行比对;比对结果去除比对到重复序 列和比对到多个位置上的序列,去除非完全比对的序列; 3)统计化ique Reads (唯一匹配的reads)数量,计算每条染色体比对上的化ique Reads数量,计算每条染色体的化ique reads数占该样本1-22号染色体的总数的百分比; 4)根据GC偏好性优化1-22号染色体的化ique Reads数;对步骤3中的化ique Reads进行排序,按照比对上染色体的位置进行排序,对排序后的reads根据50化大小的非 重叠区域进行分组; 5)对步骤4中分组后的reads统计每组的reads数,并给每组进行编号; 6)计算步骤5中每组长度的参考序列的碱基GC百分比;[001引 7)将步骤5、6中算出的每组reads根据GC百分比进行归类、W 0. 1%作为单位; 每0. 1 %划分为一组;去掉reads数为0的区域、gc含量为0的区域、reads数大于10000 的区域;并统计每组中有多少个50化分组及每50化分组的reads数; 8)将步骤7中根据GC分组的数据对每组求其平均值Mi。求所有GC分组中每个 50化组的平均reads数嚴; 9)根据步骤8中的数据求每个GC分组的权重; 10)根据步骤9中得到的权重计算每组的reads数;加权的reads数定义为每个 区域分得的权重与该区域原来统计的reads数的乘积;[002引 11)将步骤10中得到的reads数记为Nk,其中k为每条染色体的第k个位置; 12)每个样本所有常染色体的reads数均值为衣,即Nk的均值; 蝴对染色体间进行标准化纖/茨;14)所有样本的每条染色体的reads数均值为 15)根据步骤11、12、13、14对所有样本进行标准化 16)根据步骤15得到数据,重新计算每条染色体的reads数; 17)计算每条染色体的reads数占该样本所有常染色体reads数的百分比, 对每一个样本进行步骤16的操作。 本专利技术又提供一种消除常染色体内和染色体间GC偏差的方法,包括W下步骤: 通过高通量测序获得样本全基因组序列; 将测序得到的序列与人类基因组标准序列hgl9进行比对,比对的结果去除 化plicate,选出唯一匹配的读段,重复序列不用于下游的分析; 将步骤2结果进行统计;分多个非重叠区域区域,每个区域选定长度为50化,进而 统计区域内的读段数扣时,统计对应区域的读段的GC含量(GCbin%); 将统计的GC含量和reads数进行拟合回归矫正,获得回归值;URloess = f(GCbin); 根据步骤3中的UR和步骤4中的回归值URloess进行W下计算;URcorrect ion = UR-〇JRloess-URmean); 根据回归校正值统计对应区域染色体的读段数(CR),统计对应染色体的GC含量 佑抗虹%); 进行样本内和样本间的标准化,根据均值标准化;rabmean = (1/脚ΣΝ6 im,b。 邸imean = (1/脚 ΣΜ C化,j ; 其中i代表样本数本文档来自技高网
...

【技术保护点】
一种消除常染色体内和染色体间GC偏差的方法,包含以下步骤:1)通过高通量测序获得样本全基因组序列;2)将测序得到的序列与人类基因组hg19进行比对;比对结果去除比对到重复序列和比对到多个位置上的序列,去除非完全比对的序列;3)统计Unique Reads(唯一匹配的reads)数量,计算每条染色体比对上的Unique Reads数量,计算每条染色体的Unique reads数占该样本1‑22号染色体的总数的百分比;4)根据GC偏好性优化1‑22号染色体的Unique Reads数:对步骤3中的Unique Reads进行排序,按照比对上染色体的位置进行排序,对排序后的reads根据50kb大小的非重叠区域进行分组;5)对步骤4中分组后的reads统计每组的reads数,并给每组进行编号;6)计算步骤5中每组长度的参考序列的碱基GC百分比;7)将步骤5、6中算出的每组reads根据GC百分比进行归类、以0.1%作为单位;每0.1%划分为一组;去掉reads数为0的区域、gc含量为0的区域、reads数大于10000的区域;并统计每组中有多少个50kb分组及每50kb分组的reads数;8)将步骤7中根据GC分组的数据对每组求其平均值Mi。求所有GC分组中每个50kb组的平均reads数9)根据步骤8中的数据求每个GC分组的权重10)根据步骤9中得到的权重计算每组的reads数;加权的reads数定义为每个区域分得的权重与该区域原来统计的reads数的乘积;11)将步骤10中得到的reads数记为Nk,其中k为每条染色体的第k个位置;12)每个样本所有常染色体的reads数均值为即Nk的均值;13)对染色体间进行标准化14)所有样本的每条染色体的reads数均值为15)根据步骤11、12、13、14对所有样本进行标准化16)根据步骤15得到数据,重新计算每条染色体的reads数;17)计算每条染色体的reads数占该样本所有常染色体reads数的百分比,对每一个样本进行步骤16的操作。...

【技术特征摘要】

【专利技术属性】
技术研发人员:牟晓威陈帼婧屠勇军陈贤丰
申请(专利权)人:北京圣庭生物技术有限公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1