确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质技术方案

技术编号:13007333 阅读:89 留言:0更新日期:2016-03-10 20:38
提供了确定样本基因组中是否存在拷贝数变异的方法和适于执行该方法的系统和计算机可读介质。其中,确定样本基因组中是否存在拷贝数变异的方法,包括步骤:对所述样本基因组进行测序,以便获得由多个测序序列构成的测序结果;将所述测序结果与参照基因组序列进行比对,以便确定所述测序序列在所述参照基因组序列上的分布;基于所述测序序列在参照基因组序列上的分布,在所述参照基因组序列上确定多个突破点,所述突破点两侧的测序序列数目存在显著差异;基于所述多个突破点,在所述参照基因组上确定检验窗口;基于落入所述检验窗口的测序序列,确定第一参数;以及基于所述第一参数与预定阈值的差异,确定所述样本基因组,针对所述检验窗口是否存在拷贝数变异。

【技术实现步骤摘要】
【国外来华专利技术】确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
本专利技术涉及确定样本基因组中是否存在拷贝数变异的方法和适于执行该方法的系统和计算机可读介质。
技术介绍
在科学研究及应用领域,时常遇到需要对单个细胞或几个细胞,或微量核酸样本进行分析的问题,比如在辅助生殖
的植入前诊断(PGD)和植入前筛查(PGS),涉及对单个生殖细胞或单个卵裂球细胞或胚胎细胞进行分析;无创产前诊断
,涉及通过母体外周血中微量的胎儿细胞进行检测的问题;在宏基因组学中,对环境中单个或微量的生物细胞进行分析;以及在疾病或生理研究中,涉及对组织或体液中单个细胞进行分析。然而,目前确定拷贝数变异的方法仍有待改进。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。根据本专利技术的一个方面,本专利技术提出了一种确定样本基因组中是否存在拷贝数变异的方法。根据本专利技术的实施例,该方法包括以下步骤:对所述样本基因组进行测序,以便获得由多个测序序列构成的测序结果;将所述测序结果与参照基因组序列进行比对,以便确定所述测序序列在所述参照基因组序列上的分布;基于所述测序序列在参照基因组序列上的分布,在所述参照基因组序列上确定多个突破点,所述突破点两侧的测序序列数目存在显著差异;基于所述多个突破点,在所述参照基因组上确定检验窗口;基于落入所述检验窗口的测序序列,确定第一参数;以及基于所述第一参数与预定阈值的差异,确定所述样本基因组,针对所述检验窗口是否存在拷贝数变异。利用根据本专利技术实施例的确定样本基因组中是否存在拷贝数变异的方法,能够有效地确定样本基因组中是否存在拷贝数变异,并且适用于各种拷贝数变异,包括但不限于染色体非整倍性、染色体片段缺失、染色体片段增加、微缺失、微重复。根据本专利技术的第二方面,本专利技术提出了一种确定样本基因组中是否存在拷贝数变异的系统。根据本专利技术的实施例,该系统包括:测序装置,所述测序装置用于对对所述样本基因组进行测序,以便获得由多个测序序列构成的测序结果;分析装置,所述分析装置与所述测序装置相连,以便基于所述测序结果确定所述基因组中是否存在拷贝数变异,所述分析装置进一步包括:比对单元,所述比对单元适于将所述测序结果与参照基因组序列进行比对,以便确定所述测序序列在所述参照基因组序列上的分布;突破点确定单元,所述突破点确定单元与所述比对单元相连,并且适于基于所述测序序列在参照基因组序列上的分布,在所述参照基因组序列上确定多个突破点,所述突破点两侧的测序序列数目存在显著差异;检验窗口确定单元,所述检验窗口确定单元与所述突破点确定单元相连,并且适于基于所述多个突破点,在所述参照基因组上确定检验窗口;参数确定单元,所述参数确定单元与所述检验窗口确定单元相连,并且适于基于落入所述检验窗口的测序序列,确定第一参数;以及判断单元,所述判断单元与所述参数确定单元相连,并且适于基于所述第一参数与预定阈值的差异,确定所述样本基因组,针对所述检验窗口是否存在拷贝数变异。利用根据本专利技术实施例的确定样本基因组中是否存在拷贝数变异的系统,能够有效地实施根据本专利技术实施例的确定样本基因组中是否存在拷贝数变异的方法,从而能够有效地确定样本基因组中是否存在拷贝数变异,并且适用于各种拷贝数变异,包括但不限于染色体非整倍性、染色体片段缺失、染色体片段增加、微缺失、微重复。根据本专利技术的第三方面,本专利技术提出了一种计算机可读介质。根据本专利技术的实施例,该计算机可读介质上存储有指令,所述指令适于被处理器执行以便通过下列步骤确定样本基因组中是否存在拷贝数变异:将测序结果与参照基因组序列进行比对,以便确定所述测序序列在所述参照基因组序列上的分布,其中所述测序结果是由通过对所述样本基因组进行测序所获得的多个测序序列构成的;基于所述测序序列在参照基因组序列上的分布,在所述参照基因组序列上确定多个突破点,所述突破点两侧的测序序列数目存在显著差异;基于所述多个突破点,在所述参照基因组上确定检验窗口;基于落入所述检验窗口的测序序列,确定第一参数;以及基于所述第一参数与预定阈值的差异,确定所述样本基因组,针对所述检验窗口是否存在拷贝数变异。借助该计算机可读介质,能够有效地实施根据本专利技术实施例的确定样本基因组中是否存在拷贝数变异的方法,从而能够有效地确定样本基因组中是否存在拷贝数变异,并且适用于各种拷贝数变异,包括但不限于染色体非整倍性、染色体片段缺失、染色体片段增加、微缺失、微重复。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1显示了根据本专利技术一个实施例的确定样本基因组中是否存在拷贝数变异的方法的流程示意图;图2显示了根据本专利技术一个实施例的确定样本基因组中是否存在拷贝数变异的系统的结构示意图;图3显示了根据本专利技术又一个实施例的确定样本基因组中是否存在拷贝数变异的方法的流程示意图;图4显示了根据本专利技术的实施例,样品S1的染色体数字核型图。左图为胚胎单细胞经全基因组扩增后用本专利技术进行拷贝数变异检测的结果,右图为相同的胚胎提取DNA后直接测序(未经WGA)的结果;以及图5显示了根据本专利技术的实施例,样品S2染色体数字核型图。左图为胚胎单细胞经全基因组扩增后用本专利技术进行拷贝数变异检测的结果,右图为相同的胚胎提取DNA后直接测序(未经WGA)的结果。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。如果没有明确说明,在本文的公式或标识中,相同的字母代表相同的含义。一、确定样本基因组中是否存在拷贝数变异的方法根据本专利技术的一个方面,本专利技术提出了一种确定样本基因组中是否存在拷贝数变异的方法。在本专利技术中所使用的术语“拷贝数变异(copynumbervariation,CNV)”的含义是染色体或染色体片段拷贝数的异常,包括但不限于染色体非整倍性、染色体片段缺失、染色体片段增加、微缺失、微重复。参考图1,根据本专利技术实施例的确定样本基因组中是否存在拷贝数变异的方法包括:S100:对样本基因组进行测序,以便获得由多个测序序列构成的测序结果根据本专利技术的实施例,本专利技术的方法可以采用的样本基因组的类型并不受特别限制,既可以是全基因组,也可以是基因组的一部分,例如可以是染色体或其片段。另外,根据本专利技术的实施例,在对样本基因组进行测序之前,进一步包括从生物样本中提取样本基因组的步骤。由此,能够直接以生物样本作为原材料,获得关于该生物样本是否具有拷贝数变异的信息,从而反映生物体的健康状态。根据本专利技术的实施例,可以采用的生物样本并不受特别限制。根据本专利技术的一些具体示例,可以采用的生物样本为选自血液、尿液、唾本文档来自技高网...
确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质

【技术保护点】
PCT国内申请,权利要求书已公开。

【技术特征摘要】
【国外来华专利技术】1.一种确定样本基因组中是否存在拷贝数变异的方法,所述方法用于非诊断目的,其特征在于,包括以下步骤:对所述样本基因组进行测序,以便获得由多个测序序列构成的测序结果;在参考基因组序列上划分多个预定长度的一级窗口,将所述测序结果与参照基因组序列进行比对,以便确定落入各一级窗口中的测序序列;基于所述落入各一级窗口中的测序序列,在所述参照基因组序列上确定多个突破点,所述突破点两侧的测序序列数目存在显著差异;基于所述多个突破点,在所述参照基因组上确定检验窗口;基于落入所述检验窗口的测序序列,确定第一参数;以及基于所述第一参数与预定阈值的差异,确定所述样本基因组,针对所述检验窗口是否存在拷贝数变异,其中,基于所述多个突破点,在所述参照基因组上确定检验窗口进一步包括:1)确定多个候选突破点,其中在所述候选突破点的前后均存在其他突破点;2)确定每个候选突破点的p值,并剔除p值最大的候选突破点;3)对剩余的候选突破点重复步骤2),直到剩余候选突破点的p值均小于终止p值,所述剩余候选突破点作为经过筛选的候选突破点;以及4)确定相邻两个经过筛选的候选突破点之间的区域为检验窗口,其中,通过下列步骤确定所述候选突破点的p值:将所述候选突破点与相邻的上一个突破点之间的区域作为第一候选区域,将所述候选突破点与相邻的下一个突破点之间的区域作为第二候选区域;对所述第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目Zi进行游程检验,以便确定所述候选突破点的p值,其中,针对所述候选突变点,在所述候选突变点两侧各取相同数目的一级窗口,并且计算每个一级窗口的相对测序序列数目Ri,其中i表示一级窗口的编号,其中,所述相对测序序列数目Ri是通过下列公式确定的:其中ri表示落入第i一级窗口的测序序列数目,n表示一级窗口的总数目;所述终止p值是通过下列步骤确定的:利用对照样品的测序结果,重复在参照基因组上确定检验窗口的操作,并记录每次被剔除候选突破点的p值,直到候选突破点的数目为零;以及基于被剔除候选突破点的p值分布,确定所述终止p值。2.根据权利要求1所述的方法,其特征在于,进一步包括从生物样本中提取样本基因组的步骤。3.根据权利要求2所述的方法,其特征在于,所述生物样本为孕妇样本或胎儿样本。4.根据权利要求3所述的方法,其特征在于,所述生物样本为选自孕妇血浆、绒毛膜绒毛、羊水、脐带血、胎盘和胎儿足跟血的至少一种。5.根据权利要求2所述的方法,其特征在于,所述生物样本为选自血液、尿液、唾液、组织、生殖细胞、受精卵、卵裂球和胚胎的至少一种。6.根据权利要求5所述的方法,其特征在于,所述生物样本为单细胞。7.根据权利要求1所述的方法,其特征在于,对所述样本基因组进行测序进一步包括:对所述样本基因组进行扩增;利用所述经过扩增的样本基因组构建测序文库;以及对所述测序文库进行测序。8.根据权利要求6所述的方法,其特征在于,进一步包括对所述单细胞进行裂解,以便释放所述单细胞的全基因组的步骤。9.根据权利要求8所述的方法,其特征在于,利用碱性裂解液对所述单细胞进行裂解,以便释放所述单细胞的全基因组。10.根据权利要求9所述的方法,其特征在于,利用基于PCR的全基因组扩增方法对所述全基因组进行扩增。11.根据权利要求10所述的方法,其特征在于,所述基于PCR的全基因组扩增方法为OmniPlexWGA方法。12.根据权利要求7所述的方法,其特征在于,利用选自Hiseq系统、Miseq系统、GenomeAnalyzer(GA)系统、454FLX、SOLiD系统、IonTorrent系统和单分子测序装置的至少一种对所述测序文库进行测序。13.根据权利要求1所述的方法,其特征在于,所述拷贝数变异为选自染色体非整倍性、染色体片段缺失、染色体片段增加、染色体微缺失、染色体微重复的至少一种。14.根据权利要求1所述的方法,其特征在于,在所述参照基因组上确定突破点进一步包括:针对参考基因组序列上的至少一个位点,确定落入所述位点两侧相同数目一级窗口中的测序序列数目;确定所述位点的p值,所述p值表示两侧测序数据数目的显著差异性;以及如果所述位点的p值小于终止p值,判断所述位点为突破点。15.根据权利要求14所述的方法,其特征在于,所述落入各一级窗口中的测序序列为唯一比对测序序列。16.根据权利要求14所述的方法,其特征在于,在所述位点两侧各取100个一级窗口。17.根据权利要求14所述的方法,其特征在于,所述一级窗口的长度均为100-200Kbp。18.根据权利要求17所述的方法,其特征在于,所述一级窗口的长度均为150Kbp。19.根据权利要求14所述的方法,其特征在于,所述终止p值为至多1.1×10-50。20.根据权利要求19所述的方法,其特征在于,对所有一级窗口的相对测序序列数目进行游程检验进一步包括:对每个一级窗口的相对测序序列数目Ri进行GC含量校正,以便获得校正的相对测序序列数目基于所述校正的相对测序序列数目,确定每个一级窗口的标准化的测序序列数目Zi;以及对所有一级窗口的标准化的测序序列数目Zi进行游程检验。21.根据权利要求20所述的方法,其特征在于,所述校正的相对测序序列数目是通过下列步骤获得的:计算每个一级窗口的GC含量;将GC含量以0.001为单位划分为多个区域,并且统计每个区域中相对测序序列数目的平均值Ms,其中s为GC区域的编号;根据下列公式确定所述校正的相对测序序列数目所述标准化的测序序列数目Zi是通过下列公式确定的其中,22.根据权利要求21所述的方法,其特征在于,所述终止p值为1.1×10-50。23.根据权利要求22所述的方法,其特征在于,基于落入所述检验窗口的测序序列,确定第一参数进一步包括:确定所述检验窗口中所包含的所有一级窗口的平均标准化的测...

【专利技术属性】
技术研发人员:殷旭阳张春雷陈盛培张春生潘小瑜蒋慧张秀清
申请(专利权)人:深圳华大基因医学有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1