当前位置: 首页 > 专利查询>清华大学专利>正文

使用片段化模式确定血浆游离核酸分子组织来源的方法和系统及应用技术方案

技术编号:21275532 阅读:49 留言:0更新日期:2019-06-06 09:07
本发明专利技术提供了一种使用片段化模式确定血浆游离核酸分子组织来源的方法和系统及应用。该方法通过将核酸分子的测序结果与多个参考序列进行比对处理,分别确定与所述参考序列对应的已知基因的频谱参数;然后基于预定组织中多个已知基因的表达量信息,以及多个已知基因的所述频谱参数,确定所述核酸分子与所述预定组织的相关性;其中,所述频谱参数是通过确定参考序列上位点的核小体保护分数,确定多个核小体周期作为第一参数以及与所述多个核小体周期对应的傅里叶强度作为第二参数,从而确定所述参考序列对应所述已知基因的所述频谱参数。将本发明专利技术所提供的方法应用于癌症的检测中,能够更加灵敏和准确。

【技术实现步骤摘要】
使用片段化模式确定血浆游离核酸分子组织来源的方法和系统及应用
本专利技术涉及生物信息领域,具体涉及一种使用片段化模式确定血浆游离核酸分子组织来源的方法和系统及应用。
技术介绍
癌症,即恶性肿瘤和血液癌症的统称,是细胞发生不可控增殖、且伴随转移的恶性疾病。癌症的发病率居高不下,晚期癌症的生存率较低,使得癌症的早发现、早诊断、早治疗尤为重要。液体活检技术,不同于术中取固体肿瘤组织进行化验检测,是通过抽血即可安全、便捷、准确地检测癌症的一种方法。其主要原理为:血浆游离DNA(cfDNA)来源于人体各组织器官凋亡后释放的片段化基因组。当癌症发生时,cfDNA中即含有癌细胞的基因组片段。另外,cfDNA的半衰期约为十几分钟到几个小时,这使得抽血监测癌症成为可能。但抽血进行癌症监测,预测组织病变的准确性还需要进一步提高。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种确定核酸分子与预定组织相关性的方法以及确定核酸分子与预定组织相关的系统、确定血浆游离核酸组织来源的方法。本专利技术是基于如下发现所获得的:细胞凋亡时的基因组片段化模式一般被认为与其染色质结构有关。片段化模式,顾名思义,是指细胞内的核酸酶将DNA打断为长度不一的片段时产生的片段端点模式。染色质排列开放的基因组区域比紧密的区域更易结合核酸酶从而被打断;不结合任何蛋白质的裸露DNA更容易被核酸酶打断,而被核小体、转录因子等保护的区域更不容易被打断。因此,由基因组的片段化模式可以推得各基因区域的核小体排布。核小体在基因组上的排布具有极强的周期性,根据现有MNase-seq的研究,相邻核小体的间距约为185bp,包含约145bp的核心缠绕区域和约40bp的连接区域。利用公共数据集中各组织细胞的基因表达数据可推得基因启动子区域的核小体排布。具体来说,基因表达越高,其启动子区域的核小体排布约紧密,反之,基因表达越低,其启动子区域的核小体排布约松散。利用cfDNA的片段化模式筛查癌症。目前在癌症液体活检领域中,多数研究关注cfDNA中的癌症特异突变、拷贝数变异和甲基化模式,2015年以来,开始涌现利用cfDNA片段化模式检测癌症的研究方法。因为不同组织细胞的染色质结构不同,在发生凋亡时基因组的片段化模式不同,所以我们通过检测cfDNA中的片段化模式推得混合核小体排布,结合公共数据集中各组织细胞的基因表达数据推得的核小体排布,可解耦出cfDNA的组织来源分布,从而对受试者是否含有癌组织进行筛查。为此,本专利技术提供了如下技术方案:根据本专利技术的第一方面,本专利技术提供了一种确定核酸分子与预定组织相关性的方法,包括:将所述核酸分子的测序结果与多个参考序列进行比对处理,其中,所述测序结果由多个测序读段构成,所述多个参考序列的每一个分别是基于多个已知基因之一的序列确定的;基于所述比对处理的结果,针对所述多个参考序列的每一个,分别确定与所述参考序列对应的所述已知基因的频谱参数;基于所述预定组织中多个所述已知基因的表达量信息,以及多个所述已知基因的所述频谱参数,确定所述核酸分子与所述预定组织的相关性;其中,所述频谱参数是针对所述参考序列的每一个,分别通过下列步骤确定的:针对所述参考序列的至少一部分位点,分别确定每个位点的核小体保护分数;基于所述每个位点的核小体保护分数,确定第一参数和第二参数,所述第一参数表征多个核小体周期,所述第二参数表征分别与所述多个核小体周期对应的傅里叶强度;基于所述第一参数和所述第二参数,确定所述参考序列对应所述已知基因的所述频谱参数。通过本专利技术提供的确定核酸分子与预定组织相关性的方法,能够判断核酸分子与预定组织的相关性。通过研究不同个体中相同核酸分子与预定组织的相关性,能够判断不同的状态。例如,能够用于人群的癌症早期筛查,还可用于癌症病人的复发风险预测与监控,干预癌症病人的诊疗。而且不仅可以用于检测多种癌症,可检测的癌症类型取决于搜集到哪些组织的表达谱数据。根据本专利技术的实施例,以上所述确定核酸分子与预定组织相关性的方法可以进一步包括如下技术特征:在本专利技术的一些实施例中,所述核酸分子为血浆游离核酸分子。在本专利技术的一些实施例中,所述参考序列长度为5000~11000bp。参考序列的长度应大于25个核小体周期,长度过短会造成第二参数估计不准确,而参考序列过长则会引入与基因表达不相关的区域,从而降低方法的准确性。在本专利技术的一些实施例中,所述参考序列包括所述已知基因的序列。在本专利技术的一些实施例中,所述参考序列是基于所述已知基因的转录起始位点确定的。基因的转录起始位点附近富含启动子和转录因子结合位点,其核小体特征与基因的表达量密切相关,因此选取转录起始位点附近区域作为参考序列有利于确定核酸分子与预定组织的相关性。在本专利技术的一些实施例中,所述测序是通过高通量测序进行的。在本专利技术的一些实施例中,所述已知基因包括Ensembl第75版中GRCh37的所有基因。在本专利技术的一些实施例中,针对每个位点,所述核小体保护分数是通过下列步骤确定的:(1)基于所述位点,确定比对窗口,所述比对窗口含有所述位点;(2)确定与所述比对窗口匹配的所述测序读段;(3)将所述测序读段区分为第一类型测序读段和第二类型测序读段,所述第一类型测序读段完全覆盖所述比对窗口,所述第二类型测序读段不完全覆盖所述比对窗口;(4)基于所述第一类型测序读段的数目和所述第二类型测序读段的数目,确定所述核小体保护分数。在本专利技术的一些实施例中,所述比对窗口长度为100~140。窗口大小应与核小体核心组蛋白结合DNA的长度一致,一般选择为120bp,过短会将转录因子的保护位点误认为是核小体保护位点,过长则会丢失部分排布紧密的核小体位点。在本专利技术的一些实施例中,所述位点位于所述比对窗口的中部。在本专利技术的一些实施例中,在步骤(4)中,所述核小体保护分数与所述第一类型测序读段的数目呈正相关,与所述第二类型测序读段的数目呈负相关。在本专利技术的一些实施例中,在步骤(4)中,所述核小体保护分数是通过公式第一类型测序读段的数目-所述第二类型测序读段确定的。在本专利技术的一些实施例中,基于所述参考序列的位点信息以及所述位点信息对应的核小体保护分数,确定所述参考序列对应的多个核小体周期作为第一参数,以及所述多个核小体周期对应的傅里叶强度作为第二参数。在本专利技术的一些实施例中,所述第一参数和第二参数是通过傅里叶变换确定的。在本专利技术的一些实施例中,所述第一参数和第二参数是通过下列步骤确定的:(a)基于所述参考序列的位点信息以及所述位点信息对应的核小体保护分数进行平滑矫正后作图得到第一图,其中,x轴为位点与基因转录起始位点的距离,y轴为矫正后的核小体保护分数;(b)将步骤步骤(a)中得到的所述第一图进行傅里叶变换,得到第二图,所述第二图的x轴为核小体周期,y轴为与核小体周期对应的傅里叶强度。在本专利技术的一些实施例中,所述频谱参数是基于下列公式确定的:其中,T代表核小体周期,F(T)代表核小体周期T对应的傅里叶强度,a代表核小体周期的下限,b代表核小体周期的上限。在本专利技术的一些实施例中,a=168,b=208。该区间是通过最大化健康人核酸分子与血液组织的相关性得到的,代表着与基因表达最相关的核小体周期范围,本文档来自技高网...

【技术保护点】
1.一种确定核酸分子与预定组织相关性的方法,其特征在于,包括:将所述核酸分子的测序结果与多个参考序列进行比对处理,其中,所述测序结果由多个测序读段构成,所述多个参考序列的每一个分别是基于多个已知基因之一的序列确定的;基于所述比对处理的结果,针对所述多个参考序列的每一个,分别确定与所述参考序列对应的所述已知基因的频谱参数;基于所述预定组织中多个所述已知基因的表达量信息,以及多个所述已知基因的所述频谱参数,确定所述核酸分子与所述预定组织的相关性;其中,所述频谱参数是针对所述参考序列的每一个,分别通过下列步骤确定的:针对所述参考序列的至少一部分位点,分别确定每个位点的核小体保护分数;基于所述每个位点的核小体保护分数,确定第一参数和第二参数,所述第一参数表征多个相邻核小体的间距,即多个核小体周期,所述第二参数表征分别与所述多个核小体周期对应的傅里叶强度;基于所述第一参数和所述第二参数,确定所述参考序列对应所述已知基因的所述频谱参数。

【技术特征摘要】
1.一种确定核酸分子与预定组织相关性的方法,其特征在于,包括:将所述核酸分子的测序结果与多个参考序列进行比对处理,其中,所述测序结果由多个测序读段构成,所述多个参考序列的每一个分别是基于多个已知基因之一的序列确定的;基于所述比对处理的结果,针对所述多个参考序列的每一个,分别确定与所述参考序列对应的所述已知基因的频谱参数;基于所述预定组织中多个所述已知基因的表达量信息,以及多个所述已知基因的所述频谱参数,确定所述核酸分子与所述预定组织的相关性;其中,所述频谱参数是针对所述参考序列的每一个,分别通过下列步骤确定的:针对所述参考序列的至少一部分位点,分别确定每个位点的核小体保护分数;基于所述每个位点的核小体保护分数,确定第一参数和第二参数,所述第一参数表征多个相邻核小体的间距,即多个核小体周期,所述第二参数表征分别与所述多个核小体周期对应的傅里叶强度;基于所述第一参数和所述第二参数,确定所述参考序列对应所述已知基因的所述频谱参数。2.根据权利要求1所述的方法,其特征在于,所述核酸分子为游离于细胞外的核酸分子;任选地,所述参考序列长度为5000~11000bp;任选地,所述参考序列包括所述已知基因的序列;任选地,所述参考序列是基于所述已知基因的转录起始位点确定的;任选地,所述测序是通过高通量测序进行的;任选地,所述已知基因包括Ensembl第75版中GRCh37的所有基因。3.根据权利要求1所述的方法,其特征在于,针对每个位点,所述核小体保护分数是通过下列步骤确定的:(1)基于所述位点,确定比对窗口,所述比对窗口含有所述位点;(2)确定与所述比对窗口匹配的所述测序读段;(3)将所述测序读段区分为第一类型测序读段和第二类型测序读段,所述第一类型测序读段完全覆盖所述比对窗口,所述第二类型测序读段不完全覆盖所述比对窗口;(4)基于所述第一类型测序读段的数目和所述第二类型测序读段的数目,确定所述核小体保护分数;任选地,所述比对窗口长度为100~140bp;任选地,所述位点位于所述比对窗口的中部;任选地,在步骤(4)中,所述核小体保护分数与所述第一类型测序读段的数目呈正相关,与所述第二类型测序读段的数目呈负相关;任选地,在步骤(4)中,所述核小体保护分数是通过公式第一类型测序读段的数目-所述第二类型测序读段的数目确定的;任选地,基于所述参考序列的位点信息以及所述位点信息对应的核小体保护分数,确定所述参考序列对应的多个核小体周期作为第一参数,以及所述多个核小体周期对应的傅里叶强度作为第二参数。4.根据权利要求1所述的方法,其特征在于,所述第一参数和第二参数是通过傅里叶变换确定的;任选地,所述第一参数和第二参数是通过下列步骤确定的:(a)基于所述参考序列的位点信息以及所述位点信息对应的核小体保护分数进行平滑矫正后作图得到第一图,其中,x轴为位点与基因转录起始位点的距离,y轴为矫正后的核小体保护分数;(b)将步骤(a)中得到的所述第一图进行傅里叶变换,得到第二图,所述第二图的x轴为核小体周期,y轴为与核小体周期对应的傅里叶强度;任选地,所述频谱参数是基于下列公式确定的:其中,T代表核小体周期,F(T)代表核小体周期T对应的傅里叶强度,a代表核小体周期的下限,b代表核小体周期的上限;任选地,a=168,b=208;任选地,在确定参数a、b后,所述频谱参数仅与所述第一、第二参数有关。5.根据权利要求1所述的方法,其特征在于,所述相关性是通过下列公式确定的:其中,ρi代表所述核酸分子与预定组织i的皮尔逊相关系数,代表所述核酸分子在多个已知基因的所述频谱参数,Ai代表预定组织i在所述多个已知基因的表达量,Var代表方差,Cov代表协方差;任选地,所述预定组织选自:肝、胆、脾、肺、肾、膀胱、食管、胃、小肠、结肠、直肠、十二指肠、阑尾、胰岛、唾液腺、扁桃体、甲状腺、甲状旁腺、肾上腺、乳腺、卵巢、输卵管、子宫、子宫内膜、宫颈、前列腺、包皮、睾丸、附睾、精囊、皮肤、脂肪组织、大脑皮层、眼、心肌、骨骼肌、平滑肌、淋巴结、血液、骨髓中的至少一种组织。6.一种确定核酸分子与预定组织相关性的系统,其特征在于,包括:比对装置,所述比对装置用于将所述核酸分子的测序结果与多个参考序列进行比对处理,其中,所述测序...

【专利技术属性】
技术研发人员:汪小我方欢徐江平
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1