通过测序进行核型分析的系统和方法技术方案

技术编号:32204958 阅读:16 留言:0更新日期:2022-02-09 17:10
本公开涉及用于使用染色体构象捕获数据鉴别受试者中的染色体结构变异、将所述染色体结构变异与疾病或病症相关联的方法和系统,以及治疗所述疾病或病症的方法。及治疗所述疾病或病症的方法。及治疗所述疾病或病症的方法。

【技术实现步骤摘要】
【国外来华专利技术】通过测序进行核型分析的系统和方法


技术介绍

[0001]数十年来,临床医生使用遗传测试来鉴别造成孟德尔病(Mendelian disease)、癌症、自闭症和其它人类疾病的染色体结构变异或基因组异常。类似的测试也用于农业、兽医、研究和其它目的。鉴别大规模结构变异(SV)的最常见测试是核型分析,由此浓缩中期染色体并使用各种染色和显微镜技术进行目视检查。。可确认特定基因座处的基因组重排的第二相关技术是荧光原位杂交(FISH)。核型分析和FISH都是劳动密集、耗时的,并且需要高度专业化的训练,从而限制了这些方法的处理量和效率。此外,核型分析方法受到其分辨率和获得活跃分裂细胞的需要的限制,这在临床环境中对于液体癌症(例如血液和淋巴癌)来说可能是困难的。因此,需要准确且快速地鉴别染色体结构变异的额外方法。

技术实现思路

[0002]本文提供了在任何生物体、组织或细胞类型中使用染色体构象捕获技术鉴别染色体结构变异的系统和方法。在本公开的系统和方法的一些实施例中,染色体结构变异是本领域已知和描述的。在一些替代实施例中,染色体结构变异是新颖的。本公开进一步提供用于将染色体结构变异与生物信息,如相关疾病或病症、基因表达和推荐治疗相关联,且使用此信息治疗受试者的疾病或病症的系统和方法。
[0003]因此,本公开提供治疗具有染色体结构变异的受试者的方法,其包含:(a)接收来自受试者的样品的测试读段集;(b)将来自所述受试者的所述测试读段集与参考基因组进行比对,以产生来自所述受试者的映射读段集;(c)训练机器学习模型以区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集;(d)在训练所述机器学习模型之后,将所述机器学习模型应用于来自所述受试者的所述映射读段集;(e)基于将所述机器学习模型应用于来自所述受试者的所述映射读段集来计算所述受试者具有已知染色体结构变异的似然度;和(f)基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型;其中所述测试读段集、所述来自健康受试者的读段集和所述对应于已知染色体结构变异的读段集通过染色体构象分析技术生成。在一些实施例中,方法包含从测试读段集、来自健康受试者的读段集和对应于已知染色体结构变异的读段集生成几何数据结构。
[0004]在本公开的方法的一些实施例中,方法包含(a)接收来自受试者的样品的测试读段集;(b)将来自所述受试者的所述测试读段集与参考基因组进行比对,以产生来自所述受试者的映射读段集;(c)从所述映射读段集生成几何数据结构;(d)训练机器学习模型以区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集的几何数据结构;(e)在训练所述机器学习模型之后,将所述机器学习模型应用于来自所述受试者的所述几何数据结构;(f)基于将所述机器学习模型应用于来自所述受试者的所述几何数据结构来计算所述受试者具有已知染色体结构变异的似然度;和(g)基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型;其中所述测试读段集、所述来自健康受试者
的读段集和所述对应于已知染色体结构变异的读段集通过染色体构象分析技术生成。
[0005]在本公开的方法的一些实施例中,已知染色体结构变异各自在受试者中引起疾病或病症。在一些实施例中,所述方法进一步包含如果所述核型指示所述受试者具有所述已知染色体结构变异,则治疗所述受试者的由所述已知染色体结构引起的所述疾病或病症。
[0006]在本公开的方法的一些实施例中,染色质构象分析技术包含染色质构象捕获(3C)、环化染色质构象捕获(4C)、碳拷贝染色体构象捕获(5C)、染色质免疫沉淀(ChIP)、ChIP

Loop、Hi

C、组合3C

ChIP

克隆(6C)、Capture

C、Split

pool条形码(SPLiT

seq)、核连接分析(NLA)、单细胞Hi

C(scHi

C)、组合单细胞Hi

C、多联体连接分析(COLA)、靶标下的裂解和使用核酸酶释放(CUT&RUN)、体外邻近连接(例如)、原位邻近连接(原位Hi

C)、邻近连接接着在Oxford Nanopore机器上测序(Pore

C)、在Pacific Biosciences机器上测序的邻近连接(SMRT

C)、DNA酶Hi

C、Micro

C或Hybrid Capture Hi

C。
[0007]本公开提供用于确定受试者是否具有已知染色体结构变异体的系统。
[0008]在本公开的系统的一些实施例中,所述系统包含:(a)计算机可读存储介质,其存储计算机可执行指令,所述计算机可执行指令包含:(i)用于接收来自所述受试者的样品的测试读段集的指令,其中所述测试读段集通过染色体构象分析技术生成;(ii)用于将来自所述受试者的所述测试读段集映射到参考基因组上的指令;(iii)用于在训练机器学习模型之后将所述机器学习模型应用于来自所述受试者的所述测试读段集的指令,其中所述机器学习模型被训练成区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集;(iv)用于基于将所述机器学习模型应用于所述测试读段集而计算所述测试读段集含有已知染色体结构变异的似然度的指令;和(v)用于基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型的指令;和(b)处理器,所述处理器被配置成执行包含以下的步骤:(i)接收包含来自所述受试者的所述测试读段集和所述参考基因组的输入文件集;和(ii)执行存储在所述计算机可读存储介质中的所述计算机可执行指令。
[0009]在本公开的系统的一些实施例中,所述系统包含:(a)计算机可读存储介质,其存储计算机可执行指令,所述计算机可执行指令包含:(i)用于接收来自所述受试者的样品的测试读段集的指令,其中所述测试读段集通过染色体构象分析技术生成;(ii)用于将来自所述受试者的所述测试读段集映射到参考基因组上的指令;(iii)用于从所述映射读段集生成几何数据结构的指令;(iv)用于在训练机器学习模型之后将所述机器学习模型应用于来自所述受试者的测试读段集的所述几何数据结构的指令,其中所述机器学习模型被训练成区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集的几何数据结构;(v)用于基于将所述机器学习模型应用于所述测试读段集而计算来自测试读段集的所述几何数据结构含有已知染色体结构变异的似然度的指令;和(vi)用于基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型的指令;以及(b)处理器,所述处理器被配置成执行包含以下的步骤:(i)接收包含来自所述受试者的所述测试读段集和所述参考基因组的输入文件集;和(ii)执行存储在所述计算机可读存储介质中的所述计算机可执行指令。
[0010]本公开提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种治疗具有染色体结构变异的受试者的方法,其包含:a.接收来自所述受试者的样品的测试读段集;b.将来自所述受试者的所述测试读段集与参考基因组进行比对,以产生来自所述受试者的映射读段集;c.从所述映射读段集生成几何数据结构;d.训练机器学习模型以区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集的几何数据结构;e.在训练所述机器学习模型之后,将所述机器学习模型应用于来自所述受试者的所述几何数据结构;f.基于将所述机器学习模型应用于来自所述受试者的所述几何数据结构来计算所述受试者具有已知染色体结构变异的似然度;和g.基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型;其中所述测试读段集、所述来自健康受试者的读段集和所述对应于已知染色体结构变异的读段集是通过染色体构象分析技术生成。2.根据权利要求1所述的方法,其中所述已知染色体结构变异在受试者中引起疾病或病症。3.根据权利要求1或2所述的方法,其进一步包含如果所述核型指示所述受试者具有所述已知染色体结构变异,那么治疗所述受试者中的由所述已知染色体结构引起的疾病或病症。4.根据权利要求1至3中任一项所述的方法,其中所述机器学习模型包括深度学习模型、梯度下降模型、图形网络模型、神经网络模型、支持向量机、导出系统模型、决策树模型、逻辑回归模型、聚类模型、马尔可夫模型(Markov model)、蒙特卡洛模型(Monte Carlo model)或似然模型。5.根据权利要求1至3中任一项所述的方法,其中所述机器学习模型是似然模型分类器。6.根据权利要求5所述的方法,其中在步骤(d)中训练所述似然模型分类器包含:i.将从来自健康受试者的读段集生成的多个几何数据结构接收到所述机器学习模型中;ii.将从对应于已知染色体结构变异的读段集生成的多个几何数据结构接收到所述机器学习模型中;iii.将每个已知染色体结构变异表示为包含所述染色体结构变异的基因组中的起始位置和结束位置的边界矩形,以及标记;iv.使用负二项分布模型对来自(i)和(ii)的所述读段集的任何两个基因组位置之间的连接频率进行建模;和v.训练所述负二项分布模型以识别来自健康受试者的所述多个读段集的零分布,其中所述负二项分布模型被训练成识别每个已知染色体结构变异的所述边界矩形处的零分布。7.根据权利要求1至6中任一项所述的方法,其中生成来自所述测试读段集、所述来自健康受试者的读段集或所述对应于已知染色体结构变异的读段集的所述几何数据结构包
含:i.按基因组位置划分所述读段集;和ii.将所述划分的读段集转换为几何数据结构。8.根据权利要求6或7所述的方法,其中所述几何数据结构表示读段集中的每一个的任何两个基因组位置之间的连接频率。9.根据权利要求7或8所述的方法,其中所述划分步骤将所述读段集划分成对应于核型中的细胞遗传带的基因组位置。10.根据权利要求9所述的方法,其中所述核型中的所述细胞遗传带包含每个带约5Mb的分辨率。11.根据权利要求6至10中任一项所述的方法,其中以实验方式确定对应于(ii)中的已知染色体结构变异的至少一个读段集。12.根据权利要求6至10中任一项所述的方法,其中模拟对应于(ii)中的已知染色体结构变异的至少一个读段集。13.根据权利要求6至12中任一项所述的方法,其中(i)中的来自健康受试者的至少一个读段集包含模拟读段集、理论读段集或从健康组织以实验方式确定的读段集。14.根据权利要求13所述的方法,其中所述健康组织包含来自所述受试者的不具有所述疾病或病症的组织。15.根据权利要求6至14中任一项所述的方法,其中来自健康受试者的所述读段集包含对应于每个已知染色体结构变异的所述基因组位置的读段。16.根据权利要求1至15中任一项所述的方法,其中所述几何数据结构是k维树(k

d树)。17.根据权利要求16所述的方法,其中所述k

d树是2维(2

d)k

d树。18.根据权利要求17所述的方法,其中所述k

d树的第一轴线表示第一基因组区域,且所述k

d的第二轴线表示第二基因组位置,且其中所述k

d树表示所述来自所述受试者的读段集、所述来自健康受试者的读段集或所述对应于已知染色体结构变异的读段集的任何两个基因组位置之间的连接频率。19.根据权利要求16至18中任一项所述的方法,其中所述k

d树可编码任意分辨率。20.根据权利要求19所述的方法,其中基于已知染色体结构变异的大小来选择所述任意分辨率。21.根据权利要求1至15中任一项所述的方法,其中所述几何数据结构是矩阵。22.根据权利要求21所述的方法,其中所述矩阵的每个单元表示所述来自所述受试者的读段集、所述来自健康受试者的读段集或所述对应于已知染色体结构变异的读段集中的每一个的任何两个基因组位置之间的连接频率。23.根据权利要求22所述的方法,其中所述矩阵的每个单元包含所述受试者的所述基因组的约100万至1000万个碱基对(bp)。24.根据权利要求22所述的方法,其中所述矩阵的每个单元包含所述受试者的所述基因组的约300万个bp。25.根据权利要求6至24中任一项所述的方法,其中步骤(iii)的所述标记将所述已知染色体结构变异鉴别为平衡易位、不平衡易位、倒位、插入、缺失、重复扩增或其组合。
26.根据权利要求1至25中任一项所述的方法,其进一步包含在生成所述几何数据结构之前滤出所述测试读段集中与所述参考基因组比对不佳的读段。27.根据权利要求26所述的方法,其中步骤(e)的应用所述机器学习模型包含将来自所述受试者的所述测试读段集的所述几何数据结构拟合到零模型且拟合到每个已知染色体结构变异的替代模型。28.根据权利要求27所述的方法,其中所述拟合包含跨越整个基因组的拟合。29.根据权利要求26所述的方法,其中所述拟合包含跨越对应于每个已知染色体或亚染色体结构变异的边界矩形的基因组的一部分的拟合。30.根据权利要求6至29中任一项所述的方法,其中步骤(f)包含计算将所述经转换和划分的测试读段集拟合到所述零模型与每个已知染色体结构变异的所述替代模型的似然比。31.根据权利要求30所述的方法,其中当所述已知染色体变异的所述似然比小于0.5、0.45、0.40、0.35、0.30、0.25、0.20、0.15、0.10、0.09、0.08、0.07、0.06、0.05、0.04、0.03、0.02、0.01、0.009、0.008、0.007、0.006、0.005、0.003、0.002、0.001、0.0009、0.0008、0.007、0.006、0.005、0.0004、0.0003、0.0002或0.0001时,确定所述受试者具有已知染色体结构变异。32.根据权利要求30所述的方法,其中所述似然比大于75%、80%、85%、90%、95%、96%、97、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%或99.9%。33.根据权利要求30所述的方法,其中所述似然比表示为对数似然比。34.根据权利要求1至33中任一项所述的方法,其中染色质构象分析技术包含染色质构象捕获(3C)、环化染色质构象捕获(4C)、碳拷贝染色体构象捕获(5C)、染色质免疫沉淀(ChIP)、ChIP

Loop、Hi

C、组合3C

ChIP

克隆(6C)、Capture

C、Split

pool条形码(SPLiT

seq)、核连接分析(NLA)、单细胞Hi

C(scHi

C)、组合单细胞Hi

C、多联体连接分析(COLA)、靶标下的裂解和使用核酸酶释放(CUT&RUN)、体外邻近连接原位邻近连接(原位Hi

C)、邻近连接接着在Oxford Nanopore机器上测序(Pore

C)、在Pacific Biosciences机器上测序的邻近连接(SMRT

C)、DNA酶Hi

C、Micro

C或Hybrid Capture Hi

C。35.根据权利要求1至34中任一项所述的方法,其中所述受试者患有癌症。36.根据权利要求35所述的方法,其中所述样品来自肿瘤。37.根据权利要求36所述的方法,其中所述肿瘤为实体肿瘤或液体肿瘤。38.一种确定受试者是否具有已知染色体结构变异的系统,其包含:a.计算机可读存储介质,其存储计算机可执行指令,所述计算机可执行指令包含:i.用于接收来自所述受试者的样品的测试读段集的指令;其中所述测试读段集是通过染色体构象分析技术生成;ii.用于将来自所述受试者的所述测试读段集映射到参考基因组上的指令;iii.用于从所述映射读段集生成几何数据结构的指令;iv.用于在训练机器学习模型之后将所述机器学习模型应用于来自所述受试者的测试读段集的所述几何数据结构的指令,
其中所述机器学习模型被训练成区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集的几何数据结构;v.用于基于将所述机器学习模型应用于所述测试读段集来计算来自测试读段集的所述几何数据结构含有已知染色体结构变异的似然度的指令;和vi.用于基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型的指令;和b.处理器,所述处理器被配置成执行包含以下的步骤:i.接收包含来自所述受试者的所述测试读段集和所述参考基因组的输入文件集,和ii.执行存储在所述计算机可读存储介质中的所述计算机可执行指令。39.一种鉴别受试者的染色体结构变异的方法,其包含:a.训练第一机器学习模型以鉴别包含至少一个染色体结构变异的第一接触矩阵的至少一个区域;b.通过所述第一机器学习模型从受试者接收所述第一接触矩阵,其中所述第一接触矩阵是通过染色体构象分析技术产生;c.将所述第一机器学习模型应用于所述第一接触矩阵以鉴别含有至少一个染色体结构变异的所述第一接触矩阵的至少一个区域;d.将由所述第一机器学习模型鉴别的每个染色体结构变异表达为包含基因组中的起始位置和结束位置的边界框,以及标记;e.训练第二机器学习模型以将所述至少一个染色体结构变异与生物信息相关联;f.通过所述第二机器学习模型接收由所述第一机器学习模型鉴别的所述至少一个染色体结构变异的所述边界框和所述标记;和g.在训练所述第二机器学习模型之后,将所述第二机器学习模型应用于由所述第一机器学习分类器鉴别的所述至少一个染色体结构变异的所述边界框和所述标记;从而鉴别所述受试者的每个染色体结构变异和与所述受试者的每个染色体结构变异相关的所述生物信息。40.根据权利要求39所述的方法,其中所述第一接触矩阵的每个单元包含所述受试者的所述基因组的约100bp至10,000,000bp。41.根据权利要求39或40所述的方法,其中所述第一接触矩阵包含所述受试者的整个基因组。42.根据权利要求39至41中任一项所述的方法,其在步骤(d)之后且在步骤(e)之前进一步包含:i.生成第二接触矩阵,其中所述第二接触矩阵包含所述边界框的起始和结束基因组位置,且其中所述第二接触矩阵的分辨率比所述第一接触矩阵的分辨率更精细;ii.将所述第一机器学习模型应用于所述第二接触矩阵以鉴别含有所述至少一个染色体结构变异的所述第二接触矩阵的至少一个区域;和iii.将所述至少一个染色体结构变异表达为包含所述至少一个染色体结构变异的第二起始和第二结束基因组位置的第二边界框,以及所述标记,其中所述第二边界框包含比所述边界框更高的分辨率。
43.根据权利要求42所述的方法,其进一步包含重复步骤(i)、(ii)和(iii)直至达到所述接触矩阵的每单元至少500,000bp、每单元至少100,000bp、每单元至少50,000bp、每单元至少10,000bp、每单元至少1,000bp、每单元至少500bp或每单元至少100bp的分辨率为止。44.根据权利要求39至43中任一项所述的方法,其中所述第一接触矩阵包含可以任意分辨率访问的数据结构。45.根据权利要求44所述的方法,其中所述数据结构包含k维树(k

d树)。46.根据权利要求45所述的方法,其中所述k

d树是2维(2

d)k

d树。47.根据权利要求46所述的方...

【专利技术属性】
技术研发人员:S
申请(专利权)人:相位基因组学公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1