【技术实现步骤摘要】
【国外来华专利技术】使用机器学习模型预测疾病结果
[0001]相关申请的交叉引用
[0002]本申请要求2020年5月22日提交的美国临时专利申请号63/029,038的权益和优先权,所述申请的全部公开内容出于所有目的据此以引用方式整体并入。
技术介绍
[0003]目前,常规患者治疗的有效性以及与发现新的有效治疗相关的成本仍然是获得最佳患者结果的障碍。了解某些疾病的遗传基础很重要,但通常不足以预测疾病是否或何时可能在给定受试者中发展,以及在具有所述疾病的遗传风险的受试者中哪些另外的因素可能触发疾病发作。因此,鉴定治疗性干预的靶标和开发用于治疗疾病的方案通常是缓慢且偶然的。此外,在临床试验期间,有希望的干预在人类受试者中往往没有表现出一致的安全性或有效性。许多治疗方案对不同的受试者表现出不同水平的安全性或功效,其原因难以预料,并且仅在事后才确定,或从未完全了解。鉴定和开发将对不同患者群体有效的新治疗剂所需的资源仍然困难且昂贵,因此许多患者的需求明显未得到满足。
技术实现思路
[0004]本文公开了用于进行筛选的支持机器学习(ML)的细胞疾病 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于开发在预测临床结果的支持ML的细胞疾病模型中使用的机器学习模型的方法,其包括:获得或已获得与疾病的遗传架构一致的细胞;修饰所述细胞以促进所述细胞内的患病细胞状态;从所述细胞捕获表型测定数据;以及通过机器学习(ML)实现的方法分析所述细胞的所述表型测定数据,以训练对于所述细胞疾病模型有用的所述机器学习模型,所述机器学习模型至少部分地包括所捕获的表型测定数据与临床表型之间的关系。2.如权利要求1所述的方法,其中所述机器学习模型的所述训练包括通过所述ML实现的方法分析用作体外模型中的健康和疾病的替代标签的一种或多种暴露响应表型(ERP)的表型测定数据。3.如权利要求2所述的方法,其中通过将所述ERP的先前生成的表型测定数据与从已知患有或未患有所述疾病的细胞捕获的对应表型测定数据比较来验证所述ERP。4.如权利要求2或3所述的方法,其中从暴露于扰动因子的多个细胞捕获ERP的表型测定数据。5.如权利要求4所述的方法,其中所述多个细胞暴露于不同浓度的所述扰动因子。6.如权利要求4或5所述的方法,其中所述多个细胞包括多种遗传背景。7.如权利要求2
‑
6中任一项所述的方法,其中所述一种或多种ERP包括至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种、至少十种、至少十一种、至少十二种、至少十三种、至少十四种、至少十五种、至少十六种、至少十七种、至少十八种、至少十九种或至少二十种ERP。8.如权利要求7所述的方法,其中所述一种或多种ERP包括至少五种ERP。9.如权利要求1
‑
8中任一项所述的方法,其中所述疾病的所述遗传架构通过以下来确定:鉴定与所述疾病相关的遗传基因座;以及从与所述疾病相关的所鉴定的遗传基因座中鉴定所述疾病的致病因素,所述致病因素代表疾病发展或进展的驱动因素。10.如权利要求9所述的方法,其中鉴定与所述疾病相关的遗传基因座包括进行全基因组测序、全外显子组测序、全转录组测序或靶向小组测序中的一种。11.如权利要求9所述的方法,其中鉴定所述疾病的致病因素包括:获得或已获得遗传关联;以及将所述遗传关联与和所述疾病相关的所述鉴定的遗传基因座共定位。12.如权利要求1
‑
8中任一项所述的方法,其中所述疾病的所述遗传架构通过以下来确定:在一个或多个样品的遗传学数据与所述一个或多个样品的所述临床表型的标签之间进行GWAS关联检验。13.如权利要求12所述的方法,其中所述一个或多个样品的所述临床表型的所述标签通过实现预测模型来确定,所述预测模型被训练来区分来源于健康和患病样品的表型测定数据。
14.如前述权利要求中任一项所述的方法,其中所述临床表型是疾病表型、疾病的存在或不存在、疾病严重程度、疾病病理学、疾病风险、疾病进展、响应于治疗性治疗的临床表型的可能性,或通过临床方法可观察到的疾病相关临床表型中的一种。15.如权利要求14所述的方法,其中所述临床表型与非酒精性脂肪性肝炎、帕金森病、肌萎缩性侧索硬化(ALS)或结节性硬化症(TSC)中的一种相对应。16.如前述权利要求中任一项所述的方法,其中所述细胞为分化细胞。17.如前述权利要求中任一项所述的方法,其中所述细胞从诱导多能干细胞分化。18.如前述权利要求中任一项所述的方法,其中所述细胞具有与所述疾病的遗传架构一致的遗传标志物。19.如权利要求18所述的方法,其中所述细胞中的所述遗传标志物使用cDNA构建体、CRISPR、TALENS、锌指核酸酶或其他基因编辑技术来工程改造。20.如前述权利要求中任一项所述的方法,其中修饰所述细胞包括将所述细胞分化成患病相关细胞类型、调节所述细胞的基因表达以及提供促进所述细胞进入所述患病细胞状态的剂或环境条件中的一种或多种。21.如权利要求20所述的方法,其中所述疾病相关细胞类型是基于在所述疾病相关细胞类型中有活性的所述疾病的一种或多种所鉴定的致病因素选择的。22.如权利要求20所述的方法,其中所述剂是用于引入一种或多种遗传变体的化学剂、分子干预或基因编辑剂中的一种。23.如权利要求20
‑
22中任一项所述的方法,其中所述剂是CTGF/CCN2、FGF1、IFGγ、IGF1、IL1β、AdipoRon、PDGF
‑
D、TGFβ、TNFα、HLD、LDL、VLDL、果糖、硫辛酸、柠檬酸钠、ACC1i(弗可司他)、ASK1i(司隆色替)、FXRa(奥贝胆酸)、PPAR激动剂(依拉布诺)、CuCl2、FeSO
4 7H2O、ZnSO
4 7H2O、LPS、TGFβ拮抗剂和熊去氧胆酸中的任一种的任一种。24.如权利要求20所述的方法,其中所述环境条件是O2张力、CO2张力、流体静压、渗透压、pH平衡、紫外线暴露、温度暴露或其他物理化学操作。25.如前述权利要求中任一项所述的方法,其中所述细胞的所述表型测定数据包括细胞测序数据、蛋白质表达数据、基因表达数据、图像数据、细胞代谢数据、细胞形态学数据或细胞相互作用数据中的一种或多种。26.如权利要求25所述的方法,其中所述图像数据包括高分辨率显微镜数据或免疫组织化学数据中的一种。27.如前述权利要求中任一项所述的方法,其中所述细胞包括在细胞群中,并且其中对所述细胞进行修饰使得所述细胞相对于所述细胞群中的其他细胞有所不同。28.如前述权利要求中任一项所述的方法,其中所述细胞包括在细胞群中,并且其中对所述细胞进行修饰产生处于疾病进展的至少两个不同阶段的至少两个细胞亚群。29.如前述权利要求中任一项所述的方法,其中所述细胞包括在细胞群中,并且其中对所述细胞进行修饰产生处于成熟的至少两个不同阶段的至少两个细胞亚群。30.如前述权利要求中任一项所述的方法,其中所述细胞获自体内、体外2D培养物、体外3D培养物、或体外类器官或芯片上器官系统中的一种。31.如前述权利要求中任一项所述的方法,其中分析所述细胞的所述表型测定数据以训练所述机器学习模型包括:
将所述表型测定数据编码为数值向量;以及将所述数值向量输入到所述机器学习模型中。32.如前述权利要求中任一项所述的方法,其中分析所述细胞的所述表型测定数据以训练所述机器学习模型包括:提供所述细胞的所述表型测定数据、所述细胞的遗传学以及应用于所述细胞的修饰作为所述机器学习模型的输入。33.一种用于验证干预的方法,所述方法包括:至少使用由使用权利要求1所述的方法开发的所述机器学习模型生成的预测来应用支持ML的细胞疾病模型。34.如权利要求33所述的方法,其中应用所述支持ML的细胞疾病模型包括:获得或已获得从对应于所述一个或多个细胞化身的经处理的细胞捕获的表型测定数据,所述经处理的细胞通过所述干预处理;以及使用所述机器学习模型,基于从经处理的细胞捕获的所获得的表型测定数据确定临床表型的预测。35.如权利要求34所述的方法,其还包括:获得或已获得从细胞捕获的表型测定数据,其中所述经处理的细胞来源于通过所述干预处理后的所述细胞;以及基于从所述细胞捕获的所述获得的表型测定数据,确定第二临床表型的预测,其中验证所述干预还包括基于所述第二临床表型的所述预测进行验证。36.如权利要求34或35所述的方法,其中确定所述临床表型的所述预测包括将所述机器学习模型应用于从所述经处理的细胞捕获的所述获得的表型测定数据,并且其中确定所述第二临床表型的所述预测包括将所述机器学习模型应用于从所述细胞捕获的所述获得的表型测定数据。37.如权利要求36所述的方法,其中将所述机器学习模型应用于从所述经处理的细胞捕获的所述表型测定数据还包括将所述机器学习模型应用于所述经处理的细胞的遗传学和应用于所述经处理的细胞的修饰,其中应用于所述经处理的细胞的所述修饰包括所述干预。38.如权利要求36所述的方法,其中将所述机器学习模型应用于从所述细胞捕获的所述表型测定数据还包括将所述机器学习模型应用于所述细胞的遗传学和应用于所述细胞的修饰,其中应用于所述细胞的所述修饰不包括所述干预。39.如权利要求35
‑
38中任一项所述的方法,其中验证所述干预包括将对应于所述经处理的细胞的所述临床表型与对应于细胞的所述第二临床表型的所述预测比较。40.如权利要求34
‑
39中任一项所述的方法,其中验证所述干预包括确定所述干预是否有效或无毒。41.一种用于将患者群体鉴定为干预的响应者的方法,所述方法包括:选择代表所述患者群体的多个细胞化身;将支持ML的细胞疾病模型应用于所述多个细胞化身中的一个的所述干预,以确定所述细胞化身是所述干预的响应者还是非响应者,其中所述支持ML的细胞疾病模型的应用包括至少使用由使用权利要求1所述的方法开发的所述机器学习模型生成的预测来选择所述干
预。42.如权利要求41所述的方法,其还包括:从所述患者群体中的患者获得或已获得受试者特征;将所述支持ML的细胞疾病模型应用于所述多个细胞化身中的其他细胞化身中的每一个,以确定所述其他细胞化身中的每一个是所述干预的响应者还是非响应者;以及生成所述患者群体中的患者的受试者特征与代表所述患者群体的所述多个细胞化身的响应者或非响应者确定之间的关系。43.如权利要求42所述的方法,其中所述受试者特征包括受试者的医疗史、受试者的基因产物、受试者的突变基因产物以及受试者的基因的表达或差异表达中的一种或多种。44.如权利要求41所述的方法,其中应用所述支持ML的细胞疾病模型包括:获得或已获得从对应于所述细胞化身的细胞捕获的表型测定数据,所述细胞与疾病的遗传架构一致;使用所述机器学习模型,基于从所述细胞捕获的所获得的表型测定数据确定临床表型的预测;获得或已获得从所述经处理的细胞捕获的表型测定数据,所述经处理的细胞来源于通过所述干预处理后的所述细胞;基于从所述经处理的细胞捕获的所获得的表型测定数据,确定第二临床表型的预测;以及将所述临床表型和所述第二临床表型的所述预测比较,以确定所述细胞化身是响应者还是非响应者。45.如权利要求44所述的方法,其中确定所述临床表型的所述预测包括将所述机器学习模型应用于从所述细胞捕获的所述获得的表型测定数据,并且其中确定所述第二临床表型的所述预测包括将所述机器学习模型应用于从所述经处理的细胞捕获的所述获得的表型测定数据。46.如权利要求33
‑
45中任一项所述的方法,其中所述干预包括包含两种或更多种治疗剂的组合疗法。47.一种用于开发构效关系(SAR)筛的方法,所述方法包括:对于一种或多种治疗剂中的每一种,获得或已获得所述治疗剂对疾病的预测影响,所述预测影响通过至少使用由使用权利要求1所述的方法开发的所述机器学习模型生成的预测应用支持ML的细胞疾病模型来确定;以及使用所述治疗剂的所述预测影响,生成治疗剂的特征与治疗剂的对应预测影响之间的映射。48.如权利要求47所述的方法,其中由所述机器学习模型生成的所述预测包括根据治疗剂针对靶标的治疗效果进行聚类的治疗剂。49.如权利要求47或48所述的方法,其中通过以下来确定所述治疗剂对所述疾病的所述预测影响:获得或已获得从与疾病的遗传架构一致的细胞捕获的表型测定数据;使用所述机器学习模型,基于从所述细胞捕获的所获得的表型测定数据确定临床表型的预测;
获得或已获得从所述经处理的细胞捕获的表型测定数据,所述经处理的细胞来源于通过所述干预处理后的所述细胞;基于从所述经处理的细胞捕获的所获得的表型测定数据,确定第二临床表型的预测;以及将所述临床表型和所述第二临床表型的所述预测比较,以确定所述治疗剂的所述预测影响。50.如权利要求47
‑
49中任一项所述的方法,其中所述治疗剂的所述预测影响是治疗功效或缺乏治疗毒性中的一种。51.一种用于鉴定用于调节疾病的生物靶标的方法,所述方法包括:应用支持ML的细胞疾病模型,其中所述支持ML的细胞疾病模型的应用包括至少使用由使用权利要求1所述的方法开发的所述机器学习模型生成的预测,其中所述预测是由已经通过扰动处理的多个细胞的表型测定数据生成的;基于由所述机器学习模型生成的所述预测,鉴定与指示疾病的细胞表型相关的遗传修饰;以及选择所述遗传修饰作为所述生物靶标。52.如权利要求51所述的方法,其中所述表型测定数据来源于通过诱导患病状态的扰动处理的细胞。53.如权利要求52所述的方法,其中基于所述预测鉴定所述遗传修饰包括确定细胞中所述遗传修饰的存在与由所述扰动诱导的所述患病状态相关。54.如权利要求33
‑
53中任一项所述的方法,其中由所述机器学习模型生成的所述预测包括机器学习的嵌入。55.如前述权利要求中任一项所述的方法,其中所述ML实现的方法是弱监督方法和部分监督方法的组合。56.如前述权利要求中任一项所述的方法,其中所述ML实现的方法是线性回归、逻辑回归、决策树、支持向量机分类、朴素贝叶斯分类、K最近邻分类、随机森林、深度学习、梯度提升、生成式对抗网络学习、强化学习、贝叶斯优化、矩阵分解和降维技术诸如流形学习、主成分分析、因子分析、自动编码器正则化和独立成分分析或其组合中的任何一种或多种。57.一种用于开发在支持ML的细胞疾病模型中使用的机器学习模型的非暂时性计算机可读介质,所述非暂时性计算机可读介质包括当由处理器执行时使得所述处理器执行包括以下的步骤的指令:获得或已获得来源于细胞的表型测定数据,其中所述细胞与疾病的遗传架构一致,并被修饰以促进所述细胞内的患病细胞状态;以及通过机器学习(ML)实现的方法分析所述细胞的所述表型测定数据,以训练对于所述支持ML的细胞疾病模型有用的所述机器学习模型,所述机器学习模型至少部分地包括所述捕获的表型测定数据与临床表型之间的关系。58.如权利要求57所述的非暂时性计算机可读介质,其中用于训练所述机器学习模型的指令还包括当由所述处理器执行时使得所述处理器执行包括以下的步骤的指令:通过所述ML实现的方法分析在体外模型中用作健康和疾病的替代标签的一种或多种暴露响应表型(ERPs)的表型测定数据。
59.如权利要求58所述的非暂时性计算机可读介质,其中通过将所述ERP的先前生成的表型测定数据与从已知患有或未患有所述疾病的细胞捕获的对应表型测定数据比较来验证所述ERP。60.如权利要求58或59所述的非暂时性计算机可读介质,其中从暴露于扰动因子的多个细胞捕获ERP的表型测定数据。61.如权利要求60所述的非暂时性计算机可读介质,其中所述多个细胞暴露于不同浓度的所述扰动因子。62.如权利要求60或61所述的非暂时性计算机可读介质,其中所述多个细胞包括多种遗传背景。63.如权利要求58
‑
62中任一项所述的非暂时性计算机可读介质,其中所述一种或多种ERP包括至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种、至少十种、至少十一种、至少十二种、至少十三种、至少十四种、至少十五种、至少十六种、至少十七种、至少十八种、至少十九种或至少二十种ERP。64.如权利要求63所述的非暂时性计算机可读介质,其中所述一种或多种ERP包括至少五种ERP。65.如权利要求57
‑
64中任一项所述的非暂时性计算机可读介质,其中所述疾病的所述遗传架构通过以下来确定:鉴定与所述疾病相关的遗传基因座;以及从与所述疾病相关的所鉴定的遗传基因座中鉴定所述疾病的致病因素,所述致病因素代表疾病发展或进展的驱动因素。66.如权利要求65所述的非暂时性计算机可读介质,其中鉴定与所述疾病相关的遗传基因座包括进行了全基因组测序、全外显子组测序、全转录组测序或靶向小组测序中的一种。67.如权利要求65所述的非暂时性计算机可读介质,其中鉴定所述疾病的致病因素包括:获得或已获得基因组注释;以及将所述基因组注释与和所述疾病相关的所述鉴定的遗传基因座共定位。68.如权利要求57
‑
64中任一项所述的非暂时性计算机可读介质,其中所述疾病的所述遗传架构通过以下来确定:在一个或多个样品的遗传学数据与所述一个或多个样品的所述临床表型的标签之间进行GWAS关联检验。69.如权利要求68所述的非暂时性计算机可读介质,其中所述一个或多个样品的所述临床表型的所述标签通过实现预测模型来确定,所述预测模型被训练来区分来源于健康和患病样品的表型测定数据。70.如权利要求57
‑
69中任一项所述的非暂时性计算机可读介质,其中所述临床表型是疾病表型、疾病的存在或不存在、疾病严重程度、疾病病理学、疾病风险、疾病进展、响应于治疗性治疗的临床表型的可能性,或通过临床方法可观察到的疾病相关临床表型中的一种。71.如权利要求70所述的非暂时性计算机可读介质,其中所述临床表型与非酒精性脂
肪性肝炎、帕金森病、肌萎缩性侧索硬化(ALS)或结节性硬化症(TSC)中的一种相对应。72.如权利要求57
‑
70中任一项所述的非暂时性计算机可读介质,其中所述细胞是分化细胞。73.如权利要求57
‑
72中任一项所述的非暂时性计算机可读介质,其中所述细胞从诱导多能干细胞分化。74.如权利要求57
‑
73中任一项所述的非暂时性计算机可读介质,其中所述细胞具有与所述疾病的遗传架构一致的遗传变化。75.如权利要求74所述的非暂时性计算机可读介质,其中所述细胞中的所述遗传变化使用cDNA构建体、CRISPR、TALENS、锌指核酸酶或其他基因编辑技术来工程改造。76.如权利要求57
‑
75中任一项所述的非暂时性计算机可读介质,其中所述细胞的所述修饰包括将所述细胞分化成患病相关细胞类型、调节所述细胞的基因表达以及提供刺激所述细胞进入所述患病细胞状态的剂或环境条件中的一种或多种。77.如权利要求76所述的非暂时性计算机可读介质,其中所述疾病相关细胞类型是基于在所述疾病相关细胞类型中有活性的所述疾病的一种或多种所鉴定的致病因素选择的。78.如权利要求76所述的非暂时性计算机可读介质,其中所述剂是用于引入一种或多种遗传变体的化学剂、分子干预或基因编辑剂中的一种。79.如权利要求76
‑
81中任一项所述的非暂时性计算机可读介质,其中所述剂是CTGF/CCN2、FGF1、IFGγ、IGF1、IL1β、AdipoRon、PDGF
‑
D、TGFβ、TNFα、HLD、LDL、VLDL、果糖、硫辛酸、柠檬酸钠、ACC1i(弗可司他)、ASK1i(司隆色替)、FXRa(奥贝胆酸)、PPAR激动剂(依拉布诺)、CuCl2、FeSO
4 7H2O、ZnSO
4 7H2O、LPS、TGFβ拮抗剂和熊去氧胆酸中的任一种的任一种。80.如权利要求76所述的非暂时性计算机可读介质,其中所述环境条件是O2张力、CO2张力、流体静压、渗透压、pH平衡、紫外线暴露、温度暴露或其他物理化学操作。81.如权利要求57
‑
80中任一项所述的非暂时性计算机可读介质,其中所述细胞的所述表型测定数据包括细胞测序数据、蛋白质表达数据、基因表达数据、图像数据、细胞代谢数据、细胞形态学数据或细胞相互作用数据中的一种或多种。82.如权利要求57
‑
81中任一项所述的非暂时性计算机可读介质,其中所述图像数据包括高分辨率显微镜数据或免疫组织化学数据中的一种。83.如权利要求57
‑
82中任一项所述的非暂时性计算机可读介质,其中所述细胞包括在细胞群中,并且其中对所述细胞进行修饰使得所述细胞相对于所述细胞群中的其他细胞有所不同。84.如权利要求57
‑
83中任一项所述的非暂时性计算机可读介质,其中所述细胞包括在细胞群中,并且其中对所述细胞进行修饰产生处于疾病进展的至少两个不同阶段的至少两个细胞亚群。85.如权利要求57
‑
84中任一项所述的非暂时性计算机可读介质,其中所述细胞包括在细胞群中,并且其中对所述细胞进行修饰产生处于成熟的至少两个不同阶段的至少两个细胞亚群。86.如权利要求57
‑
85中任一项所述的非暂时性计算机可读介质,其中所述细胞获自体内、体外2D培养物、体外3D培养物、或体外类器官或芯片上器官系统中的一种。87.如权利要求57
‑
86中任一项所述的非暂时性计算机可读介质,其中使得所述处理器
执行分析所述细胞的所述表型测定数据以训练所述机器学习模型的步骤的所述指令还包括当由所述处理器执行时使得所述处理器执行包括以下的步骤的指令:将所述表型测定数据编码为数值向量;以及将所述数值向量输入到所述机器学习模型中。88.如权利要求57
‑
87中任一项所述的非暂时性计算机可读介质,其中使得所述处理器执行分析所述细胞的所述表型测定数据以训练所述机器学习模型的步骤的所述指令还包括当由所述处理器执行时使得所述处理器执行包括以下的步骤的指令:提供所述细胞的所述表型测定数据、所述细胞的遗传学以及应用于所述细胞的修饰作为所述机器学习模型的输入。89.一种用于验证干预的非暂时性计算机可读介质,所述非暂时性计算机可读介质包括当由处理器执行时使得所述处理器执行包括以下的步骤的指令:至少使用由使用权利要求57所述的非暂时性计算机可读介质开发的所述机器学习模型生成的预测来应用支持ML的细胞疾病模型。90.如权利要求89所述的非暂时性计算机可读介质,其中应用所述支持ML的细胞疾病模型包括:获得或已获得从对应于所述一个或多个细胞化身的经处理的细胞捕获的表型测定数据,所述经处理的细胞通过所述干预处理;以及使用所述机器学习模型,基于从经处理的细胞捕获的所获得的表型测定数据确定临床表型的预测。91.如权利要求90所述的非暂时性计算机可读介质,其还包括当由所述处理器执行时使得所述处理器执行包括以下的步骤的指令:获得或已获得从细胞捕获的表型测定数据,其中所述经处理的细胞来源于通过所述干预处理后的所述细胞;以及基于从所述细胞捕获的所述获得的表型测定数据,确定第二临床表型的预测,其中验证所述干预还包括基于所述第二临床...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。