当前位置: 首页 > 专利查询>豪夫迈专利>正文

基于多个机器学习模型的临床预测因子制造技术

技术编号:36584003 阅读:27 留言:0更新日期:2023-02-04 17:45
一种方法,包括:接收与患者的多个数据类别相对应的数据;从多个经训练的机器学习模型中并基于多个数据类别选择第一机器学习模型和第二机器学习模型,该第一机器学习模型是使用多个数据类别的第一子集的第一数据进行训练的并具有指示第一性能度量值的第一权重,第二机器学习模型是使用多个数据类别的第二子集的第二数据进行训练的并具有指示第二性能度量值的第二权重;分别使用第一模型和第二模型生成第一预测结果和第二预测结果;以及基于第一预测结果、第二预测结果、第一权重和第二权重生成组合预测结果。权重生成组合预测结果。权重生成组合预测结果。

【技术实现步骤摘要】
【国外来华专利技术】基于多个机器学习模型的临床预测因子
相关专利申请的交叉引用
[0001]本申请要求于2020年5月11日提交的美国专利申请第16/871,933号的优先权权益,该专利申请通过引用被并入本文以用于所有目的。

技术介绍

[0002]使用真实世界临床数据训练的预测机器学习模型提供用于为患者及其临床医生提供有关诊断、预后或最佳治疗过程的患者特定信息的巨大潜力。例如,可以训练机器学习模型来根据诊断(例如,晚期癌症)预测作为时间的函数的患者存活的可能性。也可以基于患者将接受的治疗对存活预测进行分层。随后医生可以部分地基于预测做出临床决策,诸如对患者施用的治疗(例如,医生通常将偏好具有最长预测存活期的治疗)。预后信息也可以被提供给患者,以例如提高患者规划其未来的能力,这可以改善患者的生活质量。
[0003]可以训练机器学习模型以基于包括多个数据类别的患者数据执行针对患者的预测。当患者数据中缺少某些数据类别时,机器学习模型在执行预测中的应用可受到限制。需要来自一个数据类别集合的预测因子(predictor)数据的机器学习模型可能无法使用仅包括所需类别的子集的真实患者数据执行预测。例如,基于血液学和分子实验室测试结果进行预测的模型可能无法对具有血液学数据但没有分子测试结果的患者进行预测。

技术实现思路

[0004]本文公开的是用于基于包括多个机器学习模型的元模型执行临床预测的技术。临床预测可以包括,例如,预测患者在自疾病诊断以来的一时间点处的存活率。每个机器学习模型可以使用不同的数据类别集合进行训练,该不同的数据类别集合包括例如,传记数据、医疗历史数据、实验室测试结果、生物标志物等。每个机器学习模型还可以与指示性能度量的权重相关联,该性能度量诸如,例如,机器学习模型的接收者操作特性(receiver operating characteristic,ROC)曲线的曲线下面积(AUC)。
[0005]为了针对特定患者执行临床预测,可以基于患者数据中存在的数据类别标识多个机器学习模型。可以利用与患者数据中存在的数据类别的特定子集相关联的其他患者的临床数据来对所标识的机器学习模型中的每一个进行训练。可以提取与数据类别的子集相关联的患者数据的子集,并将该患者数据的子集输入到相关联的机器学习模型,以生成预测结果。来自机器学习模型的预测结果可以基于机器学习模型的权重进行组合,以针对患者生成组合预测结果。
[0006]在下面详细描述本专利技术的这些和其他实施例。例如,其他实施例涉及与本文所描述的方法相关联的系统、设备和计算机可读介质。
[0007]参考以下具体实施方式和附图,可以获得对本专利技术的实施例的本质和优点的更好的理解。
附图说明
[0008]参照附图阐述具体实施方式。
[0009]图1A和图1B示出了可以使用本公开中描述的技术执行的临床预测的示例。
[0010]图2A、图2B、图2C和图2D示出了根据本公开的某些方面的使用机器学习模型执行临床预测的示例。
[0011]图3A、图3B、图3C和图3D示出了根据本公开的某些方面的使用元模型执行临床预测的示例。
[0012]图4A、图4B、图4C、图4D和图4E示出了根据本公开的某些方面的使用元模型执行临床预测的实验结果的示例。
[0013]图5示出了根据本公开的某些方面的执行临床预测的方法。
[0014]图6示出了可用于实现本文公开的技术的示例计算机系统。
具体实施方式
[0015]根据本公开的实施例,可以训练机器学习模型以基于包括一组数据类别的患者数据来执行针对患者的临床预测。临床预测可包括,例如,预测患者的作为自诊断(例如,晚期癌症)以来的时间的函数的存活率。存活率的预测也可以针对不同类型的治疗做出。本公开的机器学习预测模型可以是一个非常强大的工具,用于执行临床预测和协助临床医生基于预测结果生成临床决策,因为该模型可以揭示要预测的临床参数(例如,存活率)与临床医生未考虑的患者数据的各种数据类别之间的隐藏关系。机器学习模型可以使用非常大的患者群体的数据进行训练,以学习临床参数与各种数据类别之间的各种关系,并且随后基于患者数据和模型通过训练已学习到的关系执行针对患者的预测。
[0016]尽管机器学习预测模型在执行临床预测和协助临床医生生成临床决策方面可能非常强大,但一些关键挑战限制了将基于机器学习的预测模型引入实际临床环境。一组挑战与数据可用性的患者间可变性有关。在大多数真实世界数据集中,许多患者将缺乏针对许多数据类别的记录结果。在另一方面,机器学习模型通常使用大的数据类别集合中的数据进行训练,以揭示要预测的参数与大的数据类别集合之间的更多隐藏链接。如果机器学习模型被训练以基于数据类别集合做出预测,但患者数据缺少来自该集合的一个或多个类别,则机器学习模型可能无法基于患者数据执行预测。
[0017]患者群组的数据中所包括的数据类别可能因各种原因而因不同患者而异,这导致大的数据异质性。例如,一些医院可具有实验室测试菜单,该实验室测试菜单包括超过1000个的独特的可订购测试。取决于患者的情况(例如,临床环境、临床状况和诊断、临床严重程度、合并症、所接收的治疗、年龄、性别、经济状况等),大多数患者可能最多接受过这些可能的测试的一小部分,并且这些患者可能具有这些测试的不同部分。作为另一示例,不同的患者可能缺乏不同类别的非实验室临床数据,包括其他诊断研究、患者历史的要素、活检数据等。在考虑时间序列数据时,数据异质性的问题变得尤为重要;即使是具有类似诊断测试或身体检查操作的患者也可能是在不同的时间点进行的或以不同的间隔重复的。在所有这些情况下,由于患者的数据中各种缺少的数据类别,因此机器学习模型可能无法对大量患者执行预测,这限制了机器学习模型的使用。
[0018]克服由数据异质性对机器学习模型带来的挑战的一种方法是通过插补
(imputation)过程,在插补过程中可以对患者的临床数据集合进行预处理,以便为缺失的数据类别创建附加的临床数据元素,使得患者数据(包括原始和插补的临床数据元素)可以包括完整的数据类别集合作为机器学习模型的输入。插补过程可以基于原始患者数据估计缺失的数据类别中的每个数据元素的分布或值。然而,插补过程可具有重大限制。具体来说,大多数插补算法假设数据“随机缺失”(MAR),但MAR假设通常对大多数临床数据无效。这是因为生成临床数据的诊断研究是响应于临床环境选择和排序的,而不是随机的,因此患者数据中某个数据类别的存在(或不存在)也不是随机的。此外,插补可给预测带来附加的不确定性和不准确性,并且可掩盖预测参数与数据类别之间的一些隐藏关系。
[0019]本文公开的是用于使用包括多个机器学习模型的组合学习模型(以下称为“元模型”)执行临床预测的技术,以解决上述问题中的一些。元模型中的多个机器学习模型中的每一个是使用数据类别集合中的数据单独训练的,并且不同的机器学习模型是使用不同的数据类别集合中的数据进行训练的,但是不同的集合之间可能存在重叠的数据类别。在训练机器学习模型以预测患者本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种执行临床预测的计算机实现的方法,包括:接收与患者的多个数据类别相对应的数据;从多个经训练的机器学习模型中并基于所述多个数据类别选择第一机器学习模型和第二机器学习模型,所述第一机器学习模型是使用所述多个数据类别的第一子集的第一数据进行训练的并具有第一性能度量值,所述第二机器学习模型是使用所述多个数据类别的第二子集的第二数据进行训练的并具有第二性能度量值,所述多个数据类别的所述第二子集不同于所述多个数据类别的所述第一子集;将与所述多个类别的所述第一子集相对应的数据的第一子集输入到所述第一机器学习模型,以生成第一预测结果;将与所述多个类别的所述第二子集相对应的数据的第二子集输入到所述第二机器学习模型,以生成第二预测结果;基于所述第一预测结果、所述第二预测结果、指示所述第一性能度量值的第一权重、和指示所述第二性能度量值的第二权重生成组合预测结果,所述第二性能度量值不同于所述第一性能度量值;以及基于所述组合预测结果执行针对所述患者的临床预测。2.根据权利要求1所述的方法,其特征在于,所述多个数据类别的所述第一子集和所述多个数据类别的所述第二子集包括至少一个通用数据类别。3.根据权利要求1或2所述的方法,其特征在于,所述数据类别包括以下各项中的至少一项:所述患者的传记数据、所述患者的一个或多个化学测试的结果、所述患者的活检图像数据、所述患者的分子生物标志物、所述患者的肿瘤部位、或所述患者的肿瘤分期。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述多个机器学习模型包括使用第三数据类别的第三数据进行训练的第三机器学习模型,所述第三数据类别不是所述多个数据类别的一部分;并且其中,所述第三预测模型不是基于不存在于所述患者的所述多个数据类别中的所述第三数据类别针对所述患者选择的。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述临床预测包括预测所述患者在从所述患者被诊断为具有处于晚期的肿瘤时起的预定时间处的存活率。6.根据权利要求5所述的方法,进一步包括基于所预测的存活率确定针对所述患者的治疗。7.根据权利要求5或6所述的方法,其特征在于,所述多个数据类别包括与由所述患者接收的治疗有关的类别;并且其中,所述临床预测包括预测所述患者响应于所述治疗在所述预定时间处的存活率。8.根据权利要求5

7中任一项所述的方法,其特征在于,所述第一机器学习模型和所述第二机器学习模型包括以下各项中的至少一项:随机森林模型或危险函数。9.根据权利要求8所述的方法,其特征在于,所述第一机器学习模型和所述第二机器学习模型包括随机森林模型,所述随机森林模型包括多个决策树,每个决策树被配置成用于处理数据的所述第一子集的子集,以生成累积危险函数(CHF)值;并且其中,所述患者在所述预定时间处...

【专利技术属性】
技术研发人员:J
申请(专利权)人:豪夫迈
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1