关于疾病的多状态模型的机器学习制造技术

技术编号:35091680 阅读:29 留言:0更新日期:2022-10-01 16:50
本公开内容特别涉及一种用于机器学习函数的计算机实现的方法,所述函数被配置为:基于表示患者的医学特征的输入协变量,关于具有多个状态和多个状态之间的转变的疾病的多状态模型,输出针对间隔集合中的每个间隔的转变特定概率的分布,间隔集合形成随访期的细分。机器学习方法包括提供患者集合的协变量和事件发生时间数据的数据集,以及基于数据集来训练该函数。这形成了用于确定关于疾病的多状态模型的准确患者数据的改进的解决方案。模型的准确患者数据的改进的解决方案。模型的准确患者数据的改进的解决方案。

【技术实现步骤摘要】
关于疾病的多状态模型的机器学习


[0001]本公开内容涉及生物统计学领域,并且具体而言,涉及与机器学习函数有关的方法、数据结构和设备,所述函数被配置为基于表示患者的医学特征的输入协变量,关于具有多个状态和多个状态之间的转变的疾病的多状态模型,输出转变特定概率的分布。

技术介绍

[0002]疾病预后对于医生在做出医疗决策时是非常重要的,并且它涉及估计患者风险的专门算法。事件历史分析,也称为存活分析,旨在预测直到发生一个或多个未来感兴趣事件为止的时间,并且在疾病预后的背景下,其用于包括健康护理的多个领域。特别地,存活分析在健康护理中非常经常用于对患者结果存活进行建模,以便评估治疗功效。在临床实践中,临床医生可能对疾病的完全演变更感兴趣,而不仅仅是对独特或复合事件更感兴趣。因此,已经开发了多状态方法作为存活分析的推广(generalization),其中多个事件可以随时间连续发生(参见参考文献1)。
[0003]疾病

死亡模型是由三种状态:“健康”、“复发”或“患病”和“死亡”组成的特定多状态模型。这是用于跟踪癌症患者通过中间非致命复发状态和死亡状态的演变的最常见结构,例如在卵巢癌(参见参考文献2)或慢性骨髓性白血病(参见参考文献3)中。疾病

死亡模型的其他应用包括阿尔茨海默病(参见参考文献4)和心血管疾病(参见参考文献5)。
[0004]在这一背景下对事件历史分析有两个主要的文献流派。
[0005]第一流派是基于传统统计理论的,包括三种方法。(i)非参数方法,特别包括Kaplan Meier估计器(参见参考文献6)和Nelson

Aalen估计器(参见参考文献7)。它们传统上用于对事件的风险进行建模,而不对事件时间的分布进行任何假设,并且它们不能进行个性化建模。(ii)参数方法实现个性化建模。事件时间通过线性回归函数与各个协变量相关,并且它们根据潜在的概率分布进行分布。(iii)半参数方法允许非参数模型和参数模型之间的折衷。它们通过线性回归函数引入协变量效应,但是它们没有对事件时间的分布做出任何假设。Cox比例风险(P.H.)模型是多变量存活分析中最广泛使用的半参数模型(参见参考文献8)。在多状态分析中,大多数现有文献使用转变特定的Cox P.H.模型作为(半)马尔可夫过程来描述多个状态之间转变的风险(参见参考文献9和10)。然而,这些传统方法依赖于关于事件时间的分布或关于协变量与事件时间之间关系的强统计假设。特别是Cox P.H.模型做出关于协变量与事件风险之间关系的线性假设。该假设在许多现实世界应用中显示出局限性,因为协变量的效应可以响应于事件风险的变化而以非线性方式变化。在Cox模型中默认不考虑协变量之间的相互作用。这限制了该模型对大数据的应用,因为大多数变量不与建模的结果直接相关,而是将与协变量效应相互作用。例如,代谢途径中的遗传变异可能不直接影响癌症复发的风险,但它可能降低或增强抗肿瘤治疗效果。Cox模型的这些局限性在临床环境中是众所周知的。
[0006]为了应对这些挑战,已经出现了采用新机器学习算法的第二种文献。特别地,已经开发了神经网络来在无统计假设框架中扩展Cox P.H.模型。Faraggi和Simon已经特别成功
地将传统的人工神经网络引入生存分析(参见参考文献11)。最近,Luck等人(参见参考文献12)、Katzman等人(参见参考文献13)、Fotso(参见参考文献14)、Kvamme等人(参见参考文献15)以及其他人(还参见参考文献16、17和18)已经扩展了深度神经网络。通过采用最先进的深度学习方法和更大的临床数据集,与Cox P.H.模型相比,他们在预测患者存活方面显示出明显改善。无论如何,它们的方法仍然局限于独特临床事件的情况。此外,大多数最近的方法直接预测事件时间的离散时间分布,作为神经网络的输出。作为对连续时间生存数据的近似,它们都执行将连续时间尺度划分为离散时间间隔。这导致相对明显的近似误差。
[0007]在这种背景下,因此需要一种用于关于疾病的多状态模型的确定准确患者数据的改进的解决方案,例如以便提供关于疾病

死亡多状态模型的疾病的演变的准确个体预测。
[0008]引用的参考文献
[0009]1.Webster AJ.Multi

stage models for the failure of complex systems,cascading disasters,and the onset of disease.PloS one 2019;14(5):e0216422.
[0010]2.Eulenburg C,Mahner S,Woelber L,Wegscheider K.A systematic model specification procedure for an illness

death model without recovery.PloS one 2015;10(4):e0123489.
[0011]3.Iacobelli S,Carstensen B.Multiple time scales in multi

state models.Statistics in medicine 2013;32(30):5315

5327.
[0012]4.Commenges D,Joly P,Letenneur L,Dartigues JF.Incidence and mortality of Alzheimer

s disease or dementia using an illness

death model.Statistics in medicine 2004;23(2):199

210.
[0013]5.Ramezankhani A,Blaha MJ,Mirbolouk hM,Azizi F,Hadaegh F.Multi

state analysis of hypertension and mortality:application of semi

Markov model in a longitudinal cohort study.BMC Cardiovascular Disorders 2020;20(1):1

13.
[0014]6.Kaplan EL,Meier P.Nonparametric estimation from incomplete observations.Journal of the American statistical association 1958;53(282):457

481.
[0015]7.Aalen O.Nonparametric infe本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的用于函数的机器学习方法,所述函数被配置为:基于表示患者的医学特征的输入协变量,关于具有多个状态和所述多个状态之间的转变的疾病的多状态模型,输出关于间隔集合中的每个间隔的转变特定概率的分布,所述间隔集合形成随访期的细分,所述机器学习方法包括:

提供患者集合的协变量和事件发生时间数据的输入数据集;以及

基于所述输入数据集,来训练所述函数。2.根据权利要求1所述的机器学习方法,其中,所述函数包括协变量共享子网络和/或每一转变的转变特定子网络。3.根据权利要求2所述的机器学习方法,其中,所述协变量共享子网络包括相应的全连接神经网络,和/或至少一个转变特定子网络包括全连接神经网络。4.根据权利要求2或3所述的机器学习方法,其中,所述协变量共享子网络包括相应的非线性激活函数,和/或至少一个转变特定子网络包括相应的非线性激活函数。5.根据权利要求2、3或4所述的机器学习方法,其中,每个转变特定子网络之后是softmax层。6.根据权利要求2至5中任一项所述的机器学习方法,其中,所述多状态模型包括竞争转变,并且所述竞争转变的所述转变特定子网络共享公共softmax层。7.根据权利要求1至6中任一项所述的机器学习方法,其中,所述训练包括使损失函数最小化,所述损失函数包括:

似然项,和/或

正则化项,所述正则化项:

在权重矩阵中,惩罚与两个相邻时间间隔相关联的权重的一阶差,和/或

在偏置向量中,惩罚与两个相邻时间间隔相关联的偏置的一阶差。8.根据权利要求1至7中任一项所述的机器学习方法,其中,所述多状态...

【专利技术属性】
技术研发人员:A
申请(专利权)人:达索系统公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1