当前位置: 首页 > 专利查询>华侨大学专利>正文

一种基于先验医学知识的疾病风险预测方法技术

技术编号:21161915 阅读:24 留言:0更新日期:2019-05-22 08:31
本发明专利技术公开了一种基于先验医学知识的疾病风险预测方法,包括以下步骤:S1、以向量形式输入患者p的EHR记录数据;S2、使用基于卷积神经网络的预测模型来获得预测概率,从而获得目标函数;S3、整合先验医学知识融入步骤S2的预测模型,引入一个期望分布值并设置约束特征,通过正则化方法得到损失函数;S4、通过损失函数计算新的目标函数,并获得风险预测模型的最优参数;通过最优参数预测患者P的疾病风险。本发明专利技术使用后验正则化方法自动将离散的医学知识或规则结合到深度预测模型中,其构建的预测模型实现了比最先进的基线更准确的预测结果。

A Prediction Method of Disease Risk Based on Priori Medical Knowledge

The invention discloses a disease risk prediction method based on prior medical knowledge, which includes the following steps: S1, input EHR record data of patient P in vector form; S2, use prediction model based on convolution neural network to obtain prediction probability, thereby obtaining objective function; S3, integrate prior medical knowledge into prediction model of Constraint features are set and loss function is obtained by regularization method. S4. New objective function is calculated by loss function and the optimal parameters of risk prediction model are obtained. Disease risk of patient P is predicted by optimal parameters. The invention uses a posterior regularization method to automatically combine discrete medical knowledge or rules into a depth prediction model, and the prediction model constructed by the method achieves more accurate prediction results than the most advanced baseline.

【技术实现步骤摘要】
一种基于先验医学知识的疾病风险预测方法
本专利技术涉及先验医学知识
,尤其涉及一种基于先验医学知识的疾病风险预测方法。
技术介绍
随着电子健康记录的大量积累对这些数据的分析使研究人员和医疗服务提供者更接近个性化医疗的目标。然而,原始EHR数据有其自身的问题,如高维数、时间性、稀疏性、不规则性、偏倚等。这些挑战大大增加了直接传统机器学习或统计模型用于预测患者潜在疾病的应用难度,这是中世纪医学领域的一个核心任务,称为风险预测。最近,深度学习模型显示了直接从原始电子健康记录中提取出有意义特征的能力,包括计算表型、诊断预测、风险预测等。特别是在风险预测任务中,采用了基于注意力的递归神经网络来预测患者心衰。随着性能的提高,卷积神经网络也被用来捕捉患者来访时的局部时间特征,并预测疾病的风险。虽然上述基于深度学习的模型在风险预测任务中取得了很好的效果,但是他们都忽视了先验医学知识的重要性,例如疾病与其相应风险因素之间的关系。众所周知,先验医学知识在医疗领域起着重要作用。当一个病人去看医生时,医生首先会检查病人目前的症状,然后会仔细检查病史,如药物、吸烟史、饮酒史、家族史等,这些都是疾病的危险因素。
技术实现思路
本专利技术目的是克服现有技术上的不足,将先验医学知识与预测模型合理结合,提供一种基于先验医学知识的疾病风险预测方法。本专利技术是一种新颖的预测模型PRIME,它可以成功地将异构离散的先验医学知识集成到预测模型中以提高性能,该模型可以采用所有现成的基于深度学习的方法作为基本预测模型。模型构建包括以下步骤:1).以向量形式输入第p位患者的EHR记录数据X(p)。2).使用基于卷积神经网络(CNN)的预测模型来获得预测概率向量获得目标函数。3).整合先验医学知识进入基本的风险预测模型,引入一个期望分布q(yp)以及后验正则化技术,设计约束特征,得到损失函数。4).计算新的目标函数,获得风险预测模型的最优参数并进行风险预测。所述的步骤1)具体操作如下:预测模型的输入是第p位患者的EHR记录,定义为由于输入X(p)过于稀疏且具有高维性,因此很自然地要学习它的低维和有意义的嵌入。因此,我们首先将输入xt嵌入到访问级表示中vt=Wυxt+bυ。其中,和是需要学习出的参数,k是潜在表示的大小。所述步骤2)具体操作如下:2.1)在的时间维度上应用卷积运算。为了捕获多次访问之间的时间依赖性,我们使用具有不同窗口大小的m个过滤器的组合。设l表示时间窗口的大小,然后vt:t+l-1表示从vt到vt+l-1的l次的连接。一个滤波器应用于l次访问的窗口来产生一个新的特征使用ReLU激活功能如下:ft=ReLU(Wfvt:t+l-1+bf),其中bf是偏置项,以及ReLU(f)=max(f,0)。这个过滤器适用于整个描述中的每个可能的访问窗口,以生成如下的一个图像特征:2.2)应用一个全连接的softmax层以产生预测概率,如下:2.3)预测概率可以由后验分布表示,其中yp是真实值。真实值yp和预测值之间的交叉熵被用于计算损失。风险预测的目标函数是交叉熵的平均值:所述步骤3)具体操作如下:Q是后验信息约束的集合,定义为:其中φ(X(p),yp)是约束特征的集合,b是约束特征期望的(已知)界限。在医学领域,医学将约束特征分为五大类:患者特征,潜在疾病,疾病持续时间,遗传学和家族史。设q(yp)表示患者p的期望分布。后正则化损失函数定义为:其中α是一个超参数,用于平衡预测模型损失之间的平衡以及后验正则化,KL(·||·)是用于测量预测模型中期望分布与后验分布之间差异的Kullback-Leibler散度。3.1)设计患者约束特征。给出患者p的人口统计信息和相应的标签yp,关于种族的特征被定义为如下:其中ε定义为与预测相关的种族集合。因为φe的值为1或0,因此种族向量φe=[1,1]或[0,0]。为了模拟对案例和控制的不同重要性,引入约束特征种族的置信度向量γe。对于大多数疾病,随着患者年龄的增长,风险会增加。因此,引用常用的逻辑函数来模拟年龄的影响如下:其中是疾病特异性参数,用于模拟年龄对风险预测的影响。如果疾病对年龄不敏感,则ψ是预定义的标量。在本文,使用年龄组而不是患者的真实年龄,设置ψ=9(即,年龄是40到45岁)。因此,年龄的特征向量γa是对应的置信向量。3.2)设计潜在疾病约束特征首先得到每个风险预测任务的潜在疾病,记为然后计算这些潜在疾病在p患者就诊的频率,用up表示。原因是频率越高,风险越高。另外,不同潜在疾病的对于最终疾病预测的影响是不同的。因此,潜在疾病的约束特征设计如下:其中,是代表不同潜在疾病的不同影响的倾斜参数,是潜在疾病的数量,sum(up)是up的总和。潜在疾病的向量是它的置信度向量是γu。3.3)设计疾病持续时间约束特征为了获得潜在疾病的持续时间,首先从患者p的就诊记录中找到某一潜在疾病d的起始时间然后使用计算持续时间。最后,疾病的持续时间记为dp。基于dp,疾病持续时间的约束特征定义如下:其中,类似于来模拟潜在疾病中的差异,以及与置信向量γd。3.4)设计遗传病和家族史约束特征首先收集了一组与目标疾病相关的遗传疾病设C(p)表示患者p访问X(p)中的所有诊断代码。当C(p)和的交集不为空,约束特征值为1。正式公式如下:与种族约束特征相似,φg的值为1或0。因此,φg=[1,1]或[0,0],γg为置信向量。一些疾病与整个家庭的疾病史有关,例如慢性肾病。我们收集了一系列家族史疾病然后提供如下的约束特征函数:其中,φh=[1,1]或[0,0],置信向量为γh。3.5)使用所有风险因素的权重组合进行预测,将损失函数改写为如下目标函数为:其中对先验医学知识编码的后验分布定义如下:Γ·φ(X(p),yp;w)=γe⊙φe+γa⊙φa+γu⊙φu+γd⊙φd+γg⊙φg+γh⊙φhΓ是根据先验医学知识不同的约束特征类别的可学习置信矩阵,w为参数集。其中是真实值yp和后验分布之间的交叉熵平均值,定义如下:所述的步骤4)具体操作如下:最小化目标函数,得到一系列参数:通过下式等到未知的病人p患病风险的预测概率:与现有技术相比,本专利技术具有的优点和积极效果是:本专利技术使用后验正则化方法自动将离散的医学知识或规则结合到深度预测模型中。相较于传统的后验正则化方法,模拟患者目标疾病的所需分布时,不需要手动设置每一条先验医学知识的界限,其构建的预测模型实现了比最先进的基线更准确的预测结果,另外,本专利技术方法所构建的预测模型可以通过对数线性模型自动学习不同的先验知识,给疾病风险预测工作带来了极大的贡献。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的框架示意图;图2为学习出的置信矩阵示意图;图3(a)为病例预测中先天疾病对疾病预测的影响示意图,图3(b)对照患者的潜在疾病权重示意图;图4(a)为总体趋势的权重示意图;图4(b)为潜在疾病权重示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术本文档来自技高网...

【技术保护点】
1.一种基于先验医学知识的疾病风险预测方法,其特征在于:包括以下步骤:S1、以向量形式输入患者p的EHR记录数据;S2、使用基于卷积神经网络的预测模型来获得预测概率,从而获得目标函数;S3、整合先验医学知识融入步骤S2的预测模型,引入一个期望分布值并设置约束特征,通过正则化方法得到损失函数;S4、通过损失函数计算新的目标函数,并获得风险预测模型的最优参数;通过最优参数预测患者P的疾病风险。

【技术特征摘要】
1.一种基于先验医学知识的疾病风险预测方法,其特征在于:包括以下步骤:S1、以向量形式输入患者p的EHR记录数据;S2、使用基于卷积神经网络的预测模型来获得预测概率,从而获得目标函数;S3、整合先验医学知识融入步骤S2的预测模型,引入一个期望分布值并设置约束特征,通过正则化方法得到损失函数;S4、通过损失函数计算新的目标函数,并获得风险预测模型的最优参数;通过最优参数预测患者P的疾病风险。2.如权利要求1所述的基于先验医学知识的疾病风险预测方法,其特征在于:所述步骤S1中第p位患者的EHR记录数据为将xt嵌入到访问级中则:vt=Wυxt+bυ其中,和是需要学习的参数,k是潜在表示的大小。3.如权利要求2所述的基于先验医学知识的疾病风险预测方法,其特征在于:所述步骤S2中获得预测概率向量包括以下步骤:S21、设l表示时间窗口的大小,vt:t+l-1表示从vt到vt+l-1的l次的连接,滤波器应用于l次访问的窗口来产生一个新的特征使用ReLU激活如下:ft=ReLU(Wfvt:t+l-1+bf)ReLU(f)=max(f,0)其中,bf是偏置项;则生成图像特征:S21、应用一个全连接的softmax层用以产生预测概率,如下:4.如权利要求3所述的基于先验医学知识的疾病风险预测方法,其特征在于:所述步骤S2中预测概率由后验分布P(yp|X(p);θ)表示,其中yp是真实值,真实值yp和预测概率之间的交叉熵被用于计算损失,则风险预测的目标函数为交叉熵的平均值:5.如权利要求4所述的基于先验医学知识的疾病风险预测方法,其特征在于:所述步骤S3中得到损失函数包括以下步骤:S31、设Q是后验信息约束的集合,则:其中,φ(...

【专利技术属性】
技术研发人员:莫毓昌李灿东林栋黄华林连志杰
申请(专利权)人:华侨大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1