当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于注意力机制的医疗实体向量转化方法技术

技术编号:22330353 阅读:57 留言:0更新日期:2019-10-19 12:19
本发明专利技术提供一种基于注意力机制的医疗实体向量转化方法,建立MedE2vec模型,具体包括以下步骤:患者整个医疗过程的电子病历包括时间分布零散的多次诊疗事件Event,单次的诊疗事件Event由患者的多个医疗实体Entity组成;输入患者的一次临床诊疗的所有医疗实体,由初始化向量矩阵W将其初始化为向量表示的诊疗序列;捕获患者诊疗事件序列V内部的医疗实体之间的关系即注意力机制;捕获患者不同诊疗事件间的关系:经过迭代训练得到向量矩阵W,W中的第i行即表示医疗实体集合中的向量;通过损失函数不断优化向量矩阵W,来得到最终的医疗实体向量。本发明专利技术是一个基于注意力机制的深度学习模型;MedE2vec可以生成更加精确的医疗实体向量。

【技术实现步骤摘要】
一种基于注意力机制的医疗实体向量转化方法
本专利技术属于计算机领域,具体涉及一种基于注意力机制的医疗实体向量转化方法。
技术介绍
语言概念词向量转化是将数据中的信息抽取出来的重要方法,尤其是对于那些非结构化文本数据。只有准确地将医疗文本描述转化为数字信息,也就是概念向量,才能使用复杂的机器学习和深度学习模型对其进行分析。虽然现在已经有一些成熟的文本-向量转化工具,但是专门适用于医学数据的很少,而且大多数不能抓住医疗信息中的时序信息,因此效果都不理想。随着电子病历的普及,电子病历系统累积的数据也在不断增加,这使得我们使用基于大数据的机器学习方法和深度学习方法从数据中挖掘有价值的信息成为可能。电子病历中存储着大量医生书写的描述性信息,而非普通文本,我们需要将这些复杂的非结构化文本信息转化为数值信息,才能对其有效利用,挖掘出潜在的医疗规律。因此,转化后数值信息质量的高低直接决定了我们能否从这些数据中挖掘出足够的规律,进而辅助临床实践。近些年来,机器学习和深度学习在医疗领域的应用越来越多,比如,疾病预测,患者分类,住院时间预测,再入院风险预测和死亡预测等。然而,医疗数据有一些自身的特点,例如患者的一次诊疗中包含了多个医疗实体,包括诊断、检查、用药和手术等,这些医疗实体往往构成了无序的信息集合;但是患者前后几次诊疗的间隔时间,可能是几天也可能是几个月,因此同一个患者的前后几次诊疗是有时序信息的;患者的多个医疗实体构成了患者一次诊疗序列,而多次诊疗序列又可以展现患者病情和身体状况的发展趋势。通常可以通过患者在之前多次诊疗中出现的诊断、症状和服药等信息,推断患者疾病的发展趋势和身体的健康状况变化。但是,通常的数据挖掘模型处理的大部分数据都是不包含时序信息的结构化数据,对于含有时间信息的非结构化数据处理的就更少。针对非结构化数据空间向量转化的问题,之前的研究者提出了一些解决方案,比如google在2013年提出了Word2vec模型,这个模型采用CBOW和Skip-gram两种方式,在无监督的情况下可以将文本数据转化为空间词向量[7]。Word2vec只是利用了上下文单词向量之和来生成中心词的向量或者中心词来生成上下文单词向量,所以这是一个针对通用常识文本的词向量模型,并没有对医疗领域的特殊场景来设计,也没有考虑词语的时序关系。Choi等在2016年提出了Med2vec模型,这是一个专门为医疗实体设计的模型。Med2vec也仅仅使用了类似Skip-gram的结构,同样没有很好的捕获医疗实体间的时序关系,所以转化出的向量准确性还有待提高。因此,这两个语言概念转化模型都不能准确的表达医疗场景下各个医疗实体间的关系。在目前常用的深度学习模型中,递归神经网络(RNN)和卷积神经网络(CNN)有不错的特征提取能力,之前一直被研究人员广泛应用于文本和图像的特征提取中。例如,RNN中的长短记忆神经网络(LSTM)常被用在类似生成词向量的特征提取任务中来。但是LSTM多个隐藏层的神经元值需要一层一层传递,不能大规模的并行运算,所以降低了它的计算性能。CNN通常被用来做图像的分类和识别等任务,由于其可以通过卷积和池化策略达到提取特征的目的,近些年来也被用到了自然语言处理任务中来。CNN虽然可以做并行计算,但是不可以捕获自然语言处理任务中长距离的特征关系,例如,在机器翻译中,CNN只能捕获与要翻译的词距离相近的词之间的关系,不能得到距离更远的词对它的影响,从而造成翻译不准确的问题。自然语言中的注意力机制由google在2017年提出。它借鉴了计算机视觉中对图像的不同部分采取不同的注意力的原理,可以做大规模的并行运算,并且克服了长短记忆神经网络中因距离过长造成的梯度消失的缺点。2018年google提出的Bert模型在11项自然语言处理的任务中都获得了最佳成绩,Bert的基本单元Transformer就是一种基于注意力机制的网络结构。由于注意力机制的使用,Bert可以对句子中的不同部分产生不同的重视程度,就像人在阅读时可以判断句子中的重点和非重点内容,从而更好的理解文章,因此提升了模型的整体效果。
技术实现思路
本专利技术要解决的技术问题是提供一种基于注意力机制的医疗实体向量转化方法,以解决
技术介绍
中所提出的问题。为解决上述技术问题,本专利技术的实施例提供一种基于注意力机制的医疗实体向量转化方法,其特征在于,建立MedE2vec模型,具体包括以下步骤:(1)患者整个医疗过程的电子病历包括时间分布零散的多次诊疗事件Event,单次的诊疗事件Event由患者的多个医疗实体Entity组成;将患者单次诊疗事件中的多个医疗实体定义为集合e={e1,e2,...en},n表示这一次诊疗事件中医疗实体的数量;将一位患者的诊疗事件集合表示为E={E1,E2,...ET},其中,T表示患者的所有诊疗事件数,E为有时序信息;数据集中所有唯一性的医疗实体总个数表示为eall;(2)输入患者的一次临床诊疗的所有医疗实体,由初始化向量矩阵W将其初始化为向量表示的诊疗序列:患者诊疗序列V,向量矩阵W的大小为Rh*c,c表示向量的维度;(3)捕获患者诊疗事件序列V内部的医疗实体之间的关系即注意力机制;将初始化的诊疗事件序列V输入到注意力机制中,所述注意力机制的结构包括注意力机制的基本结构和前馈神经网络,所述注意力机制的基本结构使用多头注意力机制结构,包括多个注意力头,每个所述注意力头为1个子任务,每个子任务产生各自的注意力,目标为产生更准确的医疗实体向量;所述注意力机制的公式为:其中,Q,K,V分别表示:查询向量、键向量和值向量,且Q,K和V是相等;其中,dk表示我们的初始化向量矩阵W中向量的维度;将注意力机制公式中的Q,K和V分别进行线性变化,产生多个Q,K和V,分别将Q,K和V输入该注意力机制公式中,并将其连接起来,构成完整的注意力;(4)捕获患者不同诊疗事件间的关系:经过迭代训练得到向量矩阵W,W中的第i行即表示医疗实体集合中的向量;通过损失函数不断优化向量矩阵W,来得到最终的医疗实体向量;损失函数使用log似然函数,其公式如下:其中,ei,ej都表示患者一次诊疗中的医疗实体,T表示患者的诊疗次数;通过最大化这个损失函数值,得到向量矩阵W。进一步的,所述注意力机制的公式中的h=8,注意力头数为8。进一步的,所述医疗实体包括了诊断、用药、检查和患者的症状。进一步的,所述步骤(3)中多个注意力头部计算注意力时,并行运行。本专利技术的上述技术方案的有益效果如下:本专利技术提出了一个新的生成医疗向量的方法MedE2vec模型,它是一个基于注意力机制的深度学习模型;相比于其他广泛应用的词向量生成模型Word2vec和Med2vec,MedE2vec可以生成更加精确的医疗实体向量;在本专利技术中通过对比实验结果,可以看到MedE2vec模型有更佳的向量效果。未来,我们还准备将更多的医疗知识融合到MedE2vec中,如纳入医生的先验知识,患者的一些影像数据等,并将其应用到更多的场景中,如SLE并发症预测,住院时间预测等。附图说明图1为本专利技术的MedE2vec模型的整体架构图;图2为本专利技术中SLE患者累及各个器官和系统的人数统计图;图3为本专利技术中13家三甲医院所提供的系统性红斑狼疮患者数据本文档来自技高网
...

【技术保护点】
1.一种基于注意力机制的医疗实体向量转化方法,其特征在于,建立MedE2vec模型,具体包括以下步骤:(1)患者整个医疗过程的电子病历包括时间分布零散的多次诊疗事件Event,单次的诊疗事件Event由患者的多个医疗实体Entity组成;将患者单次诊疗事件中的多个医疗实体定义为集合e={e1,e2,...en},n表示这一次诊疗事件中医疗实体的数量;将一位患者的诊疗事件集合表示为E={E1,E2,...ET},其中,T表示患者的所有诊疗事件数,E为有时序信息;数据集中所有唯一性的医疗实体总个数表示为eall;(2)输入患者的一次临床诊疗的所有医疗实体,由初始化向量矩阵W将其初始化为向量表示的诊疗序列:患者诊疗序列V,向量矩阵W的大小为R

【技术特征摘要】
1.一种基于注意力机制的医疗实体向量转化方法,其特征在于,建立MedE2vec模型,具体包括以下步骤:(1)患者整个医疗过程的电子病历包括时间分布零散的多次诊疗事件Event,单次的诊疗事件Event由患者的多个医疗实体Entity组成;将患者单次诊疗事件中的多个医疗实体定义为集合e={e1,e2,...en},n表示这一次诊疗事件中医疗实体的数量;将一位患者的诊疗事件集合表示为E={E1,E2,...ET},其中,T表示患者的所有诊疗事件数,E为有时序信息;数据集中所有唯一性的医疗实体总个数表示为eall;(2)输入患者的一次临床诊疗的所有医疗实体,由初始化向量矩阵W将其初始化为向量表示的诊疗序列:患者诊疗序列V,向量矩阵W的大小为Rh*c,c表示向量的维度;(3)捕获患者诊疗事件序列V内部的医疗实体之间的关系即注意力机制;将初始化的诊疗事件序列V输入到注意力机制中,所述注意力机制的结构包括注意力机制的基本结构和前馈神经网络,所述注意力机制的基本结构使用多头注意力机制结构,包括多个注意力头,每个所述注意力头为1个子任务,每个子任务产生各自的注意力,目标为产生更准确的医疗实体...

【专利技术属性】
技术研发人员:王理王青华邵劲松黄勋姚敏
申请(专利权)人:南通大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1