当前位置: 首页 > 专利查询>浙江大学专利>正文

基于上下文相关的医学命名实体识别方法技术

技术编号:20681239 阅读:51 留言:0更新日期:2019-03-27 18:59
本发明专利技术公开了一种基于上下文相关的医学命名实体识别方法,包括以下步骤:(1)将电子病历记录数据分为训练数据和测试数据两部分,并对训练数据进行标注,标注后的训练数据中包含病例原始文本和实体标注;(2)以双向长短时记忆网络为基础,引入上下文依赖,建立基于Bi‑LSTM的医学命名实体识别模型,使用训练数据训练,得到训练后的医学命名实体识别模型;(3)将测试数据输入医学命名实体识别模型中,得到命名实体的最优标注序列。本发明专利技术提供的方法可以有效地提取出病例文本中的身体部位,症状,症状描述,药物,手术等信息,同时在加入上下文依赖层后,精度相比原始的Bi‑LSTM有所提升。

【技术实现步骤摘要】
基于上下文相关的医学命名实体识别方法
本专利技术属于数据处理领域,具体涉及一种基于上下文相关的医学命名实体识别的方法。
技术介绍
随着电子病历系统的发展,积累了越来越多的电子病例文本数据,在有效利用这些病例文本中,命名实体识别是一项非常基础的技术。通过命名实体识别,可以有效地提取出病例文本中诸如身体部分,症状,手术等信息,为后续进一步的数据分析提供基础。目前现有技术中关于命名实体识别的方法主要采用的是基于Bi-LSTM或Bi-LSTM+CRF的方法。公开号为CN107644014A的中国专利文献公开了一种基于双向LSTM和CRF的命名实体识别方法,该方法是基于现有的传统命名实体识别算法进行的改进优化,具体步骤如下:(1)对文本进行预处理,提取文本词组信息和字符信息;(2)利用双向LSTM神经网络对文本字符信息进行编码转换成字符向量;(3)利用glove模型对文本词组信息进行编码转换成词向量;(4)将字符向量和词向量组合成上下文信息向量,并放入双向LSTM神经网络中;(5)利用线性链条件随机场对双向LSTM的输出进行解码,得到文本标注实体。公开号为CN107908614的中国专利文献公开了一种基于Bi-LSTM的命名实体识别方法。该方法包括:1)对命名实体识别的训练语料进行标注,形成标注语料;2)将标注语料中的词和字符转化为向量;3)利用词和字符的向量建立基于Bi-LSTM的命名实体识别模型,并训练该命名实体识别模型的参数;4)利用训练好的命名实体识别模型,对待预测的数据进行命名实体识别预测。但基于Bi-LSTM或Bi-LSTM+CRF的命名实体识别方法的精确度较低,如何提升其准确性并应用于电子病历文本中,是亟需解决的问题。
技术实现思路
本专利技术的目的是提供一种基于上下文相关的医学命名实体识别的方法,可以有效地提取出病例文本中的身体部位,症状,症状描述,药物,手术等信息,同时在加入上下文依赖层后,精度相比原始的Bi-LSTM有所提升。为实现上述目的,本专利技术提供以下技术方案:基于上下文相关的医学命名实体识别方法,包括以下步骤:(1)将电子病历记录数据分为训练数据和测试数据两部分,并对训练数据进行标注,标注后的训练数据中包含病例原始文本和实体标注;(2)以双向长短时记忆网络为基础,引入上下文依赖,建立基于Bi-LSTM的医学命名实体识别模型,使用训练数据训练,得到训练后的医学命名实体识别模型;(3)将测试数据输入医学命名实体识别模型中,得到命名实体的最优标注序列。在步骤(1)中,所述的训练数据中:病历原始文本为X={x1,…,xT},包含了T长度的中文字符;实体标注为Y={y1,…,yT},与病历原始文本相对应并等长的实体类别标签,其中yi来自于BMESO标签,B、M、E、S和O分别代表了实体的开始、中间、结束、单字实体以及非实体的标签;标签后对应的实体类别包括身体部位、症状、症状描述、手术和药物。在步骤(2)中,使用训练数据训练的过程中:定义一个转移矩阵A∈Rm×m,其中m为标签的数量;定义实体标注序列的分数计算公式为:定义医学命名实体识别模型的损失函数:其中y为实体标注序列,Yx为预测序列,训练医学命名实体识别模型的过程为最小化损失函数。最小化损失函数,即,表示此预测序列为实体标注序列的概率最大。本专利技术使用基于梯度的方法来训练模型,在损失函数的值不再下降时,停止训练。所述的训练后的医学命名实体识别模型包括:Bi-LSTM层:以测试数据为输入,输出隐藏层特征FH=[fh1,…,fhT],BH=[bh1,…,bhT],其中FH代表前向隐藏层特征,BH代表后向隐藏层特征;上下文依赖层,对隐藏层特征重新计算,得到更新的前后双向的特征表达和全连接层,拼接和输出预测序列Y=[y1,…,yT],其中W1为第t个特征的上文权重,W2为第t个特征的下文权重,b为偏置。CRF层,将预测序列Y输入条件随机场CRF中,得到概率最大的一个实体标注序列作为最优实体标注序列。所述的Bi-LSTM具有三个门控结构:输入门控、遗忘门控和输入门控;通过输入门控和遗忘门控来控制输入,前一步状态的比例更新得到最新的状态,通过输出门控来控制隐藏层的输入;三个门控的计算公式为:it=σ(Wixxt+Wihht-1+Wicct-1)ft=σ(Wfxxt+Wfhht-1+Wfcct-1)ct=ft⊙ct-1+it⊙φ(Wcxxt+Wchht-1)ot=σ(Woxxt+Wohht-1+Wocct)ht=ot⊙φ(ct)其中,it表示输入门控,ft表示遗忘门控,ot表示输入门控,ct表示状态,ht表示输出的隐藏特征,为sigmoid激活函数,为tanh激活函数。所述的上下文依赖层对隐藏层特征重新计算的方法为:(1)对于在文本序列第t个特征,考虑上下文n个词的特征,前向取fhi,,i∈(t-n,t]与l∈(t-n,t-1],后向取bhi,i∈[t,t+n)与l∈[t+1,t+n);(2)通过softmax函数做归一化,分别得到前向特征和后向特征中第t个特征的上下文权重;(3)根据步骤(2)得到的上下文权重重新计算隐藏层特征,得到更新的前后双向的特征表达。其中,n的取值根据实际进行调整。在步骤(2)中,前向特征中的上下文权重的计算方法为:其中,lsi表示上文权重,表示下文权重;其中,lai=fhi×W,W∈RD,D代表隐藏层特征的维度。在步骤(3)中,更新的前向特征表达特征中的第t个特征:依次类推,得到根据以上方法,依次类推,同样得到更新的后向特征表达特征本专利技术还包括对输入到Bi-LSTM的病历原始文本进行预处理:将每一个词都映射为唯一的一个数字,并将文本字符序列转换为数字序列,将数据集标记为D={S0,…,Sn},其中Si={ci0,…,ciT},S代表一句文本,c代表一个中文字符;对每一个字符做词嵌入,得到字符特征向量,输入到Bi-LSTM中。本专利技术提供的医学命名实体识别方法中的双向长短时记忆网络以一段文本文字作为输入,得到隐藏层的特征表达,在此特征表达的基础上,引入上下文相关依赖,以此来计算得到更新的隐藏层特征。隐藏层特征计算得到每个词属于一类实体的概率,在此之上,加入条件随机场,输出概率最大的标注序列。本专利技术提供的医学命名实体识别方法采用字符级而非词语级的向量,可以避免受到分词精度的影响,同时还可以规避未登录词的问题;可以有效地提取出病例文本中的身体部位,症状,症状描述,药物,手术等信息,同时在加入上下文依赖层后,精度相比原始的Bi-LSTM有所提升。附图说明图1为本专利技术提供的基于上下文相关的医学命名实体识别的模型示意图。图2为对比例1中词嵌入、双向长短时记忆网络、条件随机场结构的基础模型示意图。图3为对比例2中词嵌入、卷积神经网络、条件随机场结构的基础模型示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。本专利技术提供的基于上下文相关的医学命名实体识别方法,包括以下步骤:S101,将电子病历记录数据分为训练数据和测试数据两部分,并对训练数据进行标注,标注后的电子病历记录数据中包含病例原始文本、与之相对应本文档来自技高网
...

【技术保护点】
1.基于上下文相关的医学命名实体识别方法,包括以下步骤:(1)将电子病历记录数据分为训练数据和测试数据两部分,并对训练数据进行标注,标注后的训练数据中包含病例原始文本和实体标注;(2)以双向长短时记忆网络为基础,引入上下文依赖,建立基于Bi‑LSTM的医学命名实体识别模型,使用训练数据训练,得到训练后的医学命名实体识别模型;(3)将测试数据输入医学命名实体识别模型中,得到命名实体的最优标注序列。

【技术特征摘要】
1.基于上下文相关的医学命名实体识别方法,包括以下步骤:(1)将电子病历记录数据分为训练数据和测试数据两部分,并对训练数据进行标注,标注后的训练数据中包含病例原始文本和实体标注;(2)以双向长短时记忆网络为基础,引入上下文依赖,建立基于Bi-LSTM的医学命名实体识别模型,使用训练数据训练,得到训练后的医学命名实体识别模型;(3)将测试数据输入医学命名实体识别模型中,得到命名实体的最优标注序列。2.如权利要求1所述的基于上下文相关的医学命名实体识别方法,其特征在于,在步骤(1)中,所述的训练数据中:病历原始文本为X={x1,…,xT},包含了T长度的中文字符;实体标注为Y={y1,…,yT},与病历原始文本相对应并等长的实体类别标签;其中yi来自于BMESO标签,B、M、E、S和O分别代表了实体的开始、中间、结束、单字实体以及非实体的标签;BMESO标签后对应的实体类别包括身体部位、症状、症状描述、手术和药物。3.如权利要求2所述的基于上下文相关的医学命名实体识别的方法,其特征在于,在步骤(2)中,使用训练数据训练的过程中:定义一个转移矩阵A∈Rm×m,其中m为标签的数量;定义实体标注序列的分数计算公式为:定义医学命名实体识别模型的损失函数:其中y为实体标注序列,Yx为预测序列,训练医学命名实体识别模型的过程为最小化损失函数。4.如权利要求1所述的基于上下文相关的医学命名实体识别的方法,其特征在于,所述的训练后的医学命名实体识别模型包括:Bi-LSTM层:以测试数据为输入,输出隐藏层特征FH=[fh1,…,fhT],BH=[bh1,…,bhT],其中FH代表前向隐藏层特征,BH代表后向隐藏层特征;上下文依赖层,对隐藏层特征重新计算,得到更新的前后双向的特征表达和全连接层,拼接和输出预测序列Y=[y1,…,yT];CRF层,将预测序列Y输...

【专利技术属性】
技术研发人员:黄正行葛臻晓段会龙
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1