基于上下文相关的医学命名实体识别方法技术

技术编号：20681239 阅读：51 留言：0更新日期：2019-03-27 18:59

本发明专利技术公开了一种基于上下文相关的医学命名实体识别方法，包括以下步骤：(1)将电子病历记录数据分为训练数据和测试数据两部分，并对训练数据进行标注，标注后的训练数据中包含病例原始文本和实体标注；(2)以双向长短时记忆网络为基础，引入上下文依赖，建立基于Bi‑LSTM的医学命名实体识别模型，使用训练数据训练，得到训练后的医学命名实体识别模型；(3)将测试数据输入医学命名实体识别模型中，得到命名实体的最优标注序列。本发明专利技术提供的方法可以有效地提取出病例文本中的身体部位，症状，症状描述，药物，手术等信息，同时在加入上下文依赖层后，精度相比原始的Bi‑LSTM有所提升。

全部详细技术资料下载

【技术实现步骤摘要】
基于上下文相关的医学命名实体识别方法
本专利技术属于数据处理领域，具体涉及一种基于上下文相关的医学命名实体识别的方法。
技术介绍
随着电子病历系统的发展，积累了越来越多的电子病例文本数据，在有效利用这些病例文本中，命名实体识别是一项非常基础的技术。通过命名实体识别，可以有效地提取出病例文本中诸如身体部分，症状，手术等信息，为后续进一步的数据分析提供基础。目前现有技术中关于命名实体识别的方法主要采用的是基于Bi-LSTM或Bi-LSTM+CRF的方法。公开号为CN107644014A的中国专利文献公开了一种基于双向LSTM和CRF的命名实体识别方法，该方法是基于现有的传统命名实体识别算法进行的改进优化，具体步骤如下：(1)对文本进行预处理，提取文本词组信息和字符信息；(2)利用双向LSTM神经网络对文本字符信息进行编码转换成字符向量；(3)利用glove模型对文本词组信息进行编码转换成词向量；(4)将字符向量和词向量组合成上下文信息向量，并放入双向LSTM神经网络中；(5)利用线性链条件随机场对双向LSTM的输出进行解码，得到文本标注实体。公开号为CN107908614的中国专利文献公开了一种基于Bi-LSTM的命名实体识别方法。该方法包括：1)对命名实体识别的训练语料进行标注，形成标注语料；2)将标注语料中的词和字符转化为向量；3)利用词和字符的向量建立基于Bi-LSTM的命名实体识别模型，并训练该命名实体识别模型的参数；4)利用训练好的命名实体识别模型，对待预测的数据进行命名实体识别预测。但基于Bi-LSTM或Bi-LSTM+CRF的命名实体识别方法的精...

【技术保护点】
1.基于上下文相关的医学命名实体识别方法，包括以下步骤：(1)将电子病历记录数据分为训练数据和测试数据两部分，并对训练数据进行标注，标注后的训练数据中包含病例原始文本和实体标注；(2)以双向长短时记忆网络为基础，引入上下文依赖，建立基于Bi‑LSTM的医学命名实体识别模型，使用训练数据训练，得到训练后的医学命名实体识别模型；(3)将测试数据输入医学命名实体识别模型中，得到命名实体的最优标注序列。

【技术特征摘要】
1.基于上下文相关的医学命名实体识别方法，包括以下步骤：(1)将电子病历记录数据分为训练数据和测试数据两部分，并对训练数据进行标注，标注后的训练数据中包含病例原始文本和实体标注；(2)以双向长短时记忆网络为基础，引入上下文依赖，建立基于Bi-LSTM的医学命名实体识别模型，使用训练数据训练，得到训练后的医学命名实体识别模型；(3)将测试数据输入医学命名实体识别模型中，得到命名实体的最优标注序列。2.如权利要求1所述的基于上下文相关的医学命名实体识别方法，其特征在于，在步骤(1)中，所述的训练数据中：病历原始文本为X＝{x1，…，xT}，包含了T长度的中文字符；实体标注为Y＝{y1，…，yT}，与病历原始文本相对应并等长的实体类别标签；其中yi来自于BMESO标签，B、M、E、S和O分别代表了实体的开始、中间、结束、单字实体以及非实体的标签；BMESO标签后对应的实体类别包括身体部位、症状、症状描述、手术和药物。3.如权利要求2所述的基于上下文相关的医学命名实体识别的方法，其特征在于，在步骤(2)中，使用训练数据训练的过程中：定义一个转移矩阵A∈Rm×m，其中m为标签的数量；定义实体标注序列的分数计算公式为：定义医学命名实体识别模型的损失函数：其中y为实体标注序列，Yx为预测序列，训练医学命名实体识别模型的过程为最小化损失函数。4.如权利要求1所述的基于上下文相关的医学命名实体识别的方法，其特征在于，所述的训练后的医学命名实体识别模型包括：Bi-LSTM层：以测试数据为输入，输出隐藏层特征FH＝[fh1，…，fhT]，BH＝[bh1，…，bhT]，其中FH代表前向隐藏层特征，BH代表后向隐藏层特征；上下文依赖层，对隐藏层特征重新计算，得到更新的前后双向的特征表达和全连接层，拼接和输出预测序列Y＝[y1，…，yT]；CRF层，将预测序列Y输...

【专利技术属性】
技术研发人员：黄正行，葛臻晓，段会龙，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人