医疗文本命名实体识别方法和装置制造方法及图纸

技术编号:19009114 阅读:68 留言:0更新日期:2018-09-22 08:59
本申请公开了一种医疗文本命名实体识别方法和装置,该方法包括:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P;将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。根据本申请的方法,医学术语识别准确率和召回率高,并且计算速度快,能够快速进行医学术语识别,进而用于模型计算和预测。

Medical text named entity recognition method and device

The present application discloses a method and apparatus for naming entity recognition of medical text, which comprises: input the medical text into a forward long-term and short-term memory network and a backward long-term and short-term memory network respectively to obtain a first output result and a second output result; and use the first activation function to separate the first output result and the said one The second output result is mapped and merged to get the third output result; the second activation function is used to calculate the third output result, and the n * r dimension matrix P is obtained; the matrix P is substituted into the conditional random field transfer matrix, and the global optimal tag sequence corresponding to the named entity is calculated and obtained. According to the method of the application, the accuracy and recall rate of medical terminology recognition are high, and the calculation speed is fast, and the medical terminology recognition can be carried out quickly, and then used for model calculation and prediction.

【技术实现步骤摘要】
医疗文本命名实体识别方法和装置
本申请涉及医学健康领域,特别是涉及医疗文本命名实体识别方法和装置、计算机设备、计算机可读存储介质和计算机程序产品。
技术介绍
1968年,为了便于医务人员对病人的病情进行诊断推理,韦德(Weed)博士提出面向问题组织电子病历。此后,基于电子病历等医疗文本的临床决策支持研究备受关注,该研究通常需要应用自然语言处理、信息抽取等技术对医疗文本进行处理,从而识别文本中的实体和实体关系;然后,基于这些数据去训练医学模型,并利用医学模型对人体健康进行预测和分析。因此,实体和实体关系识别的准确性对于模型的准确性而言至关重要。目前,常用的命名实体识别方法是基于词典和规则的方法;医疗文本命名实体识别多采用基于词典的方法。医疗领域中的术语词典包括国际疾病分类-10(InternationalClassificationofDiseases-10,ICD-10)等。由于医疗文本中包含大量专业术语,术语词典作为一个非常重要的资源,对于部分实体的识别有着重要作用。然而,单纯的基于词典的方法既不能考虑医疗文本中的上下文信息,又不能适应复杂的语言现象并输出全局最优的结果。
技术实现思路
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。根据本申请的一个方面,提供了一种医疗文本命名实体识别方法,包括:步骤S11:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;步骤S12:利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;步骤S13:利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;以及步骤S14:将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。采用该方法,能够对医疗文本中具有实体意义的词语进行分析,并将其进行分类。通过对大量的文本进行分析,可以对医疗文本数据进行精简,提取其中具有实体意义的词语。通过对数据进行加工,能够得到标准化的标签数据,从而为后续的应用作准备。标签数据可以应用于数据分析的各个方面,例如建模、检索、预测等。进一步地,步骤S14后还包括:步骤S15:分别将所述全局最优标签序列中相同类别的标签及其对应的命名实体合并,得到最终的标签序列及命名实体序列。通过该步骤,能够进一步地简化医疗文本数据,对医疗文本进行更加简练的分类。进一步地,步骤S11具体包括:步骤S111:对所述医疗文本进行分词,计算分词后每个词语和标点的词向量;以及步骤S112:将所有的词向量按照所述医疗文本中词语的顺序进行正向拼接,输入所述前向长短期记忆网络,得到第一输出结果;以及将所有的词向量按照所述医疗文本中词语的顺序进行反向拼接,输入所述后向长短期记忆网络,得到第二输出结果。进一步地,所述前向长短期记忆网络和所述后向长短期记忆网络的遗忘门的权重被设置为零或者接近零。进一步地,所述第一激活函数为双曲正切激活函数,所述第二激活函数为Softmax激活函数。根据本专利技术的方法,医学术语识别准确率和召回率较高,可达90%以上,并且速度快,识别结果准确。根据本申请的一个方面,还提供了一种医疗文本命名实体识别装置,包括:长短期记忆网络计算模块,其配置成将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;第一激活函数计算模块,其配置成利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;第二激活函数计算模块,其配置成利用基于第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;和全局最优标签序列计算模块,其配置成将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。进一步地,所述第一激活函数为双曲正切激活函数,所述第二激活函数为Softmax激活函数。通过上述的医疗文本命名实体识别方法能够得到命名实体和标签数据,依据该数据对模型进行训练能够得到准确的模型,进而为用户利用该模型进行预测提供方便。用户利用该模型得到的结果仅作为参考,从而为其后续的工作和判断提供便利。根据本申请的一个方面,还提供了一种健康预测装置,包括:识别模块,其配置成识别医疗文本中的命名实体,并将所述命名实体与预先设置的标签相对应;训练模块,其配置成利用所述命名实体及其对应的所述标签对医学健康预测模型进行训练;和预测模块,其配置成利用训练后的医学健康预测模型对健康进行预测。进一步地,识别模块具体包括:长短期记忆网络计算模块,其配置成将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;第一激活函数计算模块,其配置成利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;第二激活函数计算模块,其配置成利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;和全局最优标签序列计算模块,其配置成将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。进一步地,所述第一激活函数为双曲正切激活函数,所述第二激活函数为Softmax激活函数。根据本申请的一个方面,还提供了一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述的医疗文本命名实体识别方法。根据本申请的一个方面,还提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述的医疗文本命名实体识别方法。根据本申请的一个方面,还提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述的医疗文本命名实体识别方法。附图说明后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:图1是本申请的医疗文本命名实体识别方法的一个实施例的流程图;图2是图1中的S11步骤的一个实施例的流程图;图3是本申请的医疗文本命名实体识别方法的一个实施例的原理框图;图4是本申请的医疗文本命名实体识别装置的一个实施例的框图;图5是图4的中长短期记忆网络计算模块一个实施例的框图。具体实施方式根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。参见图1,根据本专利技术的一个方面,提供了一种医疗文本命名实体识别方法,包括:步骤S11:将所述医疗文本分别输入前向长短期本文档来自技高网...
医疗文本命名实体识别方法和装置

【技术保护点】
1.一种医疗文本命名实体识别方法,包括:步骤S11:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;步骤S12:利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;步骤S13:利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;以及步骤S14:将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。

【技术特征摘要】
1.一种医疗文本命名实体识别方法,包括:步骤S11:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;步骤S12:利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;步骤S13:利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;以及步骤S14:将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。2.根据权利要求1所述的医疗文本命名实体识别方法,其特征在于,步骤S14后还包括:步骤S15:分别将所述全局最优标签序列中相同类别的标签及其对应的命名实体合并,得到最终的标签序列及命名实体序列。3.根据权利要求1所述的医疗文本命名实体识别方法,其特征在于,步骤S11包括:步骤S111:对所述医疗文本进行分词,计算分词后每个词语和标点的词向量;以及步骤S112:将所有的词向量按照所述医疗文本中词语的顺序进行正向拼接,输入所述前向长短期记忆网络,得到第一输出结果;以及将所有的词向量按照所述医疗文本中词语的顺序进行反向拼接,输入所述后向长短期记忆网络,得到第二输出结果。4.根据权利要求1至3的任一项所述的医疗文本命名实体识别方法,其特征在于:所述前向长短期记忆网络和所述后向长短期记忆网络的遗忘门的权重被设置为零或者接近零。5.根据权利要求1至3的任一项所述的医疗文本命名实体识别方法,其特征在于...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:北京颐圣智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1