The present application discloses a method and apparatus for naming entity recognition of medical text, which comprises: input the medical text into a forward long-term and short-term memory network and a backward long-term and short-term memory network respectively to obtain a first output result and a second output result; and use the first activation function to separate the first output result and the said one The second output result is mapped and merged to get the third output result; the second activation function is used to calculate the third output result, and the n * r dimension matrix P is obtained; the matrix P is substituted into the conditional random field transfer matrix, and the global optimal tag sequence corresponding to the named entity is calculated and obtained. According to the method of the application, the accuracy and recall rate of medical terminology recognition are high, and the calculation speed is fast, and the medical terminology recognition can be carried out quickly, and then used for model calculation and prediction.
【技术实现步骤摘要】
医疗文本命名实体识别方法和装置
本申请涉及医学健康领域,特别是涉及医疗文本命名实体识别方法和装置、计算机设备、计算机可读存储介质和计算机程序产品。
技术介绍
1968年,为了便于医务人员对病人的病情进行诊断推理,韦德(Weed)博士提出面向问题组织电子病历。此后,基于电子病历等医疗文本的临床决策支持研究备受关注,该研究通常需要应用自然语言处理、信息抽取等技术对医疗文本进行处理,从而识别文本中的实体和实体关系;然后,基于这些数据去训练医学模型,并利用医学模型对人体健康进行预测和分析。因此,实体和实体关系识别的准确性对于模型的准确性而言至关重要。目前,常用的命名实体识别方法是基于词典和规则的方法;医疗文本命名实体识别多采用基于词典的方法。医疗领域中的术语词典包括国际疾病分类-10(InternationalClassificationofDiseases-10,ICD-10)等。由于医疗文本中包含大量专业术语,术语词典作为一个非常重要的资源,对于部分实体的识别有着重要作用。然而,单纯的基于词典的方法既不能考虑医疗文本中的上下文信息,又不能适应复杂的语言现象并输出全局最优的结果。
技术实现思路
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。根据本申请的一个方面,提供了一种医疗文本命名实体识别方法,包括:步骤S11:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;步骤S12:利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;步骤S13:利用第二激活 ...
【技术保护点】
1.一种医疗文本命名实体识别方法,包括:步骤S11:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;步骤S12:利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;步骤S13:利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;以及步骤S14:将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。
【技术特征摘要】
1.一种医疗文本命名实体识别方法,包括:步骤S11:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;步骤S12:利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;步骤S13:利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;以及步骤S14:将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。2.根据权利要求1所述的医疗文本命名实体识别方法,其特征在于,步骤S14后还包括:步骤S15:分别将所述全局最优标签序列中相同类别的标签及其对应的命名实体合并,得到最终的标签序列及命名实体序列。3.根据权利要求1所述的医疗文本命名实体识别方法,其特征在于,步骤S11包括:步骤S111:对所述医疗文本进行分词,计算分词后每个词语和标点的词向量;以及步骤S112:将所有的词向量按照所述医疗文本中词语的顺序进行正向拼接,输入所述前向长短期记忆网络,得到第一输出结果;以及将所有的词向量按照所述医疗文本中词语的顺序进行反向拼接,输入所述后向长短期记忆网络,得到第二输出结果。4.根据权利要求1至3的任一项所述的医疗文本命名实体识别方法,其特征在于:所述前向长短期记忆网络和所述后向长短期记忆网络的遗忘门的权重被设置为零或者接近零。5.根据权利要求1至3的任一项所述的医疗文本命名实体识别方法,其特征在于...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:北京颐圣智能科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。