一种基于局部特征整合的医学嵌套命名实体识别方法技术

技术编号:31985637 阅读:23 留言:0更新日期:2022-01-20 02:05
本发明专利技术属于自然语言处理的命名实体识别领域,具体涉及一种基于局部特征整合的医学嵌套命名实体识别方法,该方法包括:该方法包括:对文本实体进行打标;通过双向长短期记忆网络来捕捉正向文本特征和反向文本特征;使用卷积神经网络提取局部特征,并采用匹配度评分矩阵为双向特征进行打分;重复上述过程,直到设定的最大实体长度,得到所有的预测实体;本发明专利技术采用了BiLSTM采集文本关键信息,将正向信息与反向信息剥离开,对他们进行分开操作;采用局部特征整合,将实体所处在的前后语义背景信息与实体内部的信息链接相区分,保证实体的产生是具有语义环境,并使得内部紧密有序。并使得内部紧密有序。并使得内部紧密有序。

【技术实现步骤摘要】
一种基于局部特征整合的医学嵌套命名实体识别方法


[0001]本专利技术属于自然语言处理的命名实体识别领域,具体涉及一种基于局部特征整合的医学嵌套命名实体识别方法。

技术介绍

[0002]随着信息时代的飞速发展,人们对信息的提取不再限制在人工或纸质渠道,而是期望有一个模型能识别诊断记录或者医学文献中的命名实体,实现文本的结构化,为患者建档立卡,个性化决策,或者将医学文献的新实体抽取出来,为数据化管理提供了更多的可能性。
[0003]对于一般的命名实体识别,通常采用序列标注的方法,但这样只能选出平面命名实体,不能解决嵌套命名实体的问题。解决嵌套命名实体识别目前有三种主流思路,一是通过遍历头尾指针,找出表现较好的跨度表示预测出的实体,但这种方法没有考虑实体内部的联系,也没考虑实体后文对实体边界的影响,同时耗费时间长。第二种方法是采用阅读理解的方式,找出数据中符合问题的实体,可以理解为将一个嵌套命名实体识别拆分为n个平面命名实体,n代表实体类别个数,但这是基于同类别实体种不存在嵌套的情况,是一种较为理想的状态。第三种是固定长度,每次找对应长度的实体。为了预测多种长度的实体,采用了多个LSTM,使得训练的时长大大增加,并且没有考虑实体外的文本对实体边界的影响。
[0004]综上所述,传统的序列标注不能解决嵌套命名实体识别,而目前存在的解决嵌套命名实体识别方法普遍存在网络结构深,且耗费时间长的问题。

技术实现思路

[0005]为解决以上现有技术存在的问题,本专利技术提出了一种基于局部特征整合的医学嵌套命名实体识别方法,该方法包括:获取待识别的医学嵌套命名实体,将该命名实体输入到医学文本嵌套命名实体识别模型中,得到识别结果;
[0006]对医学文本嵌套命名实体识别模型进行训练的过程包括:
[0007]S1:获取原始医学文本数据和标签数据,根据文本数据的实体长度采用标签数据对医学文本数据进行标注;将标注的数据集划分为训练集和测试集;
[0008]S2:将训练集中的文本数据转化为对应的词向量,将词向量输入到基于注意力机制的BiLSTM模型中,得到一组包含前向信息和后向信息的向量;将该向量划分为正向文本信息和反向文本信息;
[0009]S3:将正向文本信息和反向文本信息分别输入到局部特征匹配模型中,提取文本的局部信息,并对正向信息和反向信息的匹配度进行评分;
[0010]S4:根据文本的局部信息、正向信息匹配度评分以及反向信息匹配度评分对实体长度进行预测;
[0011]S5:根据预测的实体长度计算模型的损失函数;
[0012]S6:将测试集中的数据输入到模型中,不断重复步骤S3~步骤S5,直到得到最大的
实体长度,完成模型的训练。
[0013]优选的,采用标签数据对医学文本数据进行标注的过程包括:
[0014]步骤1:对原始医学文本数据进行整理,得到医学文本数据的实体,每个实体由三元组表示;
[0015]步骤2:对二维标注矩阵进行初始化;
[0016]步骤3:根据每个实体的长度和在文本的起始位置在二维标注矩阵中获取对应的位置,并打算类别标签;
[0017]步骤4:将所有的文本进行信息标注。
[0018]优选的,采用基于自注意力机制的BiLSTM模型对词向量进行处理的过程包括:
[0019]步骤1:将文本放入word2vec和fasttext进行训练,得到对应的词向量,将对应的词向量与Bert预训练的词向量进行结合,得到融合后的词向量,该向量为[word2vec;fasttext;Bert];
[0020]步骤2:将得到的融合词向量输入到BiLSTM模型中,并将最后一层的输出拆分为正向信息与反向信息;
[0021]步骤3:分别对正向信息和反向信息做自注意力机制,对正向信息和反向信息做自注意力机制的过程包括:正向信息和反向信息均为三维向量为v,将v的二三维交换得到v

,并将v与v

相乘,得到经过自注意力机制后的向量。
[0022]优选的,采用局部特征匹配模型对文本信息进行处理的过程包括:
[0023]步骤1:确定当前实体的长度item_len;
[0024]步骤2:采用卷积核大小为item_len的CNN分别对正向信息和反向信息进行局部整合,得到局部特征;
[0025]步骤3:对正向和反向信息的匹配度进行评分,得到头尾指针匹配度矩阵;
[0026]步骤4:根据头尾指针匹配度矩阵将基于注意力机制的BiLSTM模型输出的特征与局部特征进行融合,将融合后的特征进行分类,得到预测的实体长度;
[0027]步骤5:根据预测的实体长度和真实实体长度计算模型的损失值,并保留当前的损失值;
[0028]步骤6:将当前实体长度item_len,并返回步骤2,直到item_len大于最大的实体长度时,得到最长的实体。
[0029]进一步的,采用CNN分别对正向信息和反向信息进行局部整合的过程包括:
[0030]步骤21:对正向信息V
for
和反向信息V
rev
进行零向量拼接操作,得到拼接后的正向信息V
for1
和拼接后的反向信息V
rev1

[0031]步骤22:将拼接后的正向信息V
for1
和拼接后的反向信息V
rev1
的二三维对调,得到变形后的正向信息V
for2
和反向信息V
rev2

[0032]步骤23:使用Conv1d分别处理变形后的V
for2
和V
rev2
,得到V

for
和V

rev

[0033]步骤24:将经过Conv1d处理后的V

for
和V

rev
调换第二维和第三维,得到局部特征。
[0034]进一步的,对正向和反向信息的匹配度进行评分的过程包括:设定可学习参数α,β,match_score_matrix;其中,α和β参数分别为区分正反向量的重要程度;match_score_matrix为每个头尾指针的匹配度评分,采用头尾指针匹配度矩阵计算公式对每个头尾指针的匹配度评分进行计算,得到头尾指针匹配度矩阵output。
[0035]进一步的,头尾指针匹配度矩阵计算公式为:
[0036]output=α*V

for
+V

rev
+match_score_matrix
[0037]其中,α表示正向向量的重要程度,β表示反向向量的重要程度,match_score_matrix表示每个头尾指针的匹配度评分,V

for
表示正向信息的局部特征,V

rev...

【技术保护点】

【技术特征摘要】
1.一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,包括:获取待识别的医学嵌套命名实体,将该命名实体输入到医学文本嵌套命名实体识别模型中,得到识别结果;对医学文本嵌套命名实体识别模型进行训练的过程包括:S1:获取原始医学文本数据和标签数据,根据文本数据的实体长度采用标签数据对医学文本数据进行标注;将标注的数据集划分为训练集和测试集;S2:将训练集中的文本数据转化为对应的词向量,将词向量输入到基于注意力机制的BiLSTM模型中,得到一组包含前向信息和后向信息的向量;将该向量划分为正向文本信息和反向文本信息;S3:将正向文本信息和反向文本信息分别输入到局部特征匹配模型中,提取文本的局部信息,并对正向信息和反向信息的匹配度进行评分;S4:根据文本的局部信息、正向信息匹配度评分以及反向信息匹配度评分对实体长度进行预测;S5:根据预测的实体长度计算模型的损失函数;S6:将测试集中的数据输入到模型中,不断重复步骤S3~步骤S5,直到得到最大的实体长度,完成模型的训练。2.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,采用标签数据对医学文本数据进行标注的过程包括:步骤1:对原始医学文本数据进行整理,得到医学文本数据的实体,每个实体由三元组表示;步骤2:对二维标注矩阵进行初始化;步骤3:根据每个实体的长度和在文本的起始位置在二维标注矩阵中获取对应的位置,并打算类别标签;步骤4:将所有的文本进行信息标注。3.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,采用基于自注意力机制的BiLSTM模型对词向量进行处理的过程包括:步骤1:将文本放入word2vec和fasttext进行训练,得到对应的词向量,将对应的词向量与Bert预训练的词向量进行结合,得到融合后的词向量,该向量为[word2vec;fasttext;Bert];步骤2:将得到的融合词向量输入到BiLSTM模型中,并将最后一层的输出拆分为正向信息与反向信息;步骤3:分别对正向信息和反向信息做自注意力机制,对正向信息和反向信息做自注意力机制的过程包括:正向信息和反向信息均为三维向量为v,将v的二三维交换得到v

,并将v与v

相乘,得到经过自注意力机制后的向量。4.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,采用局部特征匹配模型对文本信息进行处理的过程包括:步骤1:确定当前实体的长度item_len;步骤2:采用卷积核大小为item_len的CNN分别对正向信息和反向信息进行局部整合,得到局部特征;
步骤3:对正向和反向信息的匹配度进行评分,得到头尾指针匹配度矩阵;步骤4:根据头尾指针匹配度矩阵将基于注意力机制的BiLSTM模型输出的特征与局部特征进行融合,将融合后的特征进行分类,得到预测的实体长度;步骤5:根据预测的实体长度和真实实体长度计算模型的损失值,并保留当前的损失值;步骤6:将当前实体长度item_len,并返回步骤2,直到item_len大于最大的实体长度时,得到最长的实体。5.根据权利要求4所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,采用CNN分别对正向信息和反向信息进行局部整合的过程包括:步骤21:对正向信息V
for
和反向信息V
rev
进行零向量拼接操作,得到拼接后的正向信息V

【专利技术属性】
技术研发人员:王进蒋诗琪王利蕾孙开伟方阳
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1