【技术实现步骤摘要】
一种基于图神经网络多嵌入联合的临床命名实体识别方法
[0001]本专利技术属于深度学习、人工智能、自然语言处理,尤其基于图神经网络的多角度数据增强技术结合的临床医疗命名实体识别方法。
技术介绍
[0002]随着医疗领域信息化建设的发展,现代医疗信息系统具有海量数据量。将海量数据有效利用从而变成更有价值的学术资源,是现在研究者亟待解决的问题。而自然语言处理技术能帮助研究者挖掘医疗文本信息数据。其中命名实体识别技术能有效地识别出重要实体,例如疾病、手术、治疗和药物等实体类型。分时这些实体之间的关系,从而给临床医学决策提供数据支持,整体提升医院医疗质量,具体重要意义。
技术实现思路
[0003]本专利技术旨在解决以上现有技术的问题。提出了一种基于图神经网络多嵌入联合的临床命名实体识别方法。本专利技术具体包括以下步骤:
[0004]101.对输入文本的每个词汇对应预训练结果中的词汇表进行分词处理,通过FT
‑
Bert赋予初始权重;
[0005]102.对输入文本按批次进行划分,并按M ...
【技术保护点】
【技术特征摘要】
1.一种基于图神经网络多嵌入联合的临床命名实体识别方法,其特征在于,包括以下步骤:101.对输入文本的每个词汇对应预训练结果中的词汇表进行分词处理,通过FT
‑
Bert赋予初始权重;102.对输入文本按批次进行划分,并按MAX_LEN进行截断;103.对输入文本按批次将每个句子填充至相同长度,长度均为当前批次句子最大长度;104.通过句首使用[CLS]、句尾使用[SEP]连接所有的句子对;105.对输入文本数据添加拼音特征向量,包含拼音及音调,添加字形特征和偏旁特征,连结作为数据增强向量,通过使用卷积神经网络进一步提取特征,得到数据增强多嵌入联合特征;106.构建图神经网络,其中通过多头注意力机制进行节点与边的信息传递;107.构建关于临床领域的字组信息;108.将FT
‑
Bert、数据增强多嵌入联合特征以及基于图神经网络的汇聚结果结合,作为BiLSTM的输入,进一步提取文本特征;109.使用CRF对BiLSTM的输出数据进行解码,从而实现实体识别。2.根据权利要求1所述一种基于图神经网络多嵌入联合的临床命名实体识别方法,其特征在于:所述FT
‑
Bert模型在Bert的基础上,根据医疗文本语料数据进一步预训练得到,在提取特征的过程中,使用自注意力机制提取权重,并在此过程中随机遮住15%的字符。3.根据权利要求1所述一种基于图神经网络多嵌入联合的临床命名实体识别方法,其特征在于:所述使用卷积神经网络提取特征,特征图计算过程如下:其中p为补零层数,s为步幅,k为卷积核大小,w为输入矩阵大小,w
′
表示特征图尺寸。4.根据权利要求1所述一种基于图神经网络多嵌入联合的临床命名实体识别方法,其特征在于:所述步骤106中将字符作为节点信息,词组作为边信息,节点以及节点之间的连接关系作为全局信息构建图神经网络,字符与词组之间的信息传递通过多头注意力机制实现,通过多头注意力机制进行信息传递并汇聚更新到节点信息中,挖掘字与词间的潜在信息。5.根据权利要求1或4所述一种基于图神经网络多嵌入联合的临床命名实体识别方法,其特征在于:图神经网络进行信息汇聚的过程中,利用多头注意力机制提取权重表示为:head
i
=Attention(qW
iq
,KW
iK
,VW
iV
)MultiAtt(q,K,V)=[head1;...;head
k
]W
O
Attention(q,K,V)为自注意力机制权重;q、K、V分别为输入的词向量分别与三个不同的权值矩阵相乘得到的加权词向量;d
k
和d
v
分别表示输入向量q和V的维度;head
i
表示第i个attention计算的结果,W
iq
、W
iK
、W
iV
和W
O
表示参数映射向量,表...
【专利技术属性】
技术研发人员:孙开伟,李奕佳,段雨辰,纪志阳,曾雅苑,王支浩,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。