【技术实现步骤摘要】
一种融合实体间关系的中文医学命名实体识别方法和装置
[0001]本专利技术涉及信息技术及数据业务
,尤其涉及一种融合实体间关系的中文医学命名实体识别方法和装置。
技术介绍
[0002]命名实体识别技术是完成对特定实体的边界和类别的识别和提取,对实体和其类别的识别并以结构化的形式保存,从海量非结构化信息中获得高质量的结构信息,完成对海量非结构化数据信息的有效提炼,并构建特定样式数据集。大量医学领域知识信息以多维、复杂、非结构化的形式存在于各类文本当中,对于中文医学命名实体识别任务而言,从医学文本中定位并识别出特定类别的实体,例如从电子病历/患者主诉/医学文献中,抽取结构化的疾病、症状、检查项目、药品名等信息是实体抽取的主要作用。医学命名实体识别作为医学数据集及知识图谱构建的基础,通常与关系抽取任务相关联。目前实体和关系进行信息抽取的方法根据模型结构主要分为两类。第一类是使用流水线的方法完成实体识别和关系的确定,可以当作是两个任务的串联,首先对文本进行实体识别任务的完成,然后对实体识别的结果进行分别组合,再通过分类的方法将 ...
【技术保护点】
【技术特征摘要】
1.一种融合实体间关系的中文医学命名实体识别方法,其特征在于,包括以下步骤:将医学文本输入实体识别模型进行文本嵌入,通过预训练的编码模型对所述医学文本进行第一编码处理得到第一文本信息,并利用编码网络对所述第一文本信息进行第二编码处理获得高层级特征向量以得到第二文本信息;利用所述预训练的编码模型进行关系嵌入表示,同时采用注意力机制将所述第二文本信息作为上下文信息,并对所述医学文本中的关系嵌入和文本嵌入进行运算得到所述医学文本的关系特征信息;基于所述关系特征信息,通过权重分配策略计算概率权重并融合所述上下文信息和所述关系特征信息,以对所述关系特征信息和所述医学文本进行权重分配平衡;基于所述权重分配平衡,通过所述实体识别模型的解码输出概率最高的命名实体类别,以得到对应所述医学文本的各标签结果。2.根据权利要求1所述的方法,其特征在于,所述通过所述预训练的编码模型对所述医学文本进行第一编码处理得到第一编码文本,包括:通过预训练的BERT模型对所述医学文本进行编码处理,根据所述医学文本的文本向量的含义进行词表示,并对所述医学文本中每个句子使用特定的标识符号,以得到所述第一编码文本;其中,所述文本向量包括:词向量、段向量和位置向量。3.根据权利要求2所述的方法,其特征在于,通过所述关系嵌入和所述第二文本信息共同的表示计算出e
i,k
,通过归一化计算获得注意力机制分配不同概率权重a
i,k
:e
i,k
=v
T
tanh(W
r
r
k
+W
h
h
i
)其中,W
r
、W
h
为超参数,h
i
为第二文本信息,r
k
是关系类型的嵌入表示。4.根据权利要求3所述的方法,其特征在于,通过所述注意力机制分配不同概率权重与所述第二文本信息进行乘积的累加获得基于文本和关系生成的向量表示:其中,c
k
为基于文本和关系生成的向量表示。5.根据权利要求4所述的方法,其特征在于,所述通过权重分配策略计算概率权重的计算公式为:其中,W1、W2、b1、b2为超参数,P
t
为概率权重。6.根据权利要求5所述的方法,其特征在于,基于所述概率权重通过融合计算公式计算得到融合关系信息的文本表示,则所述融合计算公式为:s
t
=P
t
(W1c
k
+b1)+(1
‑
P
t
...
【专利技术属性】
技术研发人员:鄂海红,宋美娜,王晴川,李泞原,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。