一种中文医学实体关系联合抽取方法和系统技术方案

技术编号:32266163 阅读:4 留言:0更新日期:2022-02-12 19:28
一种中文医学实体关系联合抽取方法,包括:医疗关系嵌入表示模块、医疗文本中头实体和尾实体的头尾位置获取模块、医疗文本字词向量及其相对距离计算模块、词汇增强后的字向量输出模块、医疗文本的关系预测模块、医疗文本的字符对向量生成模块、主谓宾三元组输出模块、联合抽取模型训练模块、联合抽取模型的F1分数计算模块、循环训练联合抽取模型模块、医疗文本实体关系获取模块。本发明专利技术还包括一种中文医学实体关系联合抽取系统。本发明专利技术解决了中文医疗文本中复杂语句的实体嵌套和关系重叠问题,缓解了TPLinker解码矩阵的稀疏,提升了联合抽取模型的收敛速度,通过词汇增强编码单元缓解了中文医疗文本中存在许多专业词汇即使结合上下文也无法准确识别的难题。使结合上下文也无法准确识别的难题。使结合上下文也无法准确识别的难题。

【技术实现步骤摘要】
一种中文医学实体关系联合抽取方法和系统


[0001]本专利涉及自然语言处理领域,特别是一种中文医学实体关系联合抽取方法。

技术介绍

[0002]构建医疗领域的知识图谱,首先需要从大量的非结构化数据(比如文本)中获得实体、关系、属性等有用的信息,即信息抽取。实体和关系抽取是信息抽取任务中两个重要的子任务。根据两个子任务完成先后顺序的不同,实体关系抽取方法可以分为串联(pipeline)抽取和联合(joint)抽取2种方法。
[0003]pipeline抽取,即先抽取实体,再抽取关系,是比较传统的抽取方式。这种抽取方法会导致以下3种问题:1)误差累积:实体抽取的错误会影响关系抽取的准确性;2)实体冗余:对抽取得到的实体两两配对,然后再进行关系分类,如果实体对之间没有关系,就会出现冗余信息;3)交互缺失:没有考虑实体和关系抽取之间的内在联系和依赖关系。
[0004]联合抽取方法一定程度上弥补了以上3个缺点。联合抽取,即关系三元组抽取(Relational Triple Extraction,RTE),三元组以(头实体,关系,尾实体)的形式表示。联合抽取又可以分为基于参数共享的联合抽取和基于联合解码的联合抽取。基于共享参数的联合抽取模型只是共享了实体关系抽取两个模型的参数,如隐层状态等,实体模型和关系模型之间交互并不强。2017年,Zheng等人首次提出将实体和关系统一标注,而且实体模型和关系模型使用同一个解码器,即联合解码。但是,Zheng等人直接将关系作为标签,导致一个实体或一对实体不能有多种关系,即不能解决关系重叠问题。
[0005]2020年,Yu等人提出的TPLinker联合抽取框架取得了实体关系抽取的SOTA,它不仅解决了关系重叠问题,还解决了实体嵌套和曝光偏差等问题。但是 TPLinker框架仍存在一些缺点。TPLinker更适用于英文文本,对于中文文本,尤其是中文医疗文本上的抽取性能欠佳。谷歌提供的中文BERT预处理模型可以做到上下文感知,一定程度上提高了中文实体识别的效果。但是中文医疗文本中还存在许多专业词汇,即使结合上下文也无法准确识别。另外,TPLinker框架的解码器比较复杂,存在解码矩阵稀疏、收敛速度慢、关系冗余等问题。

技术实现思路

[0006]本专利技术要克服现有技术的上述缺点,提供一种中文医学实体关系联合抽取方法。
[0007]针对中文医疗文本,基于Transformer

XL编码器和TPLinker联合解码框架,本专利技术加入词汇增强和关系注意力机制,通过词汇增强引入医疗专业词汇以有利于实体类型和实体边界的识别,同时通过关系注意力机制进行关系预测,解决解码矩阵稀疏、关系冗余的问题,提升中文医疗文本中实体识别和关系抽取的准确性。
[0008]本专利技术解决其技术问题所采用的技术方案是:
[0009]一种中文医学实体关系联合抽取方法,包括如下步骤:
[0010]步骤一:准备待抽取实体关系的中文医疗文本Text,根据给定的本体约束集合(包括关系名称、头实体类型和尾实体类型),使用中文BERT模型,将每个关系名称表示成嵌入
向量,得到关系的语义信息,即关系嵌入C={c1,c2,...,c
l
},其中l为关系总数;
[0011]步骤二:获取已标注的中文医疗信息抽取数据集Data(包括各个医疗文本的关系名称、头实体和尾实体的名称及类型),对Data进行预处理,得到每个医疗文本中头实体和尾实体的头尾位置;
[0012]步骤三:基于Flat_Lattice结构对Text和Data进行词汇增强,计算它们各个医疗文本任意两个字(或者词)向量的4个相对距离以表示字(或者词)向量之间可能存在的交叉、包含或分离的关系,得到各个医疗文本字(或者词)向量及其相对距离矩阵,具体过程如下:
[0013]3.1对Text和Data的各个医疗文本分别使用中文的BERT模型得到各自的字向量;
[0014]3.2获取预训练好的中文生物医学词向量,将Text和Data的各个医疗文本分别与中文生物医学词向量的词表进行匹配,识别出与词表有交集的词语进行词汇增强,得到Text和Data的各个医疗文本的词语向量;
[0015]3.3对Text和Data中每个医疗文本的字向量、词语向量进行头尾位置编码,得到字、词的开始及结束位置,使用Flat_Lattice中的相对位置编码技术得到任意两个字(或者词)向量x
i
和x
j
之间的4个相对距离和放入相对距离矩阵:
[0016][0017]其中head[i]和tail[i]表示第i个字(或者词)向量x
i
的头尾位置,用head[j]和tail[j] 表示第j个字(或者词)向量x
j
的头尾位置,表示x
i
的开始位置到x
j
的开始位置的距离,表示x
i
的开始位置到x
j
的结束位置的距离,表示x
i
的结束位置到x
j
的开始位置的距离,表示x
i
的结束位置到x
j
的结束位置的距离;
[0018]步骤四:从Data中取一批训练数据集,将其医疗文本的字(或者词)向量Z 和位置编码向量R输入Transformer

XL编码器,输出医疗文本词汇增强后的字向量H={h1,h2,

,h
n
},n为医疗文本的长度,Transformer

XL编码器由自注意力层和前馈层2个子层组成,每个子层之后接残差连接和层标准化,任意两个字(或者词)向量x
i
和x
j
之间的位置编码R
ij
由4个相对距离和以绝对位置编码形式拼接后经过一个激活函数为ReLU的全连接得到:
[0019][0020]其中,W
r
是待训练的参数,P
d
采用绝对位置编码:
[0021][0022][0023]其中,d指代和k是位置编码向量内部的维度索引 (k∈[0,(d
model

1)/2]),d
model
=H
×
d
head
(d
head
是多头注意力机制每一头的维度,总共H头);
[0024]基于位置编码向量R的自注意力机制如下:
[0025]Attention(A
*
,V)=Softmax(A
*
)V,
[0026][0027][Q,K,V]=E
x
[W
q
,W
k
,W
v
],
[0028]其中,W
q
,W
k,Z
,W
k,R
,u,v,W
k<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文医学实体关系联合抽取方法,其特征在于:包括如下步骤:步骤一:准备待抽取实体关系的中文医疗文本Text,根据给定的本体约束集合(包括关系名称、头实体类型和尾实体类型),使用中文BERT模型,将每个关系名称表示成嵌入向量,得到关系的语义信息,即关系嵌入C={c1,c2,...,c
l
},其中l为关系总数;步骤二:获取已标注的中文医疗信息抽取数据集Data(包括各个医疗文本的关系名称、头实体和尾实体的名称及类型),对Data进行预处理,得到每个医疗文本中头实体和尾实体的头尾位置;步骤三:基于Flat_Lattice结构对Text和Data进行词汇增强,计算它们各个医疗文本中任意两个字(或者词)向量的4个相对距离,得到各个医疗文本字(或者词)向量及其相对距离矩阵,具体过程如下:3.1)对Text和Data的各个医疗文本分别使用中文的BERT模型得到各自的字向量;3.2)获取预训练好的中文生物医学词向量,将Text和Data的各个医疗文本分别与中文生物医学词向量的词表进行匹配,识别出与词表有交集的词语进行词汇增强,得到Text和Data的各个医疗文本的词语向量;3.3)对Text和Data中每个医疗文本的字向量、词语向量进行头尾位置编码,得到字、词的开始及结束位置,使用Flat_Lattice中的相对位置编码技术得到任意两个字(或者词)向量x
i
和x
j
之间的4个相对距离和放入相对距离矩阵,其中表示x
i
的开始位置到x
j
的开始位置的距离,表示x
i
的开始位置到x
j
的结束位置的距离,表示x
i
的结束位置到x
j
的开始位置的距离,表示x
i
的结束位置到x
j
的结束位置的距离;步骤四:从Data中取一批训练数据集,将其医疗文本的字(或者词)向量Z和位置编码向量R输入Transformer

XL编码器得到医疗文本词汇增强后的字向量H={h1,h2,

,h
n
},n为医疗文本的长度,Transformer

XL编码器由自注意力层和前馈层2个子层组成,每个子层之后接残差连接和层标准化,任意两个字(或者词)向量x
i
和x
j
之间的位置编码R
ij
由4个相对距离和以绝对位置编码形式拼接后经过一个激活函数为ReLU的全连接得到:其中,W
r
是待训练的参数,P
d
采用绝对位置编码,d指代和基于位置编码向量R的自注意力机制如下:Attention(A
*
,V)=Softmax(A
*
)V,[Q,K,V]=E
x
[W
q
,W
k
,W
v
],其中W
q
,W
k,Z
,W
k,R
,u,v,W
k
,W
v
都是待训练的参数;步骤五:根据关系嵌入C和Transformer

XL编码器输出的医疗文本字向量H预测关系,得到预测关系列表,具体过程如下:5.1将H输入两个全连接得到自注意力值A
(s)
,其中第一个全连接使用tanh激活函数,第二个全连接使用softmax激活函数,根据A
(s)
计算基于自注意力机制的医疗文本表示M
(s)
:A
(s)
=softmax(W2tanh(W1H)),
M
(s)
=A
(s)
H
T
,其中W1和W2是待训练的参数;5.2根据C和H计算关系注意力值A
(l)
和基于关系注意力机制的医疗文本表示M
(l)
:A
(l)
=CH,M
(l)
=A
(l)
H
T
;5.3通过注意力融合机制,将M
(s)
和M
(l)
分别输入一个使用sigmoid...

【专利技术属性】
技术研发人员:徐新黎尹晶王万良管秋
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1