一种基于Bert实体感知的远程监督关系抽取的降噪方法及其模型技术

技术编号:38947244 阅读:31 留言:0更新日期:2023-09-25 09:43
本发明专利技术涉及一种基于Bert实体感知的远程监督关系抽取降噪方法及其模型,所述降噪方法包括:S11、采用基于Bert实体感知的句编码方式对句子进行编码,得到包含实体对信息的句编码向量一;S12、根据句编码向量一,获得含有同一实体对的句子组成的句包的句包表示向量一;S13、根据句包表示向量一,获取句包表示向量一的关系表示值;S15、根据关系表示值所得到的句包的句子关系表示,获得具有潜在语义价值的句子所形成的FN噪音数据集;S2、对所述FN噪音数据集中句子的句子关系进行分类。本发明专利技术所述的基于Bert实体感知的远程监督关系抽取降噪方法及其模型能够快速且准确的提取句子信息,提高了后续噪音过滤以及分类效果。高了后续噪音过滤以及分类效果。高了后续噪音过滤以及分类效果。

【技术实现步骤摘要】
Training Method for Distantly Supervised Relation Extraction.[C],Empirical Methods in Natural Language Processing,2021,2021.emnlp

main:9661

9672.”所公开的方案中,通过PCNN对句子进行编码获取句子的特征,再通过深度神经网络的记忆机制(具体为:利用深度神经网络,优先学习没有噪音数据的干净样本,再学习噪音样本)对数据集进行过滤,从而获得FN噪音句子,最后通过训练生成对抗方法及对比学习的方法训练分类器,从而对FN噪音句子重新分配一个正确的标签。但是,在上述现有技术中,其一,其深度神经网络的记忆机制目前没有证实是有效的,因此,该记忆机制用于挖掘FN噪音的效果是存疑的,其二,其是使用PCNN进行句子编码,且通过PCNN进行句子编码也是现有技术中普遍使用的句编码方式,而PCNN是通过卷积方式捕捉句子的特征,效率低下,且在卷积操作后进行分段拼接后所得数据的维度高,再接全连接层将导致整个模型的参数量大、模型结构复杂、效率低下、处理时间较长,并且其池化层会丢失大量有价值的信息,从而导致最终FN噪音句子的标签分类效果不好。

技术实现思路

[0007]基于此,本专利技术的目的在于,提供一种基于Bert实体感知的远程监督关系抽取的降噪方法,其具有快速且准确的提取句子信息,提高了后续的噪音过滤以及分类效果。
[0008]一种基于Bert实体感知的远程监督关系抽取的降噪方法,其包括如下步骤:
[0009]S11、采用基于Bert实体感知的句编码方式对句子进行编码,得到包含实体对信息的句编码向量一;
[0010]其中,所述基于Bert实体感知的句编码方式包括:采用预训练语言模型Bert对句子进行词嵌入,并根据经由Bert所得的头部目标实体、尾部目标实体以及句子头部标记的隐藏状态向量,得到头部目标实体的输出向量表示、尾部目标实体的输出向量表示以及句子头部标记的输出向量表示,再根据所述头部目标实体的输出向量表示、尾部目标实体的输出向量表示以及句子头部标记的输出向量表示,得到句编码向量一;
[0011]所述句子为远程监督关系抽取后所得的标注为NA的噪音数据;
[0012]S12、根据所述句编码向量一,获得含有同一实体对的句子组成的句包的句包表示向量一;
[0013]S13、根据所述句包表示向量一,获取所述句包表示向量一的关系表示值;
[0014]S15、根据所述关系表示值所得到的句包的句子关系表示,获得具有潜在语义价值的句子所形成的FN噪音数据集;
[0015]S2、对所述FN噪音数据集中句子的句子关系进行分类。
[0016]本方案中,对于远程监督关系抽取后所得的标注为NA的噪音数据,在对句子进行编码时,摒除了现有技术中采取PCNN方式进行句子编码的方式,而是采用基于BERT实体感知的句编码方式,其中:利用预训练语言模型Bert作为词嵌入时可以获取到好的特征信息,从而提高句子信息表达的准确性,进而使得句子的编码效果更好,从而提高了后续的噪音过滤以及分类效果;同时,对经Bert处理后所得的句子头部标记CLS、头部目标实体、尾部目标实体的隐藏状态向量处理后得到句子的向量表示,其处理方式简单,效率高;并且,引入头部目标实体、尾部目标实体作为Bert语言模型中CLS标签的补充,也充分发挥了Bert的优势。
[0017]进一步地,所述步骤S11中,所述句编码向量一表示如下:
[0018]v=W3[concat(H0′
,1′
,2′
)]+3[0019]其中,v表示所述句编码向量一,concat表示向量的连接,H0′
表示所述句子头部标记的输出向量表示,H1′
表示所述头部目标实体的输出向量表示,H2′
表示所述尾部目标实体的输出向量表示,W3、b3均为可训练的参数。
[0020]进一步地,通过以下公式获取所述头部目标实体和尾部目标实体的输出向量表示:
[0021][0022][0023]其中,W1、W2、b1、b2均为可训练的参数,向量H
i
到H
j
表示头部目标实体通过BERT得到的隐藏状态向量,H
k
到H
m
表示尾部目标实体通过BERT得到的隐藏状态向量,tanh为双曲正切激活函数。
[0024]进一步地,所述句子头部标记的输出向量表示通过以下公式获取:
[0025]H
′0=W0[tanh(H0)]+b0[0026]其中,H0表示经BERT得到的句子头部标记的隐藏状态向量,W0、b0均为可训练的参数。
[0027]进一步地,所述步骤S12中,所述句包表示向量一表示如下:
[0028][0029]其中,g表示句包表示向量一,v
i
表示句包中第i个句子的句编码向量一,a
i
表示通过选择性注意力机制所得到的第i个句子的权重。
[0030]进一步地,所述权重的计算公式如下:
[0031][0032]其中,N表示句包中句子的总数,r
j
表示句子关系表示向量,j∈(0,1)。
[0033]进一步地,所述步骤S13中,所述关系表示值的计算公式如下:
[0034]P(r
j
|g
i
)=softmax(W
c
g
i
+b
c
)
[0035]其中,P(r
j
|g
i
)表示句包表示向量一g
i
表达r
j
所代表的实体对关系的关系表示值,W
c
、b
c
均为可训练的参数。
[0036]进一步地,所述步骤S2包括:
[0037]S21、采用基于Bert实体感知的句编码方式对所述FN噪音数据集中的句子进行编码,获得所述FN噪音数据集中句子的句编码向量二;
[0038]S22、根据所述句编码向量二,获取所述FN噪音数据集中含有同一实体对的句子组成的句包的句包表示向量二;
[0039]S23、根据所述句包表示向量二,获取所述句包表示向量二的关系表示值;
[0040]S24、根据所述句包表示向量二的关系表示值,获取句子的实体对关系并对句子的实体对关系进行标注。
[0041]此外,本专利技术还涉及一种基于Bert实体感知的远程监督关系抽取的降噪模型,该模型包括子模型一和子模型二,其中,所述子模型一用于对远程监督关系抽取后标注为NA的噪音数据的过滤,从中得到FN噪音数据集,所述子模型二用于对所述FN噪音数据集中句子的句子关系进行分类;所述子模型一包括句编码向量编码模块一、句包表示向量编码模块一、关系表示值计算模块一、FN噪音数据集获取模块;所述句编码向量编码模块一采用基于BERT实体感知的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Bert实体感知的远程监督关系抽取的降噪方法,其特征在于,包括如下步骤:S11、采用基于Bert实体感知的句编码方式对句子进行编码,得到包含实体对信息的句编码向量一;其中,所述基于Bert实体感知的句编码方式包括:采用预训练语言模型Bert对句子进行词嵌入,并根据经由Bert所得的头部目标实体、尾部目标实体以及句子头部标记的隐藏状态向量,得到头部目标实体的输出向量表示、尾部目标实体的输出向量表示以及句子头部标记的输出向量表示,再根据所述头部目标实体的输出向量表示、尾部目标实体的输出向量表示以及句子头部标记的输出向量表示,得到句编码向量一;并且,所述句子为经远程监督关系抽取后所得的标注为NA的噪音数据;S12、根据所述句编码向量一,获得含有同一实体对的句子组成的句包的句包表示向量一;S13、根据所述句包表示向量一,获取所述句包表示向量一的关系表示值;S15、根据所述关系表示值所得到的句包的句子关系表示,获得具有潜在语义价值的句子所形成的FN噪音数据集;S2、对所述FN噪音数据集中句子的句子关系进行分类。2.根据权利要求1所述的降噪方法,其特征在于:所述步骤S11中,所述句编码向量一表示如下:v=W3[concat(H
′0,H
′1,H
′2)]+b3其中,v表示所述句编码向量一,concat表示向量的连接,H0′
表示所述句子头部标记的输出向量表示,H1′
表示所述头部目标实体的输出向量表示,H2′
表示所述尾部目标实体的输出向量表示,W3、b3均为可训练的参数。3.根据权利要求2所述的降噪方法,其特征在于:通过以下公式获取所述头部目标实体和尾部目标实体的输出向量表示:和尾部目标实体的输出向量表示:其中,W1、W2、b1、b2均为可训练的参数,向量H
i
到H
j
表示头部目标实体通过BERT得到的隐藏状态向量,H
k
到H
m
表示尾部目标实体通过BERT得到的隐藏状态向量,tanh为双曲正切激活函数。4.根据权利要求3所述的降噪方法,其特征在于:所述句子头部标记的输出向量表示通过以下公式获取:H
′0=W0[tanh(H0)]+b0其中,H0表示经BERT得到的句子头部标记的隐藏状态向量,W0、b0均为可训练的参数。5.根据权利要求4所述的降噪方法,其特征在于:所述步骤S12中,所述句包表示向量一表示如下:
其中,g表示句包表示向量一,v
i
表示句包中第i个句子的句编码向量一,a
i
表示通过选择性注意力机制所得到的第i个句子的权重。6.根据权利要求5所述的降噪方法,其特征在于:所述权重的计算公式如下:其中,N表示句包中句子的总数,r
j
表示句子关系表示向量,j∈...

【专利技术属性】
技术研发人员:曾碧卿梁健淳王光亚谢梁琦
申请(专利权)人:华南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1