一种基于Bert实体感知的远程监督关系抽取的降噪方法及其模型技术

技术编号：38947244 阅读：31 留言：0更新日期：2023-09-25 09:43

本发明专利技术涉及一种基于Bert实体感知的远程监督关系抽取降噪方法及其模型，所述降噪方法包括：S11、采用基于Bert实体感知的句编码方式对句子进行编码，得到包含实体对信息的句编码向量一；S12、根据句编码向量一，获得含有同一实体对的句子组成的句包的句包表示向量一；S13、根据句包表示向量一，获取句包表示向量一的关系表示值；S15、根据关系表示值所得到的句包的句子关系表示，获得具有潜在语义价值的句子所形成的FN噪音数据集；S2、对所述FN噪音数据集中句子的句子关系进行分类。本发明专利技术所述的基于Bert实体感知的远程监督关系抽取降噪方法及其模型能够快速且准确的提取句子信息，提高了后续噪音过滤以及分类效果。高了后续噪音过滤以及分类效果。高了后续噪音过滤以及分类效果。

全部详细技术资料下载

【技术实现步骤摘要】
Training Method for Distantly Supervised Relation Extraction.[C],Empirical Methods in Natural Language Processing,2021,2021.emnlp
‑
main:9661
‑
9672.”所公开的方案中，通过PCNN对句子进行编码获取句子的特征，再通过深度神经网络的记忆机制(具体为：利用深度神经网络，优先学习没有噪音数据的干净样本，再学习噪音样本)对数据集进行过滤，从而获得FN噪音句子，最后通过训练生成对抗方法及对比学习的方法训练分类器，从而对FN噪音句子重新分配一个正确的标签。但是，在上述现有技术中，其一，其深度神经网络的记忆机制目前没有证实是有效的，因此，该记忆机制用于挖掘FN噪音的效果是存疑的，其二，其是使用PCNN进行句子编码，且通过PCNN进行句子编码也是现有技术中普遍使用的句编码方式，而PCNN是通过卷积方式捕捉句子的特征，效率低下，且在卷积操作后进行分段拼接后所得数据的维度高，再接全连接层将导致整个模型的参数量大、模型结构复杂、效率低下、处理时间较长，并且其池化层会丢失大量有价值的信息，从而导致最终FN噪音句子的标签分类效果不好。

技术实现思路

[0007]基于此，本专利技术的目的在于，提供一种基于Bert实体感知的远程监督关系抽取的降噪方法，其具有快速且准确的提取句子信息，提高了后续的噪音过滤以及分类效果。
[0008]一种基于Bert实体感知的远程监督关系抽取的降噪方法，其包...

【技术保护点】

【技术特征摘要】
1.一种基于Bert实体感知的远程监督关系抽取的降噪方法，其特征在于，包括如下步骤：S11、采用基于Bert实体感知的句编码方式对句子进行编码，得到包含实体对信息的句编码向量一；其中，所述基于Bert实体感知的句编码方式包括：采用预训练语言模型Bert对句子进行词嵌入，并根据经由Bert所得的头部目标实体、尾部目标实体以及句子头部标记的隐藏状态向量，得到头部目标实体的输出向量表示、尾部目标实体的输出向量表示以及句子头部标记的输出向量表示，再根据所述头部目标实体的输出向量表示、尾部目标实体的输出向量表示以及句子头部标记的输出向量表示，得到句编码向量一；并且，所述句子为经远程监督关系抽取后所得的标注为NA的噪音数据；S12、根据所述句编码向量一，获得含有同一实体对的句子组成的句包的句包表示向量一；S13、根据所述句包表示向量一，获取所述句包表示向量一的关系表示值；S15、根据所述关系表示值所得到的句包的句子关系表示，获得具有潜在语义价值的句子所形成的FN噪音数据集；S2、对所述FN噪音数据集中句子的句子关系进行分类。2.根据权利要求1所述的降噪方法，其特征在于：所述步骤S11中，所述句编码向量一表示如下：v＝W3[concat(H
′0,H
′1,H
′2)]+b3其中，v表示所述句编码向量一，concat表示向量的连接，H0′
表示所述句子头部标记的输出向量表示，H1′
表示所述头部目标实体的输出向量表示，H2′
表示所述尾部目标实体的输出向量表示，W3、b3均为可训练的参数。3.根据权利要求2所述的降噪方法，其特征在于：通过以下公式获取所述头部目标实体和尾部目标实体的输出向量表示：和尾部目标实体的输出向量表示：其中，W1、W2、b1、b2均为可训练的参数，向量H
i
到H
j
表示头部目标实体通过BERT得到的隐藏状态向量，H
k
到H
m
表示尾部目标实体通过BERT得到的隐藏状态向量，tanh为双曲正切激活函数。4.根据权利要求3所述的降噪方法，其特征在于：所述句子头部标记的输出向量表示通过以下公式获取：H
′0＝W0[tanh(H0)]+b0其中，H0表示经BERT得到的句子头部标记的隐藏状态向量，W0、b0均为可训练的参数。5.根据权利要求4所述的降噪方法，其特征在于：所述步骤S12中，所述句包表示向量一表示如下：
其中，g表示句包表示向量一，v
i
表示句包中第i个句子的句编码向量一，a
i
表示通过选择性注意力机制所得到的第i个句子的权重。6.根据权利要求5所述的降噪方法，其特征在于：所述权重的计算公式如下：其中，N表示句包中句子的总数，r
j
表示句子关系表示向量，j∈...

【专利技术属性】
技术研发人员：曾碧卿，梁健淳，王光亚，谢梁琦，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人