一种基于主动深度学习的实体关系联合抽取方法及系统技术方案

技术编号：31812830 阅读：15 留言：0更新日期：2022-01-08 11:16

本发明专利技术提供一种基于主动深度学习的实体关系联合抽取方法及系统，涉及计算机自然语言处理技术领域。该方法首先获取待标注样本数据集作为语料库，并对语料库进行概念抽取，定义实体类别集合和关系类别集合；再使用基于主动学习的待标注采样方法进行样本采样，得到待标注样本数据集；并对待标注样本数据集使用改进EDA方法进行数据增强；然后根据定义的实体和关系类别集合，在待标注样本数据集的数据上采用BIO

全部详细技术资料下载

【技术实现步骤摘要】
一种基于主动深度学习的实体关系联合抽取方法及系统

[0001]本专利技术涉及计算机自然语言处理
，尤其涉及一种基于主动深度学习的实体关系联合抽取方法及系统。

技术介绍

[0002]实体关系抽取就是从文本中抽取出实体和实体之间的关系。为了解决实体关系抽取问题，人们提出了多种方法，大致可分为流水线抽取模型和联合抽取模型两大类。
[0003]第一种是将实体关系抽取划分为实体识别和关系抽取两个子任务，两个子任务按顺序依次执行，且不存在交互作用。中国专利“CN113297838A一种基于图神经网络的关系抽取方法”使用第一种流水线抽取模型的思想。此专利对待抽取文档进行数据处理；构建所述文档中句子的模型数据集；获取所述句子的语义特征向量；根据所述数据处理结果和所述语义特征向量生成所述句子的实体间邻域信息表达；根据所述实体间邻域信息表达强化所述句子的句子表达；根据所述数据处理结果和所述句子表达获取所述句子的句子池化表达和主客体池化表达；将所述句子池化表达和所述主客体池化表达进行级联表示；根据所述级联表示获取所述句子的关系类别表示。
[0004]第二种就是将实体识别和关系抽取两个任务联合到一起进行抽取。中国专利“CN113128229A一种中文实体关系联合抽取方法”使用这种模型的思想。此专利提供了一种中文实体关系联合抽取方法,包括使用BERT模型学习字符向量,字符向量拼接字形特征及字符位置信息；使用双向LSTM模型学习字符特征；使用选择性注意力机制进行实体识别；使用层次注意力机制LSTM进行关系抽取方法。本申请通...

【技术保护点】

【技术特征摘要】
1.一种基于主动深度学习的实体关系联合抽取方法，其特征在于：获取待标注数据集作为语料库；定义实体类别集合和关系类别集合；对待标注数据进行采样，得到待标注样本数据集；对待标注样本数据集的数据进行标注；将标注的数据输入到实体关系联合抽取模型进行训练和测试，获得预测的标签；对预测的标签解码得到三元组。2.根据权利要求1所述的一种基于主动深度学习的实体关系联合抽取方法，其特征在于：具体包括以下步骤：步骤1：获取待标注数据集作为语料库；获取待标注数据集，并将待标注数据集进行分段和分句处理，得到以句子为单位的待标注数据集U作为语料库；步骤2：对步骤1的语料库进行概念抽取，定义实体类别集合和关系类别集合；步骤3：对待标注数据进行待标注样本采样，得到待标注样本数据集；步骤4：采用改进EDA的实体关系联合抽取数据增强方法对待标注样本数据集进行数据增强；步骤5：根据步骤2定义的领域实体和关系类别集合，在步骤3得到的待标注样本数据集的数据上采用BIO
‑
OVE/R
‑
HT标注策略进行标注；步骤6：将步骤5标注的数据输入到ChineseBERT
‑
BiLSTM
‑
CRF端到端的实体关系联合抽取模型进行训练和测试，获得预测的标签，然后对预测的标签使用和标注策略对应的解码规则解码得到三元组。3.根据权利要求2所述的一种基于主动深度学习的实体关系联合抽取方法，其特征在于：所述步骤3基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样，得到待标注样本数据集，具体方法为：步骤3.1：将步骤1得到的待标注领域数据集U的每一个样本x
i
使用Word2Vec模型获得特征向量E
i
；步骤3.2：将特征向量E
i
输入到CNN模型提取特征，获得样本x
i
在每个关系类别下的概率值；步骤3.3：根据样本在每个关系类别下的概率值计算每个样本的信息熵，计算公式如下：式中，H
i
为样本x
i
的信息熵，P
a
(x
i
)代表样本x
i
在第a个关系类别下的概率值，n为样本关系类别总数；步骤3.4：将步骤3.3计算得到的每个样本的信息熵按照降序排列，每次取出信息熵最大的样本x
max
进行标注，同时使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本x
max
和其他所有待标注样本的综合相似度；如果某待标注样本和信息熵最大的样本x
max
的综合相似度大于等于设定的阈值threshold_sim，那么将该样本从待标注领域数据集U中移除，最后得到待标注样本数据集。4.根据权利要求3所述的一种基于主动深度学习的实体关系联合抽取方法，其特征在
代表实体的起始边界，“I”代表实体的非起始位置，“O”代表该元素不属于任何实体；关系类别：关系类别信息从预定义的关系类别集合中获得，但是当句子中存在一个实体和其他多个实体都存在关系时，则将重叠主实体的关系标签固定为“OVE”(Overlap)，然后将与主实体存在关系的实体的关系标签设置为两个实体之间存在的关系类型；实体位置：实体位置用“H”、“T”、“HT”和“TH”来标识，“H”代表该实体为三元组中的头实体，“T”代表该实体为三元组中的尾实体；“HT”代表该实体是前一个三元组的头实体，后一个三元组的尾实体；“TH”代表该实体是前一个三元组的尾实体，后一个三元组的头实体；因此，标签种类的总数是N＝2*|R|*4+4+1，其中，|R|是预定义关系类别集合的大小。7.根据权利要求6所述的一种基于主动深度学习的实体关系联合抽取方法，其特征在于：所述步骤6的具体方法为：步骤6.1：将步骤5标注的数据输入到ChineseBERT模型实现向量化，ChineseBERT模型首先将拼音嵌入、字形嵌入和字符嵌入拼接后得到融合嵌入，然后将融合嵌入与位置嵌入和片段嵌入相...

【专利技术属性】
技术研发人员：刘珂，靳显鑫，冷芳玲，鲍玉斌，于戈，
申请(专利权)人：东北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人