当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于主动深度学习的实体关系联合抽取方法及系统技术方案

技术编号:31812830 阅读:15 留言:0更新日期:2022-01-08 11:16
本发明专利技术提供一种基于主动深度学习的实体关系联合抽取方法及系统,涉及计算机自然语言处理技术领域。该方法首先获取待标注样本数据集作为语料库,并对语料库进行概念抽取,定义实体类别集合和关系类别集合;再使用基于主动学习的待标注采样方法进行样本采样,得到待标注样本数据集;并对待标注样本数据集使用改进EDA方法进行数据增强;然后根据定义的实体和关系类别集合,在待标注样本数据集的数据上采用BIO

【技术实现步骤摘要】
一种基于主动深度学习的实体关系联合抽取方法及系统


[0001]本专利技术涉及计算机自然语言处理
,尤其涉及一种基于主动深度学习的实体关系联合抽取方法及系统。

技术介绍

[0002]实体关系抽取就是从文本中抽取出实体和实体之间的关系。为了解决实体关系抽取问题,人们提出了多种方法,大致可分为流水线抽取模型和联合抽取模型两大类。
[0003]第一种是将实体关系抽取划分为实体识别和关系抽取两个子任务,两个子任务按顺序依次执行,且不存在交互作用。中国专利“CN113297838A一种基于图神经网络的关系抽取方法”使用第一种流水线抽取模型的思想。此专利对待抽取文档进行数据处理;构建所述文档中句子的模型数据集;获取所述句子的语义特征向量;根据所述数据处理结果和所述语义特征向量生成所述句子的实体间邻域信息表达;根据所述实体间邻域信息表达强化所述句子的句子表达;根据所述数据处理结果和所述句子表达获取所述句子的句子池化表达和主客体池化表达;将所述句子池化表达和所述主客体池化表达进行级联表示;根据所述级联表示获取所述句子的关系类别表示。
[0004]第二种就是将实体识别和关系抽取两个任务联合到一起进行抽取。中国专利“CN113128229A一种中文实体关系联合抽取方法”使用这种模型的思想。此专利提供了一种中文实体关系联合抽取方法,包括使用BERT模型学习字符向量,字符向量拼接字形特征及字符位置信息;使用双向LSTM模型学习字符特征;使用选择性注意力机制进行实体识别;使用层次注意力机制LSTM进行关系抽取方法。本申请通过底层共享网络参数的方式,进行联合知识抽取,解决抽取中实体识别和关系抽取错误累计的问题;通过引入分词与词表向量,在词向量中拼接中文特征,解决中文特征信息不充分的问题;通过在结合自注意力机制的双向LSTM编码层,对长距离序列进行建模;通过层级注意力机制,解决实体关系之间关联不足的问题。
[0005]中国专利“CN113297838A一种基于图神经网络的关系抽取方法”提出的方法容易忽略任务之间的相互依赖,容易导致错误累积,产生大量冗余实体。该方法将实体抽取和关系抽取划分为两个阶段,其实两个阶段之间是有一定联系的。如果知道实体类型,则可以缩小实体和实体之间可能存在的关系搜索空间。例如,“中山”可能是人名或地名,如果上下文中有“位于”关系,则“中山”就是地名“中山市”。
[0006]第二种联合抽取模型可以进一步利用两个任务之间的潜在信息,以缓解错误传播的缺点,但是模型结构通常比较复杂。

技术实现思路

[0007]本专利技术要解决的技术问题是针对上述现有技术的不足,具体针对领域文本数据标注样本比较缺乏且标注成本较高的问题,本专利技术提出一种基于主动深度学习的实体关系联合抽取方法及系统,实现对实体关系的联合抽取。
[0008]为解决上述技术问题,本专利技术所采取的技术方案是:一方面,本专利技术提供一种基于主动深度学习的实体关系联合抽取方法,
[0009]获取待标注数据集作为语料库;
[0010]定义实体类别集合和关系类别集合;
[0011]对待标注数据进行采样,得到待标注样本数据集;
[0012]对待标注样本数据集的数据进行标注;
[0013]将标注的数据输入到实体关系联合抽取模型进行训练和测试,获得预测的标签;
[0014]对预测的标签解码得到三元组。
[0015]具体包括以下步骤:
[0016]步骤1:获取待标注数据集作为语料库;获取待标注数据集,并将待标注数据集进行分段和分句处理,得到以句子为单位的待标注数据集U作为语料库;
[0017]步骤2:对步骤1的语料库进行概念抽取,定义实体类别集合和关系类别集合;
[0018]步骤3:基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样,得到待标注样本数据集,具体为:
[0019]步骤3.1:将步骤1得到的待标注领域数据集U的每一个样本x
i
使用Word2Vec模型获得特征向量E
i

[0020]步骤3.2:将特征向量E
i
输入到CNN模型提取特征,获得样本x
i
在每个关系类别下的概率值;
[0021]步骤3.3:根据样本在每个关系类别下的概率值计算每个样本的信息熵,计算公式如下:
[0022][0023]式中,H
i
为样本x
i
的信息熵,P
a
(x
i
)代表样本x
i
在第a个关系类别下的概率值,n为样本关系类别总数;
[0024]步骤3.4:将步骤3.3计算得到的每个样本的信息熵按照降序排列,每次取出信息熵最大的样本x
max
进行标注,同时使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本x
max
和其他所有待标注样本的综合相似度;如果某待标注样本和信息熵最大的样本x
max
的综合相似度大于等于设定的阈值threshold_sim,那么将该样本从待标注领域数据集U中移除,最后得到待标注样本数据集;
[0025]样本之间余弦相似度的计算公式如下所示:
[0026][0027]其中,E
i
和E
j
分别是样本x
i
和样本x
j
的特征向量,||E
i
||和||E
j
||分别是特征向量E
i
和E
j
的模长,cos(x
i
,x
j
)是样本x
i
和样本x
j
的余弦相似度,Sim1(x
i
,x
j
)是经过归一化后的余弦相似度;
[0028]编辑距离是指将一个字符串转化为另一个字符串所需的最少操作数,只能用增删改三种操作,两个样本之间的编辑距离的计算公式如下所示:
[0029][0030]其中,|x
i
|和|x
j
|分别是样本x
i
和样本x
j
的文本长度,ED
ij
是样本x
i
和样本x
j
的最小编辑距离,Sim2(x
i
,x
j
)是经过归一化后的最小编辑距离;
[0031]则使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本x
max
和其他所有待标注样本的综合相似度Sim如下公式所示:
[0032]Sim=(Sim1+Sim2)/2
[0033]步骤4:采用改进EDA的实体关系联合抽取数据增强方法对待标注样本数据集进行数据增强;
[0034]所述改进EDA的实体关系联合抽取数据增强方法包括以下八种数据增强方法:
[0035]1)同义词替换:从除本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于主动深度学习的实体关系联合抽取方法,其特征在于:获取待标注数据集作为语料库;定义实体类别集合和关系类别集合;对待标注数据进行采样,得到待标注样本数据集;对待标注样本数据集的数据进行标注;将标注的数据输入到实体关系联合抽取模型进行训练和测试,获得预测的标签;对预测的标签解码得到三元组。2.根据权利要求1所述的一种基于主动深度学习的实体关系联合抽取方法,其特征在于:具体包括以下步骤:步骤1:获取待标注数据集作为语料库;获取待标注数据集,并将待标注数据集进行分段和分句处理,得到以句子为单位的待标注数据集U作为语料库;步骤2:对步骤1的语料库进行概念抽取,定义实体类别集合和关系类别集合;步骤3:对待标注数据进行待标注样本采样,得到待标注样本数据集;步骤4:采用改进EDA的实体关系联合抽取数据增强方法对待标注样本数据集进行数据增强;步骤5:根据步骤2定义的领域实体和关系类别集合,在步骤3得到的待标注样本数据集的数据上采用BIO

OVE/R

HT标注策略进行标注;步骤6:将步骤5标注的数据输入到ChineseBERT

BiLSTM

CRF端到端的实体关系联合抽取模型进行训练和测试,获得预测的标签,然后对预测的标签使用和标注策略对应的解码规则解码得到三元组。3.根据权利要求2所述的一种基于主动深度学习的实体关系联合抽取方法,其特征在于:所述步骤3基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样,得到待标注样本数据集,具体方法为:步骤3.1:将步骤1得到的待标注领域数据集U的每一个样本x
i
使用Word2Vec模型获得特征向量E
i
;步骤3.2:将特征向量E
i
输入到CNN模型提取特征,获得样本x
i
在每个关系类别下的概率值;步骤3.3:根据样本在每个关系类别下的概率值计算每个样本的信息熵,计算公式如下:式中,H
i
为样本x
i
的信息熵,P
a
(x
i
)代表样本x
i
在第a个关系类别下的概率值,n为样本关系类别总数;步骤3.4:将步骤3.3计算得到的每个样本的信息熵按照降序排列,每次取出信息熵最大的样本x
max
进行标注,同时使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本x
max
和其他所有待标注样本的综合相似度;如果某待标注样本和信息熵最大的样本x
max
的综合相似度大于等于设定的阈值threshold_sim,那么将该样本从待标注领域数据集U中移除,最后得到待标注样本数据集。4.根据权利要求3所述的一种基于主动深度学习的实体关系联合抽取方法,其特征在
代表实体的起始边界,“I”代表实体的非起始位置,“O”代表该元素不属于任何实体;关系类别:关系类别信息从预定义的关系类别集合中获得,但是当句子中存在一个实体和其他多个实体都存在关系时,则将重叠主实体的关系标签固定为“OVE”(Overlap),然后将与主实体存在关系的实体的关系标签设置为两个实体之间存在的关系类型;实体位置:实体位置用“H”、“T”、“HT”和“TH”来标识,“H”代表该实体为三元组中的头实体,“T”代表该实体为三元组中的尾实体;“HT”代表该实体是前一个三元组的头实体,后一个三元组的尾实体;“TH”代表该实体是前一个三元组的尾实体,后一个三元组的头实体;因此,标签种类的总数是N=2*|R|*4+4+1,其中,|R|是预定义关系类别集合的大小。7.根据权利要求6所述的一种基于主动深度学习的实体关系联合抽取方法,其特征在于:所述步骤6的具体方法为:步骤6.1:将步骤5标注的数据输入到ChineseBERT模型实现向量化,ChineseBERT模型首先将拼音嵌入、字形嵌入和字符嵌入拼接后得到融合嵌入,然后将融合嵌入与位置嵌入和片段嵌入相...

【专利技术属性】
技术研发人员:刘珂靳显鑫冷芳玲鲍玉斌于戈
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1