一种融入约束信息的远程监督关系抽取方法技术

技术编号:28623323 阅读:37 留言:0更新日期:2021-05-28 16:19
一种融入约束信息的远程监督关系抽取方法,涉及自然语言处理技术领域,为了解决基于远程监督的关系抽取中所出现的标签噪声问题和长尾关系问题,采用本申请提出的关系抽取方法,可以通过引入实体类型信息和关系约束信息来丰富关系抽取模型的背景知识,从而有效增强关系抽取模型在噪声环境下的鲁棒性和准确率;另外还可以利用GCN的邻居聚合机制,促进信息在数据丰富的头部关系和数据匮乏的长尾关系之间的传播,从而增强长尾关系的表示学习。本申请能够充分利用约束图中的信息,同时解决远程监督关系抽取中的标签噪声问题和长尾关系问题。

【技术实现步骤摘要】
一种融入约束信息的远程监督关系抽取方法
本专利技术涉及自然语言处理
,具体为一种融入约束信息的远程监督关系抽取方法。
技术介绍
关系抽取是信息抽取的主要任务之一,它在命名实体识别的基础上,致力于从非结构化文本中提取出两个既定实体之间的语义关系。关系抽取通常被建模为一个多分类问题,即给定一个实体对以及包含这个实体对的句子,判别这个实体对属于哪一种预定义关系类别。许多研究致力于使用有监督学习来完成关系抽取任务,而且已经取得了一定的进展。然而,有监督的关系抽取方法依赖于大量的有标注数据,而数据的标注需要耗费极大的时间和人力成本。为了解决这个问题,“远程监督”假设被提出:如果一个实体对在现有的知识库中存在某个关系,那么所有提及了这个实体对的句子都在以不同的程度来表达这个关系。根据这个假设,可以通过对齐文本和知识库中的实体对来完成样本的自动标注,从而迅速扩大有标注数据的规模。然而,基于远程监督的关系抽取通常面临着两个主要的问题。其一是标签噪声问题,如果实体对在现有知识库中存在某种关系,那么即使包含该实体对的句子中并没有表达该关系,远本文档来自技高网...

【技术保护点】
1.一种融入约束信息的远程监督关系抽取方法,其特征在于包括以下步骤:/n步骤一、获取包含噪声标签的文本数据集;/n步骤二、设定需要抽取的关系,并根据每种关系的头尾实体类型约束规则构建约束图;/n步骤三、将约束图转换为向量形式,并采用GCN构建约束图中关系和实体类型的向量表示;/n步骤四、根据目标实体对将包含噪声标签的文本数据集中的句子分组为不同的句子袋;/n步骤五、对于每个句子袋,采用PCNN构建句子袋中每个句子的向量表示;/n步骤六、根据约束图中关系和实体类型的向量表示和句子袋中每个句子的向量表示计算句子袋中每个句子对于关系约束的权重值;/n步骤七、根据得到的权重值,以句子袋中每条句子的向量...

【技术特征摘要】
1.一种融入约束信息的远程监督关系抽取方法,其特征在于包括以下步骤:
步骤一、获取包含噪声标签的文本数据集;
步骤二、设定需要抽取的关系,并根据每种关系的头尾实体类型约束规则构建约束图;
步骤三、将约束图转换为向量形式,并采用GCN构建约束图中关系和实体类型的向量表示;
步骤四、根据目标实体对将包含噪声标签的文本数据集中的句子分组为不同的句子袋;
步骤五、对于每个句子袋,采用PCNN构建句子袋中每个句子的向量表示;
步骤六、根据约束图中关系和实体类型的向量表示和句子袋中每个句子的向量表示计算句子袋中每个句子对于关系约束的权重值;
步骤七、根据得到的权重值,以句子袋中每条句子的向量加权和作为该句子袋的向量表示;
步骤八、根据句子袋的向量表示,采取Softmax分类器进行预测,得到该句子袋属于每种关系的概率值。


2.根据权利要求1所述的一种融入约束信息的远程监督关系抽取方法,其特征在于所述步骤一中包含噪声标签的文本数据集根据远程监督假设通过对齐知识库与无标注文本中的实体对得到。


3.根据权利要求1所述的一种融入约束信息的远程监督关系抽取方法,其特征在于所述步骤二中构建约束图的具体步骤为:
根据约束规则列表,将所有的关系和实体类型的并集作为约束图的点集;每条约束分别对应边和边,将所有约束所对应的边加入约束图的边集,最后根据约束图的点集和约束图的边集构建约束图。


4.根据权利要求3所述的一种融入约束信息的远程监督关系抽取方法,其特征在于所述步骤三中将约束图转换为向量形式的具体步骤为:
对于约束图中的节点,随机初始化一个嵌入矩阵表示,根据约束图的边集,构建约束图的邻接矩阵:



其中,ε为边集,vi表示点集中的第i个节点,vj表示点集中的第j个节点。


5.根据权利要求4所述的一种融入约束信息的远程监督关系抽取方法,其特征在于所述步骤三中采用GCN构建所述约束图中关系和实体类型的向量表示的具体步骤为:



其中,W(k)和b(k)分别表示第k层GCN的权重和偏置,ρ表示非线性函数,i表示第i个节点,表示第k层第i个节点的向量;
将最后一层的输出矩阵,分割为关系表示矩阵R和实体类型表示矩阵T。


6.根据权利要求5所述的一种融入约束信息的远程监督关系抽取方法,其特征在于所述步骤五中采用PCNN构建句子袋中每个句子的向量表示为:
对于句子袋中句子的每个单词,使用预训练的词嵌入向量和相对位置嵌入向量进行拼接,得到每个单词所...

【专利技术属性】
技术研发人员:刘扬梁天铭刘晓燕刘国军王春宇郭茂祖
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1