远程监督关系抽取方法及装置制造方法及图纸

技术编号:22055337 阅读:25 留言:0更新日期:2019-09-07 15:17
本发明专利技术公开了一种远程监督关系抽取方法及装置,其中,方法包括以下步骤:通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别;通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集;通过基于循环分段卷积神经网络和sentence embedding模块对句子的实体进行实体关系抽取。该方法可以通过自然语料自动标注训练数据,完成实体识别以及实体关系抽取。

The Method and Device of Remote Monitoring Relation Extraction

【技术实现步骤摘要】
远程监督关系抽取方法及装置
本专利技术涉及自然语言处理
,特别涉及一种远程监督关系抽取方法及装置。
技术介绍
互联网快速发展的今天,是信息和大数据统治的时代,如何在信息爆炸时代抽取出关注的内容是非常重要的,信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。目前公司中最常用的是通过有监督方法训练关系抽取模型,但是有监督关系抽取模型主要依靠人工标注的数据,既费时又费力,所以学术界提出了远程监督关系抽取方法,该方法可以通过自动标注训练数据来解决有监督关系抽取训练数据难获取的问题。现有的方法主要通过有监督的方式进行关系抽取任务,有监督的学习方法是目前关系抽取较为主流也是表现最好的方法,但其最大的缺点就是需要大量的人工标注语料。如何获得大量的有标注语料就成为了工作的重点,远程监督方法就由此孕育而生。远程监督方法,将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,从而训练关系抽取器。然而,已有的关系抽取装置都是基于有监督关系抽取,但是基于有监督关系抽取的装置需要大量的人工标注的数据,不仅需要大量的时间,而且需要大量的人力。
技术实现思路
本申请是基于专利技术人对以下问题的认识和发现做出的:近年来,自然语言处理领域的研究者们开始致力于知识图谱构建的研究。知识图谱究其根本是一种语义网络图,通俗来讲,就是把多种信息按照一定的规则融合在一起而得到的关系网络。知识图谱是从“关系”的角度来分析问题的,为搜索提供了新思路:直接返回问题的答案,而不是返回包含关键词的文档序列。信息抽取则是知识图谱构建的关键一步。实体关系抽取作为信息抽取领域的重要研究课题,其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别,并形成结构化的数据以便存储和取用。目前对于大多数企业来说,针对实体关系抽取这个任务需要人工的标注数据来训练模型,但是人工标注费时费力,所以远程监督的自动标注训练数据有着很好前景。然而远程监督现在存在两个的问题:一方面是一些方法需要利用外部知识库的实体描述来丰富实体信息,但是事实上不是所有外部知识库都很容易获取的;另一方面,目前远程监督关系抽取主要采用PCNN(PCNN-PulseCoupledNeuralNetwork,脉冲耦合神经网络)模型,PCNN模型虽然在一定程度上解决了池化层所造成的信息损失问题,但是通过分段池化层降维只是选取了其中信息量最大的三段,其他信息都损失掉。因此本专利技术实施例提出了基于递归卷积分段神经网络结构的连接关系提取的方法,并提出一种sentenceembedding的方法解决模型经过池化层信息损失的问题。本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种远程监督关系抽取方法,该方法可以通过自然语料自动标注训练数据,完成实体识别以及实体关系抽取。本专利技术的另一个目的在于提出一种远程监督关系抽取装置。为达到上述目的,本专利技术一方面实施例提出了一种远程监督关系抽取方法,包括以下步骤:通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别;通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集;通过基于循环分段卷积神经网络和sentenceembedding模块对所述句子的实体进行实体关系抽取。本专利技术实施例的远程监督关系抽取方法,运用RCNN(RecurrentConvolutionalNeuralNetwork,循环分段卷积神经网络)网络捕捉句子中每个词的上下文语义信息,再将当前单词与其上文信息、下文信息拼接得到当前单词的最终表示,从而可以丰富句子中每个词信息,尤其增强实体对信息,进而提升关系识别的效果,且在模型的pooling层之后加入每个实例的句向量来加强每个实例中实体对间隐藏关系的信息。另外,根据本专利技术上述实施例的远程监督关系抽取方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述通过bootstrapping算法生成实体识别训练数据集,包括:使用预先标注的数据集,应用选择的分类方法训练分类器,以标注未标注数据集中的标注分类;使用所述分类器对标注的数据集进行标注分类,以从所述标注的数据集中获取到标注的数据;从所述标注的数据中选择置信度满足预设条件的数据作为标注数据,并加入到标注数据集,直至满足预设迭代结束条件。进一步地,在本专利技术的一个实施例中,所述自然语言语料包含实体对和实体对对应的关系的知识库,其中,所述通过远程监督方法生成实体关系抽取训练数据集,包括:通过所述远程监督方法标注训练样本,利用所述知识库中的两个entity以及对应的relation,在自然语言语料中进行回标,其中,若任意一个句子中同时包含所述两个entity,确定所述任意一个句子包含所述relation,得到所述标注数据。进一步地,在本专利技术的一个实施例中,通过词嵌入与双向循环神经网络和注意力与句向量抽取所述句子中实体的实体关系。为达到上述目的,本专利技术另一方面实施例提出了一种远程监督关系抽取装置,包括:实体识别模块,用于通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别;数据获取模块,用于通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集;关系抽取模块,用于通过基于循环分段卷积神经网络和sentenceembedding模块对所述句子的实体进行实体关系抽取。本专利技术实施例的远程监督关系抽取装置,运用RCNN网络捕捉句子中每个词的上下文语义信息,再将当前单词与其上文信息、下文信息拼接得到当前单词的最终表示,从而可以丰富句子中每个词信息,尤其增强实体对信息,进而提升关系识别的效果,且在模型的pooling层之后加入每个实例的句向量来加强每个实例中实体对间隐藏关系的信息。另外,根据本专利技术上述实施例的远程监督关系抽取装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述实体识别模块进一步用于使用预先标注的数据集,应用选择的分类方法训练分类器,以标注未标注数据集中的标注分类,并使用所述分类器对标注的数据集进行标注分类,以从所述标注的数据集中获取到标注的数据,从所述标注的数据中选择置信度满足预设条件的数据作为标注数据,并加入到标注数据集,直至满足预设迭代结束条件。进一步地,在本专利技术的一个实施例中,所述自然语言语料包含实体对和实体对对应的关系的知识库,其中,所述数据获取模块进一步用于通过所述远程监督方法标注训练样本,利用所述知识库中的两个entity以及对应的relation,在自然语言语料中进行回标,其中,若任意一个句子中同时包含所述两个entity,确定所述任意一个句子包含所述relation,得到所述标注数据。进一步地,在本专利技术的一个实施例中,所述关系抽取模块进一步用于在进行实体关系抽取的过程中,通过词嵌入与双向循环神经网络和注意力与句向量抽取所述句子中实体的实体关系。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方本文档来自技高网...

【技术保护点】
1.一种远程监督关系抽取方法,其特征在于,包括以下步骤:通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别;通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集;以及通过基于循环分段卷积神经网络和sentence embedding模块对所述句子的实体进行实体关系抽取。

【技术特征摘要】
1.一种远程监督关系抽取方法,其特征在于,包括以下步骤:通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别;通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集;以及通过基于循环分段卷积神经网络和sentenceembedding模块对所述句子的实体进行实体关系抽取。2.根据权利要求1所述的方法,其特征在于,所述通过bootstrapping算法生成实体识别训练数据集,包括:使用预先标注的数据集,应用选择的分类方法训练分类器,以标注未标注数据集中的标注分类;使用所述分类器对标注的数据集进行标注分类,以从所述标注的数据集中获取到标注的数据;从所述标注的数据中选择置信度满足预设条件的数据作为标注数据,并加入到标注数据集,直至满足预设迭代结束条件。3.根据权利要求1所述的方法,其特征在于,所述自然语言语料包含实体对和实体对对应的关系的知识库,其中,所述通过远程监督方法生成实体关系抽取训练数据集,包括:通过所述远程监督方法标注训练样本,利用所述知识库中的两个entity以及对应的relation,在自然语言语料中进行回标,其中,若任意一个句子中同时包含所述两个entity,确定所述任意一个句子包含所述relation,得到所述标注数据。4.根据权利要求1所述的方法,其特征在于,在进行实体关系抽取的过程中,通过词嵌入与双向循环神经网络和注意力与句向量抽取所述句子中实体的实体关系。5...

【专利技术属性】
技术研发人员:鄂海红宋美娜周筱松陈忠富牛佩晴张文静
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1