【技术实现步骤摘要】
远程监督关系抽取方法及装置
本专利技术涉及自然语言处理
,特别涉及一种远程监督关系抽取方法及装置。
技术介绍
互联网快速发展的今天,是信息和大数据统治的时代,如何在信息爆炸时代抽取出关注的内容是非常重要的,信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。目前公司中最常用的是通过有监督方法训练关系抽取模型,但是有监督关系抽取模型主要依靠人工标注的数据,既费时又费力,所以学术界提出了远程监督关系抽取方法,该方法可以通过自动标注训练数据来解决有监督关系抽取训练数据难获取的问题。现有的方法主要通过有监督的方式进行关系抽取任务,有监督的学习方法是目前关系抽取较为主流也是表现最好的方法,但其最大的缺点就是需要大量的人工标注语料。如何获得大量的有标注语料就成为了工作的重点,远程监督方法就由此孕育而生。远程监督方法,将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,从而训练关系抽取器。然而,已有的关系抽取装置都是基于有监督关系抽取,但是基于有监督关系抽取的装置需要大量的人工标注的数据,不仅需要大量的时间,而且需要大量的人力。专利 ...
【技术保护点】
1.一种远程监督关系抽取方法,其特征在于,包括以下步骤:通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别;通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集;以及通过基于循环分段卷积神经网络和sentence embedding模块对所述句子的实体进行实体关系抽取。
【技术特征摘要】
1.一种远程监督关系抽取方法,其特征在于,包括以下步骤:通过bootstrapping算法生成实体识别训练数据集,通过crf++工具对句子的实体进行识别;通过远程监督方法生成实体关系抽取训练数据集,通过关系知识库和自然语言语料生成实体关系抽取数据集;以及通过基于循环分段卷积神经网络和sentenceembedding模块对所述句子的实体进行实体关系抽取。2.根据权利要求1所述的方法,其特征在于,所述通过bootstrapping算法生成实体识别训练数据集,包括:使用预先标注的数据集,应用选择的分类方法训练分类器,以标注未标注数据集中的标注分类;使用所述分类器对标注的数据集进行标注分类,以从所述标注的数据集中获取到标注的数据;从所述标注的数据中选择置信度满足预设条件的数据作为标注数据,并加入到标注数据集,直至满足预设迭代结束条件。3.根据权利要求1所述的方法,其特征在于,所述自然语言语料包含实体对和实体对对应的关系的知识库,其中,所述通过远程监督方法生成实体关系抽取训练数据集,包括:通过所述远程监督方法标注训练样本,利用所述知识库中的两个entity以及对应的relation,在自然语言语料中进行回标,其中,若任意一个句子中同时包含所述两个entity,确定所述任意一个句子包含所述relation,得到所述标注数据。4.根据权利要求1所述的方法,其特征在于,在进行实体关系抽取的过程中,通过词嵌入与双向循环神经网络和注意力与句向量抽取所述句子中实体的实体关系。5...
【专利技术属性】
技术研发人员:鄂海红,宋美娜,周筱松,陈忠富,牛佩晴,张文静,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。