一种面向中文文本的端到端实体关系联合抽取方法技术

技术编号:22594891 阅读:29 留言:0更新日期:2019-11-20 11:11
本发明专利技术公开了一种面向中文文本的端到端实体关系联合抽取方法,该方法从百度百科中获得工业产品相关数据,再进行人工标注和人工审核;对标注好的数据集进行分词,包括其中的句子和实体关系信息,使用Word2Vec方法构建词向量,构建端到端的深度学习模型来生成标签序列,所述端到端的深度学习模型为CNN‑LSTM模型。本发明专利技术的面向中文文本的端到端实体关系联合抽取方法首次将深度学习应用在中文文本的实体‑关系联合抽取问题中,使用的数据标注方法能够直接对三元组进行建模,从而从非结构化文本中提取出三元组信息,能够应用于海量中文文本的知识自动化抽取,为中文知识图谱自动化构建提供基础。

An end-to-end entity relationship extraction method for Chinese text

The invention discloses an end-to-end entity relationship joint extraction method for Chinese text. The method obtains data related to industrial products from Baidu Encyclopedia, and then carries out manual annotation and manual audit; classifies the labeled data set, including sentence and entity relationship information, uses word2vec method to construct word vector and end-to-end deep learning model. The end-to-end deep learning model is CNN \u2011 LSTM model. The end-to-end entity relationship joint extraction method for Chinese text of the invention applies deep learning to the entity \u2011 relationship joint extraction of Chinese text for the first time, and the data annotation method can directly model the triple, so as to extract the triple information from unstructured text, which can be applied to the automatic knowledge extraction of massive Chinese text, and is Chinese The foundation of knowledge map automation is provided.

【技术实现步骤摘要】
一种面向中文文本的端到端实体关系联合抽取方法
本专利技术涉及自然语言处理
,具体来说,涉及一种面向中文文本的端到端实体关系联合抽取方法。
技术介绍
实体和关系抽取是信息抽取的关键任务,指的是从非结构化文本中提取出实体并识别它们的语义关系。作为知识库构建中的关键步骤,实体及其关系的抽取方法主要分为两类:一类是串联抽取方法,另一类是联合抽取方法。其中,传统的串联抽取就是首先进行实体抽取,然后进行关系识别。这种串联的方法易于实现,而且各个模块灵活度比较高。但是这种管道方法没有考虑到实体识别和关系预测的相关性,而且实体识别的结果会影响到关系识别的结果,所以容易产生误差累积。联合抽取方法使用一个模型同时实现实体抽取和关系抽取,能更好的整合实体及其关系之间的信息。而且现有的联合抽取方法也存在诸多问题,比如:大部分的联合抽取模型需要经过复杂的特征工程,由人工参与构建特征,并且严重依赖于已有的NLP工具。其中“实体提及和关系的增量联合提取”(计算协会第52届年会论文集(第一卷:长篇论文),402–412页)及“用表格表示的实体与关系联合提取模型”(2014年自然语言处理经验方法会议论文集,1858-1869页)是基于结构预测方法;麻省理工学院出版社出版的《通过线性规划公式进行实体和关系识别的全局推理》(GlobalInferenceforEntityandRelationIdentificationviaaLinearProgrammingFormulation,)及“精细意见提取的联合推理”(计算语言学协会第51届年会论文集(第一卷:长篇论文),1640-1649页)使用整数线性规划法;“基于纸牌金字塔解析的实体与关系联合提取”(第14届计算自然语言学习会议论文集,203-212页)中提出纸牌金字塔解析法;“用图形模型方法联合识别实体和提取百科全书文本中的关系”(Coling2010:Posters,1399–1407页)、“实体、关系和共指的联合推理”(2013年自动化知识库建设专题讨论会论文集,1-6页)等使用全局的概率图模型。近年来,随着深度学习在许多NLP任务上的成功,神经网络也被广泛应用于实体、关系事实的提取。2016年“基于LSTM的序列和树结构端到端关系提取”(计算语言学协会第54届年会论文集)为了减少人工抽取特征工作,提出了基于神经网络的端到端模型,因在模型实现过程中分开抽取实体及其关系而导致信息冗余等问题。“用于联合实体和关系提取的表格填充多任务递归神经网络”(ProceedingsofCOLING,2537–2547页)、“基于全局优化的端到端神经关系提取”(2017年自然语言处理经验方法会议论文集,1730-1740页)等也利用端到端的模型将关系抽取问题转化为表格填充问题。但是目前绝大多数方法都是以英文数据为基础的,在中文数据方面,利用深度学习对实体-关系联合抽取的研究还很匮乏。
技术实现思路
针对相关技术中的上述技术问题,本专利技术提出一种面向中文文本的端到端实体关系联合抽取方法,能够克服现有技术的上述不足。为实现上述技术目的,本专利技术的技术方案是这样实现的:一种面向中文文本的端到端实体关系联合抽取方法,包括以下步骤:从百度百科中获得工业产品相关数据,再进行人工标注和人工审核;对标注好的数据集进行分词,包括其中的句子和实体关系信息,使用Word2Vec方法构建词向量;句子格式化:首先将句子按不同的长度范围,划分成不同的句子集合,再在每个句子的首尾分别加上特殊符号,并将同一集合中的句子扩展到同一长度;构建端到端的深度学习模型来生成标签序列,所述端到端的深度学习模型为CNN-LSTM模型;使用Precision,Recall以及F1值来作为模型预测结果的评价标准。进一步的,所述端到端的深度学习模型包含字级编码器、词级编码器和一个带有偏差损失的基于LSTM的解码层。进一步的,所述字级编码器使用CNN来获取句子中第i个词中的字符特征进一步的,所述词级编码器的输入是由上一步的字符特征与当前词的词向量拼接而成;所述词级编码器输出的每个词的特征由上一层网络的输出和输入层拼接而成。进一步的,所述词向量经过预训练的模型进行初始化,并在模型训练过程中不断更新。进一步的,在所述解码层,使用LSTM来处理标签序列。本专利技术的有益效果:本专利技术的面向中文文本的端到端实体关系联合抽取方法首次将深度学习应用在中文文本的实体-关系联合抽取问题中,提出了一个新的端到端的CNN-CNN-LSTM模型,包括一个字级(character-level)CNN编码器、一个词级(word-level)的CNN编码器,以及一个LSTM解码器;使用的数据标注方法能够直接对三元组进行建模,从而从非结构化文本中提取出三元组信息。本专利技术能够应用于海量中文文本的知识自动化抽取,为中文知识图谱自动化构建提供基础。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例所述的数据标注方法的示意图;图2是根据本专利技术实施例所述的字级编码器的CNN结构示例的示意图;图3是根据本专利技术实施例所述的词级编码器的CNN结构示例的示意图;图4是根据本专利技术实施例所述的端到端的神经网络结构的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术以中文数据为基础,提出了一个新的端到端的CNN-CNN-LSTM模型来提取由两个实体和这两个实体之间的一个关系组成的三元组。我们使用的标注方案包含实体信息和它们所持有的关系,能够将实体和关系的联合抽取问题转化为标记问题。数据集以及标注方法如下:(1)数据源从百度百科中获得工业产品相关数据,再进行人工标注和人工审核。(2)数据标注方法标注方法如图1所示,一个句子经过分词之后,每个词都对应一个标签,用以提取出实体和关系信息。输出的三元组相关的标签,例如S-CH-1包括三个部分:一个实体中包含词的位置、关系类型以及关系的角色。我们使用“BIOES”(Begin,Inside,Other,End,Single)标注方法来表示每个词在相应实体中的位置信息。关系的类型信息,如图中的特性(Character)、应用(Apply),是从我们预定义的关系中获得的。关系的角色表示一组关系中涉及的两个实体,用数字1和2表示。输出的三元组数据是(实体1,关系类型,实体2),其中“实体1”表示该词属于三元组中的第一个实体,而“实体2”则本文档来自技高网
...

【技术保护点】
1.一种面向中文文本的端到端实体关系联合抽取方法,其特征在于,包括以下步骤:/n从百度百科中获得工业产品相关数据,再进行人工标注和人工审核;/n对标注好的数据集进行分词,包括其中的句子和实体关系信息,使用Word2Vec方法构建词向量;/n句子格式化:首先将句子按不同的长度范围,划分成不同的句子集合,再在每个句子的首尾分别加上特殊符号,并将同一集合中的句子扩展到同一长度;/n构建端到端的深度学习模型来生成标签序列,所述端到端的深度学习模型为CNN-LSTM模型;/n使用Precision,Recall以及F1值来作为模型预测结果的评价标准。/n

【技术特征摘要】
1.一种面向中文文本的端到端实体关系联合抽取方法,其特征在于,包括以下步骤:
从百度百科中获得工业产品相关数据,再进行人工标注和人工审核;
对标注好的数据集进行分词,包括其中的句子和实体关系信息,使用Word2Vec方法构建词向量;
句子格式化:首先将句子按不同的长度范围,划分成不同的句子集合,再在每个句子的首尾分别加上特殊符号,并将同一集合中的句子扩展到同一长度;
构建端到端的深度学习模型来生成标签序列,所述端到端的深度学习模型为CNN-LSTM模型;
使用Precision,Recall以及F1值来作为模型预测结果的评价标准。


2.根据权利要求1所述的端到端实体关系联合抽取方法,其特征在于,所述端到端的深度学习模型包含字级编码器、词级...

【专利技术属性】
技术研发人员:徐汕胡博钦张晶亮梁炬谢水庚郝志强职亮亮
申请(专利权)人:北京航天云路有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1