一种面向中文文本的端到端实体关系联合抽取方法技术

技术编号：22594891 阅读：29 留言：0更新日期：2019-11-20 11:11

本发明专利技术公开了一种面向中文文本的端到端实体关系联合抽取方法，该方法从百度百科中获得工业产品相关数据，再进行人工标注和人工审核；对标注好的数据集进行分词，包括其中的句子和实体关系信息，使用Word2Vec方法构建词向量，构建端到端的深度学习模型来生成标签序列，所述端到端的深度学习模型为CNN‑LSTM模型。本发明专利技术的面向中文文本的端到端实体关系联合抽取方法首次将深度学习应用在中文文本的实体‑关系联合抽取问题中，使用的数据标注方法能够直接对三元组进行建模，从而从非结构化文本中提取出三元组信息，能够应用于海量中文文本的知识自动化抽取，为中文知识图谱自动化构建提供基础。

An end-to-end entity relationship extraction method for Chinese text

The invention discloses an end-to-end entity relationship joint extraction method for Chinese text. The method obtains data related to industrial products from Baidu Encyclopedia, and then carries out manual annotation and manual audit; classifies the labeled data set, including sentence and entity relationship information, uses word2vec method to construct word vector and end-to-end deep learning model. The end-to-end deep learning model is CNN \u2011 LSTM model. The end-to-end entity relationship joint extraction method for Chinese text of the invention applies deep learning to the entity \u2011 relationship joint extraction of Chinese text for the first time, and the data annotation method can directly model the triple, so as to extract the triple information from unstructured text, which can be applied to the automatic knowledge extraction of massive Chinese text, and is Chinese The foundation of knowledge map automation is provided.

全部详细技术资料下载

【技术实现步骤摘要】
一种面向中文文本的端到端实体关系联合抽取方法
本专利技术涉及自然语言处理
，具体来说，涉及一种面向中文文本的端到端实体关系联合抽取方法。
技术介绍
实体和关系抽取是信息抽取的关键任务，指的是从非结构化文本中提取出实体并识别它们的语义关系。作为知识库构建中的关键步骤，实体及其关系的抽取方法主要分为两类：一类是串联抽取方法，另一类是联合抽取方法。其中，传统的串联抽取就是首先进行实体抽取，然后进行关系识别。这种串联的方法易于实现，而且各个模块灵活度比较高。但是这种管道方法没有考虑到实体识别和关系预测的相关性，而且实体识别的结果会影响到关系识别的结果，所以容易产生误差累积。联合抽取方法使用一个模型同时实现实体抽取和关系抽取，能更好的整合实体及其关系之间的信息。而且现有的联合抽取方法也存在诸多问题，比如：大部分的联合抽取模型需要经过复杂的特征工程，由人工参与构建特征，并且严重依赖于已有的NLP工具。其中“实体提及和关系的增量联合提取”(计算协会第52届年会论文集(第一卷:长篇论文)，402–412页)及“用表格表示的实体与关系联合提取模型”(2014年自然语言处理经验方法会议论文集，1858-1869页)是基于结构预测方法；麻省理工学院出版社出版的《通过线性规划公式进行实体和关系识别的全局推理》(GlobalInferenceforEntityandRelationIdentificationviaaLinearProgrammingFormulation，)及“精细意见提取的联合推理”(计算语言学协会第51届年...

【技术保护点】
1.一种面向中文文本的端到端实体关系联合抽取方法，其特征在于，包括以下步骤：/n从百度百科中获得工业产品相关数据，再进行人工标注和人工审核；/n对标注好的数据集进行分词，包括其中的句子和实体关系信息，使用Word2Vec方法构建词向量；/n句子格式化：首先将句子按不同的长度范围，划分成不同的句子集合，再在每个句子的首尾分别加上特殊符号，并将同一集合中的句子扩展到同一长度；/n构建端到端的深度学习模型来生成标签序列，所述端到端的深度学习模型为CNN-LSTM模型；/n使用Precision，Recall以及F1值来作为模型预测结果的评价标准。/n

【技术特征摘要】
1.一种面向中文文本的端到端实体关系联合抽取方法，其特征在于，包括以下步骤：
从百度百科中获得工业产品相关数据，再进行人工标注和人工审核；
对标注好的数据集进行分词，包括其中的句子和实体关系信息，使用Word2Vec方法构建词向量；
句子格式化：首先将句子按不同的长度范围，划分成不同的句子集合，再在每个句子的首尾分别加上特殊符号，并将同一集合中的句子扩展到同一长度；
构建端到端的深度学习模型来生成标签序列，所述端到端的深度学习模型为CNN-LSTM模型；
使用Precision，Recall以及F1值来作为模型预测结果的评价标准。

2.根据权利要求1所述的端到端实体关系联合抽取方法，其特征在于，所述端到端的深度学习模型包含字级编码器、词级...

【专利技术属性】
技术研发人员：徐汕，胡博钦，张晶亮，梁炬，谢水庚，郝志强，职亮亮，
申请(专利权)人：北京航天云路有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人