基于生成式对抗网络的开放式实体关系抽取方法技术

技术编号：25598910 阅读：14 留言：0更新日期：2020-09-11 23:56

本发明专利技术涉及基于生成式对抗网络的开放式实体关系抽取方法，属于自然语言处理与机器学习领域。针对微博数据短小杂乱的特点，以及现有方法未考虑句子间语义相似性导致抽取的实体关系对准确率低且冗余的问题，提出一种基于生成式对抗网络的开放式实体关系抽取方法。该方法首先通过关系词和论元抽取规则得到实体三元组，通过语法分析树筛选三元组得到候选实体关系对。其次利用生成式对抗网络计算句子相似度，根据相似度阈值，划分相似句子组，并结合组内句子包含的实体关系对与其对应的置信度，合并组内实体关系对。本发明专利技术在NLP&&CC微博语料上进行实验，结果表明通过计算实体关系对置信度和划分相似句子组，合并组内实体关系对，提高了准确率和召回率，达到了去冗余的效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于生成式对抗网络的开放式实体关系抽取方法
本专利技术涉及基于生成式对抗网络的开放式实体关系抽取方法，属于自然语言处理与机器学习领域。
技术介绍
原始文本都是无结构化的。开放式实体关系抽取技术能够从原始文本中，抽取出实体以及实体对之间存在的关系，形成三元组，三元组的形式为<实体1，关系，实体2>。实体关系抽取技术是很多其他自然语言处理任务的基础，比如知识库构建、问答系统等。为了解决微博数据的杂乱冗余性质引发的关系抽取器抽取结果准确率低且冗余的问题，研究开放式实体关系抽取技术。因此，本专利技术将提供基于生成式对抗网络的开放式实体关系抽取方法来提高系统抽取实体关系的能力。本专利技术需要解决的基本问题是：从杂乱无序的微博数据中，抽取不限类别的实体、实体关系，形成结构化的数据。现有的开放式实体关系抽取系统和方法，主要包括以下几种：1.TextRunner系统和WOE系统TextRunner是第一个开放式信息抽取系统，通过词性和基本名词短语等特征训练朴素贝叶斯模型，抽取实体之间的关系。WOE系统将维基百科数据作为训练集，通过实验证明利用数据中的依存关系可以有效提升TextRunner系统的能力。TextRunner和WOE系统都属于先识别命名实体，再抽取关系的方法。2.基于规则的方法ReVerb首先确定一个以动词为中心的关系短语，结合语义规则和语法规则约束抽取实体关系三元组，然后通过位置约束规则抽取实体关系三元组。该方法通过词性标注、命名实体识别和人工制定规则匹配抽取...

【技术保护点】
1.基于生成式对抗网络的开放式实体关系抽取方法，其特征在于所述方法包括如下步骤：/n步骤1，对微博数据进行预处理，包括：提取微博数据的正文，对微博数据的正文进行分句、分词、去停用词和词性标注，利用依存分析工具，得到依存句法解析树，利用语法分析工具，得到语法分析树；/n步骤2，结合基本名词短语规则、关系词抽取规则和论元抽取规则抽取实体关系三元组，通过语法分析树，对实体关系三元组进行筛选，生成实体关系对候选集；/n步骤3，基于生成式对抗网络计算句子相似度Sim，得到句子相似度矩阵；/n步骤4，根据句子相似度矩阵和相似度阈值划分相似句子组，然后结合组内句子包含的实体关系对与其对应的置信度，合并组内实体关系对，作为该句子组的最优实体关系三元组。/n

【技术特征摘要】
1.基于生成式对抗网络的开放式实体关系抽取方法，其特征在于所述方法包括如下步骤：
步骤1，对微博数据进行预处理，包括：提取微博数据的正文，对微博数据的正文进行分句、分词、去停用词和词性标注，利用依存分析工具，得到依存句法解析树，利用语法分析工具，得到语法分析树；
步骤2，结合基本名词短语规则、关系词抽取规则和论元抽取规则抽取实体关系三元组，通过语法分析树，对实体关系三元组进行筛选，生成实体关系对候选集；
步骤3，基于生成式对抗网络计算句子相似度Sim，得到句子相似度矩阵；
步骤4，根据句子相似度矩阵和相似度阈值划分相似句子组，然后结合组内句子包含的实体关系对与其对应的置信度，合并组内实体关系对，作为该句子组的最优实体关系三元组。

2.根据权利要求1所述的基于生成式对抗网络的开放式实体关系抽取方法，其特征在于：步骤1中对句子同时进行依存句法分析和语法分析，得到依存句法解析树和语法分析树。

3.根据权利要求1所述的基于生成式对抗网络的开放式实体关系抽取方法，其特征在于：步骤2中通过依存句法解析树得到候选实体关系三元组，引入语法分析树，通过语法信息对候选实体关系...

【专利技术属性】
技术研发人员：罗森林，白崇有，潘丽敏，郭佳，吴舟婷，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人