基于生成式对抗网络的开放式实体关系抽取方法技术

技术编号:25598910 阅读:14 留言:0更新日期:2020-09-11 23:56
本发明专利技术涉及基于生成式对抗网络的开放式实体关系抽取方法,属于自然语言处理与机器学习领域。针对微博数据短小杂乱的特点,以及现有方法未考虑句子间语义相似性导致抽取的实体关系对准确率低且冗余的问题,提出一种基于生成式对抗网络的开放式实体关系抽取方法。该方法首先通过关系词和论元抽取规则得到实体三元组,通过语法分析树筛选三元组得到候选实体关系对。其次利用生成式对抗网络计算句子相似度,根据相似度阈值,划分相似句子组,并结合组内句子包含的实体关系对与其对应的置信度,合并组内实体关系对。本发明专利技术在NLP&&CC微博语料上进行实验,结果表明通过计算实体关系对置信度和划分相似句子组,合并组内实体关系对,提高了准确率和召回率,达到了去冗余的效果。

【技术实现步骤摘要】
基于生成式对抗网络的开放式实体关系抽取方法
本专利技术涉及基于生成式对抗网络的开放式实体关系抽取方法,属于自然语言处理与机器学习领域。
技术介绍
原始文本都是无结构化的。开放式实体关系抽取技术能够从原始文本中,抽取出实体以及实体对之间存在的关系,形成三元组,三元组的形式为<实体1,关系,实体2>。实体关系抽取技术是很多其他自然语言处理任务的基础,比如知识库构建、问答系统等。为了解决微博数据的杂乱冗余性质引发的关系抽取器抽取结果准确率低且冗余的问题,研究开放式实体关系抽取技术。因此,本专利技术将提供基于生成式对抗网络的开放式实体关系抽取方法来提高系统抽取实体关系的能力。本专利技术需要解决的基本问题是:从杂乱无序的微博数据中,抽取不限类别的实体、实体关系,形成结构化的数据。现有的开放式实体关系抽取系统和方法,主要包括以下几种:1.TextRunner系统和WOE系统TextRunner是第一个开放式信息抽取系统,通过词性和基本名词短语等特征训练朴素贝叶斯模型,抽取实体之间的关系。WOE系统将维基百科数据作为训练集,通过实验证明利用数据中的依存关系可以有效提升TextRunner系统的能力。TextRunner和WOE系统都属于先识别命名实体,再抽取关系的方法。2.基于规则的方法ReVerb首先确定一个以动词为中心的关系短语,结合语义规则和语法规则约束抽取实体关系三元组,然后通过位置约束规则抽取实体关系三元组。该方法通过词性标注、命名实体识别和人工制定规则匹配抽取实体关系对。对于多语言的开放信息抽取,Gamallo等采用基于规则的依存分析抽取英语、葡萄牙语、加利西亚语和西班牙语的实体关系。3.针对中文的开放式实体关系抽取系统针对中文的开放式实体关系抽取主要有三个系统:ZORE、UnCORE和CORE。ZORE对句子进行依存分析,得到依存解析树,然后依据实体与关系词之间的依存关系迭代抽取句子的实体三元组。UnCORE系统通过制定句子中实体之间和关系指示词之间的位置限制规则,抽取候选关系三元组,然后利用信息增益筛选关系指示词,结合类型排序方法获得每个实体关系类型的关系指示词,最后通过关系词和句式规则对候选三元组进行过滤。CORE首先使用CKIP解析器分析句法结构,然后通过“head-driven”准则识别句子中的中心关系指示词,最后结合依存关系寻找中心实体词。综上所述,现有开放式实体关系抽取方法难以处理杂乱冗余的微博数据,所以本专利技术提出基于生成式对抗网络的开放式实体关系抽取方法。
技术实现思路
本专利技术的目的是为缓解现有方法在微博数据集上准确率低,结果冗余的问题,提高开放式实体关系抽取性能,提出基于生成式对抗网络的开放式实体关系抽取方法。本专利技术的设计原理为:首先,对数据进行预处理,包括:提取微博数据的正文,对正文进行分句、分词、去停用词和词性标注,利用依存分析工具,得到依存句法解析树;其次,通过基本名词识别规则确定候选论元,结合关系词抽取规则和论元抽取规则得到实体关系三元组,利用语法分析树筛选实体关系三元组,得到候选实体关系对;然后,基于生成式对抗网络(GAN,GenerativeAdversarialNetworks)计算句子相似度Sim,得到所有句子的句子相似度矩阵;最后,根据句子相似度矩阵和相似度阈值划分相似句子组,在每个相似句子组内,分别计算每个实体关系三元组的置信度,结合组内句子包含的实体关系对与其对应的置信度,合并组内实体关系对作为该句子组的最优实体关系三元组。本专利技术的技术方案是通过如下步骤实现的:步骤1,对微博数据进行预处理。步骤1.1,提取微博数据的正文。步骤1.2,对微博数据的正文进行分句、分词、去停用词和词性标注。步骤1.3,利用依存分析工具,得到依存句法解析树。步骤1.4,利用语法分析工具,得到语法分析树。步骤2,抽取候选实体关系对。步骤2.1,结合基本名词短语规则、关系词抽取规则和论元抽取规则抽取实体关系三元组。步骤2.2,通过语法分析树,对实体关系三元组进行筛选,生成实体关系三元组候选集。步骤3,计算句子相似度。步骤3.1,基于生成式对抗网络计算句子相似度Sim。步骤3.2,重复步骤3.1得到句子相似度矩阵。步骤4,实体关系对合并。步骤4.1,根据句子相似度矩阵和相似度阈值划分相似句子组。步骤4.2,结合组内句子包含的实体关系三元组其对应的置信度,合并组内实体关系对,作为该句子组的最优实体关系三元组。有益效果相比于现有的开放式实体关系抽取系统和方法,本专利技术能够有效缓解微博数据实体关系对抽取结果准确率低且冗余的问题。附图说明图1为本专利技术基于生成式对抗网络的开放式实体关系抽取方法的原理图。图2为依存句法示例图。图3为语法分析树示例图。图4为基于生成式对抗网络的句子相似度计算方法的原理图。图5为生成式对抗网络挖掘两个句子相同特征的原理图。图6为实体关系对合并原理图。具体实施方式为了更好地说明本专利技术的目的和优点,下面结合实例对本专利技术方法的实施方式做进一步详细说明。具体流程为:步骤1,对微博数据进行预处理。步骤1.1,提取正文内容,使用正则表达式过滤html标签和噪声符号,同时将正文中的繁体转换为简体。步骤1.2,对正文数据进行分句,结合哈工大的语言云LTP对每个句子进行分词、词性标注和依存关系分析,并将包含少于4个有效词(包括名词、动词、形容词、数词、时间词等)的文本去除。步骤1.3,依存句法分析通过分析句子中语言单位内成分之间的依存关系揭示其句法结构,利用哈工大提供的LTP依存分析工具分析句子“白宫预算委员会的民主党星期一发布报告”中成分之间的依存关系见图2。依存句法标注关系及含义见表1。表1.依存句法标注关系表步骤1.4,引入语法信息去除噪声,语法分析树是一个有序的、有根节点的树,它能够描述句子的语法结构。利用斯坦福解析器分析句子的语法结构,并获取语法分析树。使用该工具分析句子“小明助手小红抵达上海”的语法结构见图3。步骤2,抽取候选实体关系对。步骤2.1,首先根据词性标注结果和名词短语抽取规则得到基本名词短语;其次将句子中存在VOB(动宾关系)或FOB(前置宾语)依存关系路径的动词视为候选关系词;最后将基本名词短语中的成分与候选关系词存在SBV(主谓关系)、VOB、FOB的作为该动词的论元,得到“SBV-关系词-VOB”和“SBV-FOB-关系词”两种依存关系路径的实体关系对。具有否定结构的句子需要特殊处理,例如,“部分大学生没有参加晚会”,按照上述实体关系对抽取规则得到“e1:部分大学生,e2:晚会,r:参加”实体关系对,结果不正确,所以需要考虑否定词,正确结果应是:“e1:部分大学生,e2:晚会,r:没有参加”。通过建立本文档来自技高网
...

【技术保护点】
1.基于生成式对抗网络的开放式实体关系抽取方法,其特征在于所述方法包括如下步骤:/n步骤1,对微博数据进行预处理,包括:提取微博数据的正文,对微博数据的正文进行分句、分词、去停用词和词性标注,利用依存分析工具,得到依存句法解析树,利用语法分析工具,得到语法分析树;/n步骤2,结合基本名词短语规则、关系词抽取规则和论元抽取规则抽取实体关系三元组,通过语法分析树,对实体关系三元组进行筛选,生成实体关系对候选集;/n步骤3,基于生成式对抗网络计算句子相似度Sim,得到句子相似度矩阵;/n步骤4,根据句子相似度矩阵和相似度阈值划分相似句子组,然后结合组内句子包含的实体关系对与其对应的置信度,合并组内实体关系对,作为该句子组的最优实体关系三元组。/n

【技术特征摘要】
1.基于生成式对抗网络的开放式实体关系抽取方法,其特征在于所述方法包括如下步骤:
步骤1,对微博数据进行预处理,包括:提取微博数据的正文,对微博数据的正文进行分句、分词、去停用词和词性标注,利用依存分析工具,得到依存句法解析树,利用语法分析工具,得到语法分析树;
步骤2,结合基本名词短语规则、关系词抽取规则和论元抽取规则抽取实体关系三元组,通过语法分析树,对实体关系三元组进行筛选,生成实体关系对候选集;
步骤3,基于生成式对抗网络计算句子相似度Sim,得到句子相似度矩阵;
步骤4,根据句子相似度矩阵和相似度阈值划分相似句子组,然后结合组内句子包含的实体关系对与其对应的置信度,合并组内实体关系对,作为该句子组的最优实体关系三元组。


2.根据权利要求1所述的基于生成式对抗网络的开放式实体关系抽取方法,其特征在于:步骤1中对句子同时进行依存句法分析和语法分析,得到依存句法解析树和语法分析树。


3.根据权利要求1所述的基于生成式对抗网络的开放式实体关系抽取方法,其特征在于:步骤2中通过依存句法解析树得到候选实体关系三元组,引入语法分析树,通过语法信息对候选实体关系...

【专利技术属性】
技术研发人员:罗森林白崇有潘丽敏郭佳吴舟婷
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1