一种基于关系关键词扩展的元组精化的控制方法技术

技术编号:8453013 阅读:177 留言:0更新日期:2013-03-21 16:32
本发明专利技术提供一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法,其特征在于,包括如下步骤:a.扩展待评估元组的关系关键词;b.获取与所述关系关键词相适应的共现句集合;c.根据所述共现句集合抽取候选实体集合;以及d.确定用于替换的实体,将所述替换实体作为所述待评估元组中的实体。本发明专利技术中的方法完全独立于任何实体关系抽取方法,也适用于自举方法任一轮迭代后,而且本方法仅使用浅层语言处理技术,避免了深层语言当前无法控制的噪音问题。

【技术实现步骤摘要】

本专利技术涉及知识库扩展、网络抓取、浅层语言处理技术(实体识别、分词)、数值统计等
,具体的说是一种基于关系关键词扩展的元组精化方法。
技术介绍
随着互联网的快速发展,如何从海量的无结构的数据里抽取出结构化的数据成为当前的研究热点,目前信息抽取的主要研究方向是命名实体识别、指代消解、实体关系抽取等,其中实体关系抽取是当前的重要的研究内容。而当前实体关系抽取有基于知识工程的方法和基于机器学习的方法。但是基于知识工程的方法需要大量人力同时需要构建专业知识,使得领域的可移植性差,而基于机器学习的方法需要使用大量深层语言处理技术, 比如基于SVM方法在构造特征向量时需要用到句法分析和语义分析、基于kernel的方法通过引入依存树来构建最短树核、弱监督的自举方法需要词法分析中的命名实体识别技术等,仅从抽取方法上改进很难进一步提高实体关系的效果,本专利技术提出了一种元组精化方法以提闻实体关系抽取的准确率。当前实体关系抽取中元组精化方法集中在可信度评估,snowball方法在没有人工干预的情况下评估模式和元组,仅仅保留最可信(超过阈值T)的模式和元组进入下一轮迭代。但其可信度评估仅仅依赖关系的一个关键属性扩展性小。哈工大方法设计了元组的可信度自动评估方法,哈工大方法仅仅利用种子元组可信度来评估其它元组,并未考虑到元组和模式的多样性,使得准确率不高。本文提出了一种基于关系关键词扩展的元组精化方法,利用关系的多样性和网络信息的冗余性,根据实体和关键词共现特征和就近原则从网络中提取实体,从而对实体关系抽取中的元组进行精化。此精化方法独立于抽取方法,使得本专利技术的方法可移植性强,且准确率高。
技术实现思路
针对现有技术的缺陷,本专利技术的目的是提供一种基于关系关键词扩展的元组精化方法。根据本专利技术的关系关键词扩展,提供了一种基于知识库扩展的关系关键词扩展方法,利用关系的多样性,利用《同义词词林扩展版》将实体关系关键词进行初步扩展,然后再手工去掉一些停用词和错误词,这样扩展后的词语就能更好的表示关系的多样性。首先根据本专利技术的方法,需要用户采取某种实体关系抽取方法(未经精化)抽取元组,作为待评估元组。然后,利用待评估元组构造初始元组,再利用实体和关键词共现的特性,从网络中就近抽取预先已定义类型的另一实体,从而达到元组精化的目的。本方法中仅利用浅层语言处理技术(分词、实体识别)等,避免了深层语言技术当前无可避免的噪音问题。根据本专利技术的一个方面,提供一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法,其特征在于,包括如下步骤a.扩展待评估元组的关系关键词;b.获取与所述关系关键词相适应的共现句集合;c.根据所述共现句集合抽取候选实体集合;以及d.确定用于替换的实体,将所述替换实体作为所述待评估元组中的实体。根据本专利技术的另一个方面,还提供一种基于关系关键词扩展的元组精化方法,其特征在于,包括如下步骤a.关系关键词扩展;b.抓取共现句集合;c.抽取候选实体集合; d.数值统计抽取实体。优选地,所述步骤a包括如下步骤al.构建初始元组(el, k, r_type),利用某一实体关系抽取出待评估元组(el, e2, k, r_type),初始元组来源于待评估元组;a2.构建关系扩展表{ (k,ki)},利用关系的多样性,首先用《同义词词林扩展版》对关系关键词进行同义词扩展,再手工去掉一些停用词和不常用词;a3.构建关系扩展元组集合{ (el,ki,r_ type) },利用初始元组和关系关键词扩展表对关系关键词进行扩展,构成关系关键词扩展后的元组集合。优选地,所述步骤通过构建实体一与关系关键词共现的句子集合SS,利用网络信息的冗余性,抽取关系扩展元组集合中的实体一和关系关键词共现的句子集合。优选地,所述步骤c包括如下步骤cl.对共现句集合SS进行实体识别和分词等浅层语言处理;c2.利用就近原则和预先定义的实体类型从共现句集合中抽取候选实体集口 ο优选地,所述步骤d利用数值统计从候选实体集合中抽取统计值最高的词作为实体二。本专利技术公开了一种基于实体关键词扩展的元组精化方法,不需要深层语言处理技术,也不需要依赖实体关系抽取方法。当用户通过实体关系抽取方法抽出实体后(未经精化),利用关系关键词扩展技术对实体关系关键词进行扩展,再利用网络信息的冗余性,利用实体和关键词共现特征从共现句集合中就近抽取出候选实体,取候选实体集中统计值最优的词作为实体,从而对元组进行精化。针对当前实体关系抽取准确率低,使用本方法可避免深层语言处理带来的噪音,同时尽量独立于实体关系抽取方法且独立于抽取过程,期待能提闻实体关系抽取的效果。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、 目的和优点将会变得更明显图I示出根据本专利技术的第一实施例的,一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法的流程图2示出根据本专利技术的第一实施例的,一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法扩展关系关键词的流程图3示出根据本专利技术的第一实施例的,一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法根据扩展关系关键词替换元组实体的流程图;以及图4示出根据本专利技术的一个具体实施方式的,一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法的流程图。具体实施方式本专利技术公开了一种基于实体关键词扩展的元组精化方法,不需要深层语言处理技术,也不需要依赖实体关系抽取方法。当用户通过实体关系抽取方法抽出实体后(未经精化),利用关系关键词扩展技术对实体关系关键词进行扩展,再利用网络信息的冗余性,利用实体和关键词共现特征从共现句集合中就近抽取出候选实体,取候选实体集中统计值最优的词作为实体,从而对元组进行精化。针对当前实体关系抽取准确率低,使用本方法可避免深层语言处理带来的噪音, 同时尽量独立于实体关系抽取方法且独立于抽取过程,提高实体关系抽取的效果。本方法包含了一种关系关键词扩展的方法。该方法结合了基于知识工程的自动扩展和手工扩展方法,充分利用了关系的多样性。本方法也利用了网络信息的冗余性,通过实体和关系关键词共现特征,从网络中提取共现句集合,通过浅层语言处理技术就近提取实体,最后取统计值最优的词作为实体, 从而对待评估元组进行精化。本方法利用关系多样性和网络信息冗余性,实现了一种基于关系关键词扩展的元组精化方法,避免使用深层语言处理技术,采用数值统计的方法就近抽取实体。本方法独立于实体关系抽取方法,避免使用深层语言处理技术。使得实体关系抽取可移植性好抽取效果好。通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、 目的和优点将会变得更明显图I示出根据本专利技术的第一实施例的,一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法的流程图。具体地,本领域技术人员理解,本专利技术提供的基于关系关键词扩展的方法适用于关系词明确的实体关系抽取方法中。例如StatSnowbalI种子元祖由(el,e2, k)组成,其中el代表实体一,e2代表实体二,k代表关系词。则可利用关系关键词扩展对StatSnowball方法进行元祖精化。更具体地,图I示出了四个步骤。首先是步骤S201,扩展待评估元组的关系关键词。然后是步本文档来自技高网
...

【技术保护点】
一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法,其特征在于,包括如下步骤:a.扩展待评估元组的关系关键词;b.获取与所述关系关键词相适应的共现句集合;c.根据所述共现句集合抽取候选实体集合;以及d.确定用于替换的实体,将所述替换实体作为所述待评估元组中的实体。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨小玲杨静
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1