实体集合扩展方法技术

技术编号:11779295 阅读:163 留言:0更新日期:2015-07-26 23:21
本发明专利技术提供一种实体集合扩展方法,该方法包括:获取用户输入的种子实体集合,根据种子实体集合中每个种子实体的实体名,在RDF知识库中确定每个种子实体对应的属性信息;根据每个种子实体对应的属性信息,确定种子实体集合对应的相同属性特征,确定RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合;将扩展实体集合中包括的实体添加到种子实体集合中,得到扩展后的实体集合。本发明专利技术提供一种基于RDF知识库的实体集合扩展方法,由于RDF知识库使用的是结构化的XML数据,服务器可以挖掘出了种子实体之间的语义信息,使得扩展结果变得更为智能和准确,保证了实体集合扩展的效率。

【技术实现步骤摘要】

本专利技术涉及信息抽取技术,尤其涉及一种。
技术介绍
文本信息抽取(TextInformationExtraction)指的是从自然语言文本中抽取指 定类型的实体(Entity)、关系(Relation)、事件(Event)等事实信息,并形成结构化数据输 出的文本处理技术。例如从有线新闻和广播电视的文本中抽取恐怖事件相关情况:时间、地 点、作案者、受害者、袭击目标等信息。 传统信息抽取任务是面向限定领域文本的、限定类别实体、关系和事件等的抽取, 这大大制约了文本信息抽取技术的发展和应用,例如问答系统所需要的信息抽取技术远远 超越我们通常研宄的人名、地名、机构名、时间、日期等有限实体类别;上下位、部分整体、地 理位置等有限关系类别;毁坏、创造、所有权转移等有限事件类别,甚至所需要的类别是未 知的、不断变化的。这种应用需求为信息抽取技术的研宄提出了新的挑战。另一方面,从信 息抽取的技术手段来讲,由于网络文本具有不规范性、开放性以及海量性的特点,使得传统 的依赖于训练语料的统计机器学习方法遇到严重挑战。 为了适应互联网实际应用的需求,越来越多的研宄者开始研宄开放式信息抽取技 术,目标是从海量、冗余、异构、不规范、含有大量噪声的网页中大规模地抽取开放类别的实 体、关系、事件等多层次语义单元信息,并形成结构化数据格式输出。开放式实体抽取的任 务是在给出特定语义类的若干实体(又称为"种子")的情况下,找出该语义类包含的其他 实体,其中特定语义类的标签可能显式给出,也可能隐式给出。在互联网应用领域,开放式 实体抽取技术对于知识库构建、网络内容管理、语义搜索、推荐系统、问答系统等都具有重 要应用价值。 开放式实体信息抽取又称为实体集合扩展(EntitySetExpansion),目标是根据 用户输入的种子词从网络中抽取同类型的实体扩展至实体集合中,在这一过程中需要自动 判别用户输入种子词的类别信息,或者根据用户输入的类别进行类别词扩展。具体难点如 下:1)初始信息少,实体抽取通常采用半监督或无监督的方法,己知信息一般有以下三种: 种子实体、语义类别标签以及预先定义的信息。其中给出的种子通常少于5个,语义类别标 签有时会给出有时不会给出,而预先定义的信息通常是若干模板,可以利用的己知信息非 常少;2)语义类别难以确定,在没有给定语义类别标签的情况下,种子实体可能会同时属 于多个语义类,使得目标语义类别的确定非常困难。比如给出"中国、美国、俄罗斯"三个种 子实体,这三个种子实体都可归为"国家"类别,但同时又都可归为"联合国安理会常任理事 会成员"类别,或者归为"有核武器的国家"类别。 现有的是:根据与种子节点在网页中的共现频率进行扩展,也 就是同类实体在网络上具有相似的网页结构或者相似的上下文特征,抽取过程就是首先找 到这样的网页或者文本,然后从中抽取未知的同类型实体,或者根据已有的种子节点信息, 通过训练语料的统计机器学习方法,估计候选实体与种子相似的概率,完成实体集合扩展。 例如在某网页中,"奥迪"、"宝马"、"保时捷"等具有相同的网页结构,如果己知"奥迪"、"宝 马"、"保时捷"为汽车品牌名,那么该网页中其他具有相同上下文特征的字符串也很可能是 汽车品牌类型实体。 现有的都是基于网页来获取候选实体的概率分布信息或者统 计信息,都是一种模糊的扩展,不能保证扩展结果的准确性,且由于网页信息的海量、冗余、 异构、不规范、含有大量噪声等因素,使得扩展过程时间消耗很大,效率较低。
技术实现思路
本专利技术提供一种,其目的在于解决现有基于网页的实体集合扩 展方法的扩展结果不准确,扩展过程时间消耗较大,效率较低的问题。 本专利技术实施例提供的包括: 获取用户输入的种子实体集合,所述种子实体集合中包含的种子实体的数量为至 少两个; 根据上述种子实体集合中每个种子实体的实体名,在RDF知识库中确定所述每个 种子实体对应的属性信息,所述属性信息中包括至少一个属性特征,所述RDF知识库中存 储有预先建立的每个实体的实体名和属性信息的关联关系; 根据上述每个种子实体对应的属性信息,确定所述种子实体集合对应的相同属性 特征,所述相同属性特征包括至少两个种子实体所具有的相同的属性特征; 确定上述RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合,将 所述扩展实体集合中包括的实体添加到所述种子实体集合中,得到扩展后的实体集合; 将所述扩展后的实体集合发送给用户终端设备。 基于上述,本专利技术提供的通过以种子实体为关键字,在RDF知 识库中查询种子实体的相同属性特征,并且根据相同属性特征信息在RDF知识库中查询候 选实体,由候选实体构成扩展实体集合进行实体集合扩展。由于RDF知识库使用的是结构 化的XML数据,在进行实体集合扩展时,可以挖掘出了种子实体之间的语义信息,使得扩展 结果变得更为智能和准确,而且结构化的数据更易于处理,保证了实体集合扩展的效率。【附图说明】 为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本 领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他 的附图。 图1为本专利技术实施例提供的一的流程示意图; 图2为本专利技术实施例提供的另一的流程示意图; 图3为本专利技术实施例提供的再一的流程示意图; 图4为本专利技术实施例提供的再一的流程示意图。【具体实施方式】 为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例 中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。 本专利技术实施例的技术方案具体可以应用于命名实体特征获取、推荐系统、QA系统 以及知识库构建等方面。该方法可以通过实体集合扩展装置来实现,该实体集合扩展装置 可以集成在网络设备中,也可以单独设置,该实体集合扩展装置可以通过软件和/或硬件 的方式来实现。网络设备具体可以是服务器,或可以进行Internet访问的计算机等。在专利技术实施例中,用于实体集合扩展的数据来源为资源描述框架(Resource DescriptionFramework,简称RDF)类型的网络知识库。例如,互联网中的freebase、yago 和dbpedia等具有较高数据质量的知识库(KnowledgeBase,简称KB)。RDF是一种用于描 述Web资源的标记语言。RDF是一个处理元数据的可扩展标记语言(ExtensibleMarkup Language,简称XML)应用,XML是标准通用标记语言的子集,XML可以对文档和数据进行结 构当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种实体集合扩展方法,其特征在于,包括:获取用户输入的种子实体集合,所述种子实体集合中包含的种子实体的数量为至少两个;根据所述种子实体集合中每个种子实体的实体名,在RDF知识库中确定所述每个种子实体对应的属性信息,所述属性信息中包括至少一个属性特征,所述RDF知识库中存储有预先建立的每个实体的实体名和属性信息的关联关系;根据所述每个种子实体对应的属性信息,确定所述种子实体集合对应的相同属性特征,所述相同属性特征包括至少两个种子实体所具有的相同的属性特征;确定所述RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合;将所述扩展实体集合中包括的实体添加到所述种子实体集合中,得到扩展后的实体集合;将所述扩展后的实体集合发送给用户终端设备。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈跃国杜小勇张香玲陈峻刘德海
申请(专利权)人:中国人民大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1