实体集合扩展方法技术

技术编号：11779295 阅读：163 留言：0更新日期：2015-07-26 23:21

本发明专利技术提供一种实体集合扩展方法，该方法包括：获取用户输入的种子实体集合，根据种子实体集合中每个种子实体的实体名，在RDF知识库中确定每个种子实体对应的属性信息；根据每个种子实体对应的属性信息，确定种子实体集合对应的相同属性特征，确定RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合；将扩展实体集合中包括的实体添加到种子实体集合中，得到扩展后的实体集合。本发明专利技术提供一种基于RDF知识库的实体集合扩展方法，由于RDF知识库使用的是结构化的XML数据，服务器可以挖掘出了种子实体之间的语义信息，使得扩展结果变得更为智能和准确，保证了实体集合扩展的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息抽取技术，尤其涉及一种。
技术介绍
文本信息抽取（TextInformationExtraction)指的是从自然语言文本中抽取指定类型的实体（Entity)、关系（Relation)、事件（Event)等事实信息，并形成结构化数据输出的文本处理技术。例如从有线新闻和广播电视的文本中抽取恐怖事件相关情况：时间、地点、作案者、受害者、袭击目标等信息。传统信息抽取任务是面向限定领域文本的、限定类别实体、关系和事件等的抽取，这大大制约了文本信息抽取技术的发展和应用，例如问答系统所需要的信息抽取技术远远超越我们通常研宄的人名、地名、机构名、时间、日期等有限实体类别；上下位、部分整体、地理位置等有限关系类别；毁坏、创造、所有权转移等有限事件类别，甚至所需要的类别是未知的、不断变化的。这种应用需求为信息抽取技术的研宄提出了新的挑战。另一方面，从信息抽取的技术手段来讲，由于网络文本具有不规范性、开放性以及海量性的特点，使得传统的依赖于训练语料的统计机器学习方法遇到严重挑战。为了适应互联网实际应用的需求，越来越多的研宄者开始研宄开放式信息抽取技术，目标是从海量、冗余、异构、不规范、含有大量噪声的网页中大规模地抽取开放类别的实体、关系、事件等多层次语义单元信息，并形成结构化数据格式输出。开放式实体抽取的任务是在给出特定语义类的若干实体（又称为"种子"）的情况下，找出该语义类包含的其他实体，其中特定语义类的标签可能显式给出，也可能隐式给出。在互联网应用领域，开放式实体抽取技术对于知识库构建、网络内容管理、语义搜索...

【技术保护点】
一种实体集合扩展方法，其特征在于，包括：获取用户输入的种子实体集合，所述种子实体集合中包含的种子实体的数量为至少两个；根据所述种子实体集合中每个种子实体的实体名，在RDF知识库中确定所述每个种子实体对应的属性信息，所述属性信息中包括至少一个属性特征，所述RDF知识库中存储有预先建立的每个实体的实体名和属性信息的关联关系；根据所述每个种子实体对应的属性信息，确定所述种子实体集合对应的相同属性特征，所述相同属性特征包括至少两个种子实体所具有的相同的属性特征；确定所述RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合；将所述扩展实体集合中包括的实体添加到所述种子实体集合中，得到扩展后的实体集合；将所述扩展后的实体集合发送给用户终端设备。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈跃国，杜小勇，张香玲，陈峻，刘德海，
申请(专利权)人：中国人民大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人