从语义数据的信息提取制造技术

技术编号:13083264 阅读:152 留言:0更新日期:2016-03-30 15:12
一般地公开了用于从例如在万维网上可获得的语义数据提取信息的技术和实施方式。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
除非在本文中另外表明,否则本部分中所述的方法对于本申请中的权利要求来说不是现有技术并且不由于包括在本部分中而被承认是现有技术。大量语义数据可从计算机访问。例如,大量语义数据在万维网(WWW)上是可获得的。由于巨大量的语义数据,从语义数据提取信息(例如,通过使用计算机等)可能是困难的。
技术实现思路
本文中描述了用于从万维网上的语义数据提取信息的各种说明性方法。示例方法可包括:至少部分基于与语义数据对应的本体的多个声明来从该本体产生多个断言;至少部分基于信息表示语言的语法来确定信息候选;并且至少部分基于所述多个断言来验证信息候选。本公开还描述了具有存储在其中的指令的各种示例机器可读非暂态介质,这些指令当被一个或多个处理器执行时操作地使得语义数据处理模块实现:至少部分基于术语集合(Tbox)分类和断言集合(Abox)采样来从与语义数据对应的本体产生多个断言;至少部分基于信息表示语言的语法来确定信息候选;并且至少部分基于所述多个断言来验证信息候选。本公开另外描述了示例系统。示例系统可包括处理器和通信地耦合到处理器的语义数据处理模块,该语义数据处理模块被配置为:至少部分基于术语集合(Tbox)分类和断言集合(Abox)采样来从与语义数据对应的本体产生多个断言;至少部分基于信息表示语言的语法来确定信息候选;并且至少部分基于所述多个断言来验证信息候选。前述概要仅仅是说明性的,而并不意图以任何方式是限制性的。除了说明性的方面,上述实施例和特征、另外的方面、实施例和特征将通过参考附图和下面的详细描述而变得显而易见。附图说明主题在本说明书的结论部分中被具体地指出和清楚地要求保护。通过结合附图进行的以下描述和所附权利要求,本公开的前述和其它特征将变得更充分地显而易见。理解,这些附图仅仅描绘了根据本公开的几个实施例,因此,不应被认为是限制其范围,将通过使用附图来更具体地、更详细地描述本公开。在附图中:图1说明被配置为从WWW上的语义数据提取信息的系统的框图;图2是用于从WWW上的语义数据提取信息的示例方法的流程图;图3说明示例计算机程序产品;以及图4说明示例计算装置的框图,所有附图都是依照本文所述的至少一些实施例来安排的。具体实施方式以下描述阐述了各种示例、连同特定细节以提供要求保护的主题的透彻理解。本领域技术人员将理解,要求保护的主题可在没有本文中公开的特定细节中的一些或多个的情况下被实施。此外,在一些情况下,未对公知的方法、过程、系统、部件和/或电路进行详细描述,以便避免不必要地模糊要求保护的主题。在以下详细描述中,对附图进行参考,所述附图形成详细描述的一部分。除非上下文另外指示,否则在附图中,相似的符号通常标识相似的部件。在详细描述、附图和权利要求中描述的说明性实施例并不意味着是限制性的。在不脱离本文所提供的主题的精神或范围的情况下,可以利用其它实施例,以及可以进行其它改变。将易于理解的是,如在本文中一般地描述的和在图中示出的那样,本公开的各方面可以以广泛多样的不同配置被布置、替代、组合和设计,所有这些都被明确地构想,并且构成本公开的一部分。本公开尤其是针对与从语义数据提取信息相关的方法、装置、系统和计算机可读介质进行描写的。大量语义数量是可获得的(例如,在WWW上、在LAN上、在数据中心中、在服务器上等)。可获得的语义数据可对应于各种不同的对象(例如,科学、历史、体育、经济、社会、技术等)。由于大量可获得的语义数据,从语义数据提取信息(例如,模式、统计、推论、可能有用的事实等)可能是困难的。例如,与癌症相关的大量语义数据在WWW上是可获得的。从语义数据提取信息(例如,癌症的可能原因等)可能是困难的。另外,用于从存储在数据库中的数据提取信息的一些技术可能不适用于从语义数据提取信息。更具体地说,因为存储在数据库中的数据可能具有不同于语义数据的格式(例如,基于关系的vs基于图表的,等等),所以用于从存储在数据库中的数据提取信息的技术可能不适用于从语义数据提取信息。一般地,语义数据可至少部分基于术语集合(Tbox)分类和断言集合(Abox)采样被组织。一般地,TBox分类可定义语义数据内的概念和/或角色之间的关系。ABox采样可通过使用TBox定义的概念和角色来描述关于一个或多个实体的信息。作为示例,语义数据可对应于住院的患者。这样的语义数据可具有描述概念“住院患者”的TBox分类。语义数据还可具有描述任何数量的作为“住院患者”的实体(例如,人、动物等)的ABox采样。可提供本文中所述的用于从语义数据提取信息的各种实施例。在一些示例中,可通过如下操作来从语义数据提取信息,即,从语义数据产生断言,从语义数据确定信息候选,并且使用产生的断言来对确定的信息候选应用验证过程。本文中呈现的一些示例可描述从在WWW上可获得的语义数据提取信息。然而,这并非意图限制。例如,可从在数据中心中、在LAN上、在服务器上等可获得的语义数据提取信息。在一些示例中,耦合到互联网的计算装置可被配置为既从在WWW上可获得的语义数据产生断言、又从该语义数据确定信息候选。该计算装置可被进一步配置为至少部分基于产生的断言来验证确定的信息候选。计算装置可至少部分基于TBox分类和/或ABox采样来从与语义数据对应的本体产生多个断言。在一些实施例中,计算装置可通过将在ABox采样中引用的实体分配给来自TBox分类的概念和/或角色(例如,基于概念层次树和/或基于角色层次树)来产生断言。可替换地和/或另外地,计算装置可通过标识ABox采样中的模式(例如,被ABox采样中的大多数断言使用的模式或诸如此类的模式)来产生断言。计算装置可至少部分基于“简单性规则”来确定信息候选。例如,信息候选可被限制为特定长度。在一些示例中,长度可基于信息表示语言的语法。计算装置可至少部分基于“新颖性规则”来确定信息候选。例如,信息候选可被要求是“新的”(例如,TBox尚未描述的、诸如此类)。计算装置可至少部分基于产生的断言来验证确定的信息候选。在一些实施例中,计算装置可至少部分基于“多数决定规则”来验证信息候选。例如,计算装置可确定满足大多数或产生的断言的信息候选。图1说明根据本文中所述的至少一些实施例布置的、被配置为从WWW上的语义数据提取信息的示例系统100。如所描绘的,系统100可包括被配置为从WWW上的语义数据提取信本文档来自技高网...

【技术保护点】
一种用于从万维网上的语义数据提取信息的方法,所述方法包括:至少部分基于与所述语义数据对应的本体的多个声明来从所述本体产生多个断言;至少部分基于信息表示语言的语法来确定信息候选;以及至少部分基于所述多个断言来验证所述信息候选。

【技术特征摘要】
【国外来华专利技术】1.一种用于从万维网上的语义数据提取信息的方法,所述方法包
括:
至少部分基于与所述语义数据对应的本体的多个声明来从所述本体产生
多个断言;
至少部分基于信息表示语言的语法来确定信息候选;以及
至少部分基于所述多个断言来验证所述信息候选。
2.根据权利要求1所述的方法,其中从所述对应的本体产生多个断
言包括至少部分基于术语集合(Tbox)分类和断言集合(Abox)采样来产生
一个或多个断言。
3.根据权利要求2所述的方法,其中产生多个断言包括至少部分基
于Tbox分类确定概念层次树和角色层次树。
4.根据权利要求1所述的方法,其中产生多个断言包括至少部分基
于所述Abox采样来确定断言模式。
5.根据权利要求4所述的方法,其中确定断言模式包括至少部分基
于所述Abox采样和所述Tbox分类来产生多个提炼的断言。
6.根据权利要求1所述的方法,其中确定信息候选包括至少部分基
于描述逻辑来确定信息候选。
7.根据权利要求6所述的方法,其中至少部分基于描述逻辑来确定
信息候选包括至少部分基于网络本体语言(OWL)来确定信息候选。
8.根据权利要求1所述的方法,其中确定信息候选包括至少部分基
于信息表示语言的语法和包括在所述Tbox分类中的签名来确定信息候选。
9.根据权利要求1所述的方法,其中确定信息候选包括至少部分基
于新颖性规则来确定信息候选。
10.根据权利要求1所述的方法,其中确定信息候选包括至少部分基
于简单性规则来确定信息候选。
11.根据权利要求1所述的方法,其中验证信息包括确定近似Abox
采样。
12.根据权利要求1所述的方法,其中验证信息包括至少部分基于多
数决定规则来计算概念候选的确定性水平。
13.一种机器可读非暂态介质,所述机器可读非暂态介质具有存储在
其中的指令,所述指令当被一个或多个处理器执行时操作地使得语义数据处
理模块实现:
至少部分基于术语集合(Tbox)分类和断言集合(Abox)采样来从与
所述语义数据对应的本体产生多个断言;
至少部分基于信息表示语言的语法来确定信息候选;以及
至少部分基于多个断言来验证所述信息候选。
14.根据权利要求13所述的机器可读非暂态介质,其中所述存储的指
令当被一个或多个处理器执行时进一步操作地使得所述语义数据处理模块实
现至少部分基于Tbox分类确定概念层次树和角色层次树。
15.根据权利要求14所述的机器可读非暂态介质,其中所述存储的指
令当被一个或多个处理器执行时进一步操作地使得所述语义数据处理模块实
现至少部分基于所述概念层次树和所述角色层次树来将实例分配给概念和角
色中的至少一个。
16.根据权利要求13所述的机器可读非暂态介质,其中所述存储的指
令当被一个或多个处理器执行时进一步操作地使得所述语义数据处理模块实
现至少部分基于所述Abox采样来确定断言模式。
17.根据权利要求16所述的机器可读非暂态介质,其中所述存储的指
令当被一个或多个处理器执行时进一步操作地使得所述语义数据...

【专利技术属性】
技术研发人员:方俊李达奇
申请(专利权)人:英派尔科技开发有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1