一种用于从数据集获取信息的方法和系统技术方案

技术编号:7809395 阅读:168 留言:0更新日期:2012-09-27 08:13
本发明专利技术公开了一种用于从数据集获取信息的方法和系统。该方法可以包括对表示所述数据集的图进行聚类以得到多个子图,其中所述图包括表示数据的节点,以及表示所述节点之间的关系的边;以及在得到的所述多个子图的至少一个子图内进行推理。根据该方法,对图的聚类是以无监督的方式进行的,其不需要任何预先定义的模型,因此非常灵活且具有很强的适应性。另外,基于聚类而得到的每个子图中的节点数目及其关系均得到限制,因此根据本发明专利技术的实施方式,推理规模易于控制从而使得推理效率得以提高。

【技术实现步骤摘要】

本专利技术涉及智能数据分析
,更具体地涉及用于从数据集获取信息的方法和系统
技术介绍
随着信息技术和网络技术的发展,各种数据和信息资源越来越为丰富,为了有效地对这些信息进行管理,W3C提出了用于描述这些资源的方法,即资源描述框架(RDF)。根据RDF的定义,数据或者资源可以使用ー个三元组来表示,该三元组包括主体、谓语和客体,其中主体和客体指示数据或者资源,谓语指示主体和客体之间的关系。例如,对于三兀组 instanceOf (X, author), instanceOf (Y, paper), hasPaper (X, Y)以及 Topic (Y, D),其分别表示X是作者,Y是论文,作者X是论文Y的作者,以及D是论文Y的主題。基于这样的三元组,可以利用逻辑语言来描述规则(或者公理)以便利用该规则来执行自动推理过程。一个规则的实例为“hasPaper (X,Y) AND Topic (Y,D)- > author (X,D) ”,其表示如果作者X是论文Y的作者且论文Y的主题为D,则作者X是主题D的作者或者主题D方面的专家。这样的描述机制使得自动化推理成为可能,从而可以基于三元组和规则来实现智能语义信息检索和挖掘。在对大规模数据或者网络规模数据进行推理时,效率一直是令人困扰并亟待解决的难题。而且这一问题也成为在实际的信息处理中广泛应用语义推理的障碍。针对该问题,在本领域中已经提出了一些解决方案。例如在美国专利US7689526B2中提出了一种解决方案,根据该解决方案,首先基于已有的知识规则对数据进行分类,然后针对分类后的数据利用压缩模型来表示知识规则。该方案g在通过使用由压缩模型表示的规则来提高推理效率。另夕卜,在由E. Amir 和 S. McIIraith 发表于 Representation and Reasoning (2000)题为“Partition-based Logical Reasoning”一文中,公开了另ー种解决方案,该解决方案首先对规则集进行分析,然后对规则进行划分,以由此来改善推理效率。前述两种解决方案都是通过对规则进行预处理来改善推理效率,因此属于基于规则的技木。然而,由于规则通常是仅仅适用于特定情形(例如,依赖于查询),因此这两种解决方案具有适应性不好、灵活性较差的缺陷。此外,对于数据量巨大的情況,即便是利用一条规则来进行推理也需花费大量时间,因此在这种情况下,这两种解决方案对效率改善具有有限的作用。此タ卜,在由Y. Zeng, Y. Wang, Z. Huang 和 N. Zhong 发表于 Lecture Notes inComputer Science (2009, Vol. 5820,第 418-429 页)题为 “Unifying Web-Scale Searchand Reasoning from the Viewpoint of Granularity,,一文中,公开了一种基于模型的节点分组技术的解决方案。出于说明的目的,在图IA至图IC中示意性地示出了根据该技术方案的原理的图示。如图IA所示,根据该解决方案,数据集通过包括节点和边的图来表示,其中节点表示数据或者资源,例如RDF的主体和客体,边表示数据或者资源之间的关系,例如RDF的谓语。为了清晰起见,在图IA中分别采用圆形、方形和三角形图案的节点来表示前面给出的三元组的示例中的作者、论文和主題,圆形节点与方形节点之间的边(链接)表示“hasPaper”这ー关系,以及方形节点与三角形节点之间边(链接)表示“hasTopic”这ー关系O接着,如图IB所示,可以基于预先建立的节点分组模型,对该图中的节点执行分组操作,从而得到一个排序的节点组列表。节点组列表的排序是基于例如作者论文的数目来进行,论文数目较多的作者排序较为靠前。然后,如图IC所示,按照各个节点组的排序,分别在第一、第二和第三推理事务中,对各个节点组逐个地执行推理,推理的范围为对应节点组及与该节点组相连通的所有其他节点,以及这些节点之间的边。由于这ー技术方案是通过预先建立的节点分组模型来针对数据进行预处理,所以这种方案对于预先建立的节点分组模型具有很大的依赖性,这使得该解决方案的灵活性较 差,不能适用于动态的查询需求。另外,该解决方案是通过节点分组限制推理規模,但其仅仅限制了触发推理的节点的数量,由于节点之间还存在大量错综复杂的关系,所以推理规模实际上难以得到有效的控制。此外,根据该技术方案,在每个推理事务中还涉及大量重复的节点,这也进一步恶化了推理模块的控制有效性。为此,本领域存在一种对于在数据分析过程中采用的推理技术进行改进的迫切需要。
技术实现思路
有鉴于此,本专利技术提供了一种用于从数据集获取信息的方法和系统,以克服或者至少部分消除现有技术中存在的缺陷。根据本专利技术的ー个方面,提供了一种用于从数据集获取信息的方法。该方法可以包括对表示所述数据集的图进行聚类以得到多个子图,其中所述图包括表示数据的节点以及表示所述节点之间的关系的边;以及针对得到的所述多个子图的至少ー个在子图的范围内进行推理。在根据本专利技术的ー个优选实施方式中,该方法可以进一歩包括根据各个子图的重要性,对得到的所述多个子图进行排序。在该实施方式中,推理可以按照所述多个子图的排序依次地进行。在根据本专利技术的一个实施方式中,各个子图的重要性可以由以下其中一项或者多项来度量子图的紧密度;子图的独立性;以及子图的层级。在根据本专利技术的另ー实施方式中,该方法可以进一歩包括响应于在一子图中进行推理未得到结果,通过扩展到其他子图中与该子图相连的节点来进行推理。在根据本专利技术的再ー实施方式中,按照以下各项其中之一来选择其他子图中与该子图相连的节点子图的排序;该子图中缺少的节点关系类型;以及节点之间的关系的优先级。在根据本专利技术的又ー实施方式中,该方法可以进一歩包括响应于通过扩展到其他子图中与该子图相连的节点来进行推理得到结果,合并所述子图和所述其他子图以形成新子图;以及在所述新子图内进行推理。 在根据本专利技术的另ー优选实施方式中,该方法可以进一歩包括保存新子图以供随后使用。此外,根据本专利技术的另一方面,还提供了一种用于从数据集获取信息的系统。该系统可以包括聚类装置,配置用于对表示所述数据集的图进行聚类以得到多个子图,其中所述图包括表示数据的节点以及表示所述节点之间的关系的边;以及推理装置,配置用于针对得到的所述多个子图的至少ー个在子图的范围内进行推理。根据本专利技术的实施方式,对图的聚类是以无监瞀的方式进行的,其不需要任何预先定义的模型,因此非常灵活且具有很强的适应性。另外,推理在子图范围内进行,基于聚类而得到的每个子图中的节点数目及其关系均得到限制,且基于聚类而得到的每个子图中没有重复的节点和关系。因此根据本专利技术的实施方式,推理规模易于控制,从而使得推理效率得以提尚。附图说明通过对结合附图所示出的实施方式进行详细说明,本专利技术的上述以及其他特征将更加明显,本专利技术附图中相同的标号表示相同或相似的部件。在附图中图IA至图IC示出了根据现有技术的ー种从数据集获取信息的技术方案。图2示出了根据本专利技术的一个实施方式用于从数据集获取信息的方法的流程图。图3是示出了本专利技术的原理的示意图。图4示出了根据本专利技术的另ー本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于从数据集获取信息的方法,包括 对表示所述数据集的图进行聚类以得到多个子图,其中所述图包括表示数据的节点以及表示所述节点之间的关系的边;以及 针对得到的所述多个子图的至少ー个在子图的范围内进行推理。2.根据权利要求I所述的方法,进ー步包括 根据各个子图的重要性,对得到的所述多个子图进行排序,以及 其中所述推理按照所述多个子图的排序进行。3.根据权利要求2所述的方法,其中所述重要性由以下其中一项或者多项来度量 子图的紧密度; 子图的独立性;以及 子图的层级。4.根据权利要求I所述的方法,进ー步包括 响应于在一子图中进行推理未得到结果,通过扩展到其他子图中与该子图相连的节点来进行推理。5.根据权利要求4所述的方法,其中,按照以下各项其中之一来选择其他子图中与该子图相连的节点 子图的排序; 该子图中缺少的节点关系类型;以及 节点之间的关系的优先级。6.根据权利要求4所述的方法,进ー步包括 响应于通过扩展到其他子图中与该子图相连的节点来进行推理得到结果,合并所述子图和所述其他子图以形成新子图;以及在所述新子图内进行推理。7.根据权利要求6所述的方法,进ー步包括 保存所述新子图以供随后使用。8.一种用于从数据集获取信息的系统,包括 聚类装置,配置用于对表示所述数据集的图进行聚类以...

【专利技术属性】
技术研发人员:赵彧李建强刘博
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1