一种用于从数据集获取信息的方法和系统技术方案

技术编号：7809395 阅读：168 留言：0更新日期：2012-09-27 08:13

本发明专利技术公开了一种用于从数据集获取信息的方法和系统。该方法可以包括对表示所述数据集的图进行聚类以得到多个子图，其中所述图包括表示数据的节点，以及表示所述节点之间的关系的边；以及在得到的所述多个子图的至少一个子图内进行推理。根据该方法，对图的聚类是以无监督的方式进行的，其不需要任何预先定义的模型，因此非常灵活且具有很强的适应性。另外，基于聚类而得到的每个子图中的节点数目及其关系均得到限制，因此根据本发明专利技术的实施方式，推理规模易于控制从而使得推理效率得以提高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能数据分析
，更具体地涉及用于从数据集获取信息的方法和系统。
技术介绍
随着信息技术和网络技术的发展，各种数据和信息资源越来越为丰富，为了有效地对这些信息进行管理，W3C提出了用于描述这些资源的方法，即资源描述框架(RDF)。根据RDF的定义，数据或者资源可以使用ー个三元组来表示，该三元组包括主体、谓语和客体，其中主体和客体指示数据或者资源，谓语指示主体和客体之间的关系。例如，对于三兀组 instanceOf (X, author), instanceOf (Y, paper), hasPaper (X, Y)以及 Topic (Y, D)，其分别表示X是作者，Y是论文，作者X是论文Y的作者，以及D是论文Y的主題。基于这样的三元组，可以利用逻辑语言来描述规则(或者公理)以便利用该规则来执行自动推理过程。一个规则的实例为“hasPaper (X，Y) AND Topic (Y，D)- > author (X,D) ”，其表示如果作者X是论文Y的作者且论文Y的主题为D，则作者X是主题D的作者或者主题D方面的专家。这样的描述机制使得自动化推理成为可能，从而可以基于三元组和规则来实现智能语义信息检索和挖掘。在对大规模数据或者网络规模数据进行推理时，效率一直是令人困扰并亟待解决的难题。而且这一问题也成为在实际的信息处理中广泛应用语义推理的障碍。针对该问题，在本领域中已经提出了一些解决方案。例如在美国专利US7689526B2中提出了一种解决方案，根据该解决方案，首先基于已有的知识规则对数据进行分类，然后针对分类后的数据利用压缩模型来表示...

【技术保护点】

【技术特征摘要】
1.一种用于从数据集获取信息的方法，包括对表示所述数据集的图进行聚类以得到多个子图，其中所述图包括表示数据的节点以及表示所述节点之间的关系的边；以及针对得到的所述多个子图的至少ー个在子图的范围内进行推理。2.根据权利要求I所述的方法，进ー步包括根据各个子图的重要性，对得到的所述多个子图进行排序，以及其中所述推理按照所述多个子图的排序进行。3.根据权利要求2所述的方法，其中所述重要性由以下其中一项或者多项来度量子图的紧密度；子图的独立性；以及子图的层级。4.根据权利要求I所述的方法，进ー步包括响应于在一子图中进行推理未得到结果，通过扩展到其他子图中与该子图相连的节点来进行推理。5.根据权利要求4所述的方法，其中，按照以下各项其中之一来选择其他子图中与该子图相连的节点子图的排序；该子图中缺少的节点关系类型；以及节点之间的关系的优先级。6.根据权利要求4所述的方法，进ー步包括响应于通过扩展到其他子图中与该子图相连的节点来进行推理得到结果，合并所述子图和所述其他子图以形成新子图；以及在所述新子图内进行推理。7.根据权利要求6所述的方法，进ー步包括保存所述新子图以供随后使用。8.一种用于从数据集获取信息的系统，包括聚类装置，配置用于对表示所述数据集的图进行聚类以...

【专利技术属性】
技术研发人员：赵彧，李建强，刘博，
申请(专利权)人：日电中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人