用于对图数据流中的对象分类的方法技术

技术编号:8886470 阅读:193 留言:0更新日期:2013-07-05 03:20
一种用于分类图数据流中的对象的方法,其包括:接收图数据的训练流(210),该训练流包括多个对象连同与这些对象中的每一个相关联的类别标签;第一判定该训练流中用于所述类别标签的辨别性边集合(220),其中一辨别性边集合为指示含有这些边的具有一给定类别标签的对象的边集合;接收该图数据的传入数据流(230),其中尚未将类别标签指派给该传入数据流中的对象;基于该辨别性边集合第二判定与该传入数据流中的对象相关联的类别标签(240);以及基于该第二判定将对象类别标签对输出至信息储存库(250)。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及大规模图流(graph stream)的分类。
技术介绍
在机器学习中,分类是将类别标签指派给输入对象。分类发生于若干领域(诸如,化学及生物数据、web及通信网路)的情境下。作为示例,web查询主题分类/归类涉及基于查询的主题将web搜寻查询(例如,输入对象)指派给一个或多个预定义的类别(例如,类别标签)。举例而言,发出web查询“苹果”的用户可能期望看到与水果苹果相关的网页,或其可能更愿意看到与该计算机公司相关的产品或新闻。可根据由一查询分类算法预测的种类来对搜寻结果页进行分组。许多数据域(诸如,化学数据、生物数据及web)被结构化为图。在化学及生物领域中,可从适度的概率库取得图的节点,且假定数据集具有适度的大小。另一方面,可在大规模的基础节点全域上定义web图、通信网络及社交网络。具有IO7以上的节点的图可含有多达IO13个边,且由此被视为大规模的。这些节点可对应于web图中的URL地址、通信网络中的IP地址或社交网络中的用户标识符。这些URL地址、IP地址及用户标识符之间的连结为边。在流传输应用中,将在某一外部环境中产生的数据异步地推送至处理此信息的服务器。流传输应用的特征为以及时及响应的方式处理高容量数据流的能力。大规模图流可包括用户在社交网络中的通信模式(pattern)、所有用户的浏览模式或通信网络上的侵入通信流(traf f i c )。当大规模图呈流形式时,这限制了可用以挖掘结构信息以用于未来分析的算法的种类。举例而言,流约束仅允许在数据上执行一遍。此外,图的边可能在数据流中无序地到达。图的大规模尺寸也对有效提取与分类相关的信息产生挑战。举例而言,难以在图数据中存储关于大量相异边的概要信息。此外,由于结构行为是由大量相异边的组合控制的,因此子结构判定问题的复杂性的指数级增加随着子结构的基数而极为快速。在这样的情况下,频繁的辨别性子图的判定可在计算及空间上效率低下至不能实行的程度。
技术实现思路
本专利技术的例示性实施例提供用于分类图数据流中的对象的方法及计算机程序产品。该图数据流可包括表示元素的多个节点及表示这些元素之间的连接的边。该数据流中的对象可为一组节点连同这些节点之间的边。在一例示性方法中,接收图数据的训练流,其中该训练流包括多个对象连同与这些对象中的每一个相关联的类别标签。判定该训练流中的用于类别标签的辨别性边集合(例如,子图),其中一辨别性边集合为指示(但并非直接对应于)具有给定类别标签的包括这些边的对象的边集合。接着接收该图数据的一传入数据流,其中尚未将类别标签指派给该传入数据流中的对象。基于这些辨别性边集合,判定与该传入数据流中的对象相关联的类别标签。将基于该第二判定的对象类别标签对输出至一信息储存库。附图说明图1示出大规模图的部分;图2示出根据本专利技术的一例示性实施例的用于分类图数据流中的对象的方法的流程图;图3示出根据本专利技术的一例示性实施例的用于更新图数据流的每一传入边的min-hash (最小哈希)索引的算法;图4示出对应于图3中所示出的算法的部分的流程图;图5示出根据本专利技术的一例示性实施例的用于通过列压缩更新用于图数据流的每一传入图的min-hash索引的算法;图6示出对应于图5中所示出的算法的部分的流程图;以及图7示出用于实施本专利技术的例示性实施例的装置。具体实施例方式下文将描述根据本专利技术的一例示性实施例的用于分类图数据流中的对象的方法。该图数据流可为大规模的。该对象可包括图的节点及边,这些节点及边标识web冲浪的模式。举例而言,受访网站为节点,且自一个网页至另一网页的路径为边。因此,访问网页I且接着访问网页2且接着访问网页3的用户很可能为具有某一属性(即,很可能购买特定书籍)的用户。本专利技术旨在识别这些模式,且接着将相关标签指派给这些模式。为达成此目的,首先判定存在于图数据的训练流中的辨别性子图,接着给予其类别标签。简言之,以减少传入数据至小空间中的的二维(2D)哈希压缩技术来判定相关的边集合。接着,判定用于相关边集合的主要类别标签,且将其给予相应子图作为最终类别标签以获得辨别性子图。可接着使用这些辨别性子图来推断测试图流中的对象的类别标签。举例而言,在于流处理器处接收到包括反映上述web冲浪模式的对象的测试数据流的情况下,可访问包括辨别性子图及其相关联的类别标签的存储器以寻找对应于传入对象的这些子图。将传入对象所对应的子图的类别标签给予该对象。在此情况下,类别标签可指示该对象对应于很可能要购买特定书籍的用户的模式。图1示出大规模图的部分。在此示例中,示出web图100。然而,该大规模图可为通信网络、社交网络等的图。如图1中所示,web图100包括多个节点A — P及边(即,这些节点之间的箭头)。在图1中仅示出web图100的部分,因为web图100可含有(例如)IO7个以上的节点及IO13个以上的边。web图100的节点A — P可表示网页,且web图100的边可表示这些网页之间的超链接。web图100的链接结构保持了可用于多种数据挖掘目的的大量信息。举例而言,经由挖掘而识别的web浏览模式可由政府使用以对威胁进行分类且对抗恐怖主义,或由公司使用以通过将其客户所需准确地给予客户来建立更好的客户关系。图2为根据本专利技术的一例示性实施例的用于分类图数据流中的对象的方法的流程图。返回参看图1,对象可为一组节点A — P连同其边。举例而言,对象可包括节点A及B以及其间的单一边,或更多得多的节点及其间的边。如图2中所示出,流处理器接收来自web图100的数据训练流(210)。该流处理器可为能够执行诸如由纽约阿蒙克市的国际商业机器公司提供的InfoSphere Streams (先前称为System S)的实时流处理平台的计算环境。关于InfoSphere Streams 的细节提供于各种IBM 出版物中,包括(例如)2010年2月出版的Roger Rea及KrishnaMamidipaka 等人的题为 “IBM InfoSphere Streams, Redefining Real Time Analytics”的出版物。InfoSphere Streams 平台使用被称为流处理语言(SPL ;以前称为SPADE)的高阶编程语言。SPADE 描述于 “SPADE: System S Declarative Stream ProcessingEngine”(Gedik 等人,SIGM0D,2008 年 6 月 9 日至 12 日,第 1123-1134 页)中。关于 SPL 的进一步细节描述于题为“SPL Stream Processing Language Specification”的IBM 研究报告(Hirzel 等人,RC24897 (W0911-044),2009 年 11 月 5 日)中。InfoSphere Streams 及流处理语言支持可横跨若干计算节点的分布式数据流处理应用。在一示例中,使用流处理语言声明性语言以对这些多运算符应用进行编程。流处理语言的以流为中心的设计意味着基础构建块为流的语言。流处理语言的基于运算符的编程聚焦于围绕最小可能的构建块来设计应用,所述最小可能的构建块是提供一应用被设计为执行的计算所必需的。在步骤210中接收的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:C·阿加瓦尔
申请(专利权)人:国际商业机器公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1